Machbarkeitsstudie für die Erkennung von verschiedenen Job Abschnitten mittels eines System Monitoring Daemons
- Feasibility study for detecting different job stages using a System Monitoring Daemon
Roigk, Julia; Müller, Matthias S. (Thesis advisor); Schulz, Martin (Thesis advisor); Schürhoff, Daniel (Consultant)
Aachen : RWTH Aachen University (2022)
Masterarbeit
Masterarbeit, RWTH Aachen University, 2022
Kurzfassung
Hochleistungsrechencluster sind leistungsstark aber teuer in Anschaffung und Betrieb, was die effiziente Nutzung der verfügbaren Ressourcen unverzichtbar macht. Auf den CLAIX Hochleistungsrechnern an der RWTH Aachen geschieht dies durch ein nicht-invasives Hintergrundmonitoring mithilfe eines Systemdaemons. Diese Monitoringdaten werden aktuell lediglich statistisch betrachtet, und zwei Aspekte des Hardware Performance Monitorings wurden bisher nur wenig untersucht: der Informationsgehalt der Rohdaten, sowie die Auswirkung der Monitoringauflösung auf die Softwareperformance. Es ist nicht klar, inwieweit die Rohdaten den aktuellen Analyseprozess erweitern können, und ob die aktuelle zeitliche Auflösung der Daten ausreichend ist, um interessante Muster abzubilden. Daher untersucht die vorliegende Arbeit, ob man diese Daten in verschiedenen Auflösungen verwenden kann, um verschiedene Jobabschnitte mit distinkten Ressourcenverwendungsprofilen zu erkennen. Wir beginnen damit, die Performanceeinbußen verschiedener Monitoringfrequenzen zu untersuchen. Die Messungen werden auf einem separaten CLAIX-2018 Clusterknoten vorgenommen, auf dem eine lokale Instanz des Monitoringsetups läuft. So können Änderungen direkt vorgenommen werden, ohne das Produktivsystem zu beeinflussen. In einem zweiten Schritt untersuchen wir die Ausprägung von Jobabschnitten in den Monitoringdaten unter der Verwendung verschiedener Monitoringfrequenzen. Mithilfe der daraus gewonnenen Erkenntnissen etablieren wir ein Regelset, mit dem Jobabschnitte sowie periodische Ressourcenauslastung erkannt werden können. Wir implementieren Filter auf Basis dieses Regelsets und wenden diese auf die gesammelten Monitoringdaten aus dem Zeitraum Januar bis Oktober 2021 an, um so Jobs mit distinkten Abschnitten zu finden. Zusätzlich beschreiben wir eine Möglichkeit, adaptiv die Monitoringfrequenz anzupassen. Dies erlaubt Jobs gezielt näher zu beobachten, ohne die signifkanten Performanceeinbußen in Kauf nehmen zu müssen, die mit engmaschigerem Monitoring einhergehen.
Einrichtungen
- Fachgruppe Informatik [120000]
- Lehrstuhl für Informatik 12 (Hochleistungsrechnen) [123010]
Identifikationsnummern
- DOI: 10.18154/RWTH-2022-05444
- RWTH PUBLICATIONS: RWTH-2022-05444