Performance analysis using POP methodology in spark big data applications
- Performanceanalyse von Big-Data-Anwendungen in Spark unter Nutzung der POP-Methodik
Brückner, Moritz; Müller, Matthias S. (Thesis advisor); Geisler, Sandra (Thesis advisor); Liem, Radita Tapaning Hesti (Consultant)
Aachen : RWTH Aachen University (2023)
Bachelorarbeit
Bachelorarbeit, RWTH Aachen University, 2023
Kurzfassung
Heutige Anwendungsprogramme müssen immer größeren Datenmengen gerecht werden und diese in einem akzeptablen Zeitrahmen mit limitierten Ressourcen verarbeiten können. Um diesen Ansprüchen nachzukommen, werden vielfach Frameworks wie Apache Hadoop oder Apache Spark verwendet, mit deren Hilfe eine Anwendung verteilt in einem Cluster-Netzwerk parallel ausgeführt werden kann. Ein häufiges Problem solcher Frameworks ist, dass sowohl die Konfiguration der Anwendung als auch die Art der Anwendung und die Struktur ihrer Daten einen großen, schwer einzuschätzenden Einfluss auf die Performance der Anwendung hat. Zudem scheint sich der Trend abzuzeichnen, dass sich die ursprünglich größtenteils unabhängigen Disziplinen des Hochleistungsrechnens (HPC) und dem Rechnen mit Massendaten (Big Data) langsam annähern und immer mehr überlagern. Dadurch gewinnt die Anwendung von Apache Spark auf HPC-Systemen an Relevanz und infolgedessen auch die Untersuchung der Performance von Spark-Applikationen auf ebendiesen Systemen. In dieser Arbeit wird die POP-Methodik, die ursprünglich für die Performanceanalyse von HPC-Anwendungen entwickelt wurde, auf Big-Data-Applikationen in Apache Spark angewandt. Kern der POP-Methodik ist es, einzelnen, die Performance beeinflussenden Aspekten einen Score zuzuordnen, mit dessen Hilfe ein umfassender und direkter Überblick über potenzielle Performance-Probleme einer Anwendung erlangt werden kann. Ziel dieser Arbeit ist die Untersuchung ausgewählter Spark-Benchmarks der HiBench-Benchmark-Suite, um mit den daraus gewonnenen Ergebnissen POP-Metriken für Spark-Applikationen abzuleiten. Zusätzlich zu den im HPC-Kontext verwendeten POP-Metriken werden weitere, Spark-spezifische Metriken vorgeschlagen, mit deren Hilfe die Bandbreite erkennbarer Probleme deutlich erweitert und eine präzisere Bestimmung ebendieser Probleme ermöglicht wird. Diese Arbeit kommt zu dem Ergebnis, dass sich die POP-Methodik grundsätzlich erfolgreich auf Spark-Applikationen anwenden lässt, wenngleich in bestimmten Fällen gewisse Einschränkungen oder Annahmen notwendig sind. Auch wenn sich die Metriken durch die in dieser Arbeit durchgeführten Experimente nicht zweifelsfrei in ihrer Korrektheit und Vollständigkeit verifizieren lassen, scheint die hier vorgestellte Methodik geeignet zu sein, eine große Anzahl verschiedener Performance-Probleme zu erkennen. Dennoch sind weitere Untersuchungen notwendig, um einige der vorgenommenen Einschränkungen bzw. Annahmen zu eliminieren und sowohl einzelne Metriken als auch die Methodik insgesamt weiter zu verbessern und zu validieren.
Einrichtungen
- IT Center [022000]
- Fachgruppe Informatik [120000]
- Lehrstuhl für Informatik 12 (Hochleistungsrechnen) [123010]
Identifikationsnummern
- DOI: 10.18154/RWTH-2023-03557
- RWTH PUBLICATIONS: RWTH-2023-03557