Betriebskonzept RWTH Hochleistungsrechnen

 

Der Hochleistungsrechner wird von dem IT Center an der RWTH Aachen University betrieben und steht Hochschulangehörigen der RWTH Aachen University sowie Wissenschaftlerinnen und Wissenschaftlern aus ganz Deutschland zur Verfügung. Das Betriebskonzept stellt nach dem „1-Cluster-Konzept“ den Nutzenden alle Ressourcen des Clusters mittels einer Schnittstelle zur Verfügung, so dass verschiedene Ausbaustufen, innovative Architekturen und Daten mittels derselben Prozesse genutzt werden können.

Das 1-Cluster-Konzept

Aus der Entwicklung heraus stand und steht das IT Center vor der Herausforderung, eine heterogene Systemlandschaft zu betreiben, innovative Architekturen einzubinden und verschiedensten Nutzergruppen in unterschiedlicher Weise den Zugang zu ermöglichen. Aus diesen Anforderungen hat sich das 1-Cluster-Konzept entwickelt. Dieses zielt darauf ab, alle Komponenten in einem großen Cluster zu betreiben und bietet die folgenden Vorteile:

  • Den Nutzenden stehen im gesamten Cluster dieselben Schnittstellen bezüglich Identity-Management, Dialog-Systemen, Workload-Management-System, Betriebssystem, Softwarestack und Datei-Systemen zur Verfügung. Die Kenntnisse der zentralen Komponenten bleiben für die Nutzenden auf das Notwendige beschränkt, die Konzentration auf eine Schnittstelle erleichtert die Kommunikation und die Dokumentation ist einfacher zu pflegen.
  • Durch die Nutzung einer eigenen Lösung für das Cluster-Management skalieren betriebliche Prozesse optimal und können an verschiedene Szenarien angepasst werden. Die Verknüpfung der verschiedenen Cluster-Management-Werkzeuge erlaubt zum Beispiel, Änderungen im gesamten Cluster auf Basis von Monitoring-Daten durchzuführen, da diese auf derselben technischen Basis aufbauen.
  • Hierdurch ist es seit Jahren möglich, das HPC System ohne feste Wartungsfenster zu betreiben, was für die Nutzenden zu einer sehr hohen Verfügbarkeit des Systems mit sehr wenigen Betriebsunterbrechungen führt. Diese sind nur in Ausnahmefällen wie Wartungsarbeiten an den Filesystemen oder großer Umstellungen wie zum Beispiel dem Wechsel des Betriebssystems notwendig. Für kleiner Wartungsarbeiten wie zum Beispiel das Einspielen neuer Kernelversionen wird das Batchsystem genutzt, was für den Nutzenden keine Einschränkungen bedeutet.
  • Die Zusammenfassung des Clusters in dieser Weise führt zu hoch skalierenden betrieblichen Prozessen und ermöglicht es, dass neue und innovative Funktionen sofort auf allen geeigneten Architekturen und Ausbaustufen zur Verfügung stehen. Darüber hinaus ist es dadurch möglich eine große Anzahl neuer Systeme, etwa bei der Erweiterung durch eine neue Ausbaustufe, in kürzester Zeit aufzusetzen und in den Cluster zu integrieren.
  • Differenzierungen, z.B. zwischen den Prozessor-Architekturen oder Server-Typen, erfolgen auf Seite der Nutzenden nach Berücksichtigung in der technisch-wissenschaftlichen Begutachtung im Beantragungsprozess, auf der betrieblichen Seite im kleinstmöglichen Umfang.

Der Aufbau des Clusters spiegelt das 1-Cluster-Konzept wider. Dabei bilden die Dialog-Systeme für die Nutzenden die Schnittstelle zum Hochleistungsrechner dar. Über diese können Vorbereitung, Beauftragung, Steuerung und Auswertung von Rechenaufträgen erfolgen und Entwicklungs- und Analyse-Anwendungen genutzt werden. Über spezielle Copy-Knoten mit breitbandigem Anschluss an das Hochschul- und Wissenschaftsnetzwerk können große Datenmengen in und aus dem Hochleistungsrechner transferiert werden. Die großen Gruppen der Backend-Systeme (CLAIX-2016, CLAIX-2018, Tier-3, Innovative Architekturen (GPU, KNL), Integratives Hosting) werden über das Workload Management System zur Verfügung gestellt und sind nicht direkt zugänglich. Die Datei-Systeme sind aus dem gesamten Cluster zu erreichen und können von den Nutzenden als $HOME, $WORK und $HPCWORK angesprochen werden. Die Großteile der einzelnen Backend-Gruppen sind untereinander über performante und redundante Omnipath-Netzwerke miteinander verbunden.

Dateisysteme

Zur Speicherung der Daten werden den Nutzenden des Hochleistungsrechners verschiedene Dateisysteme zur Verfügung gestellt, die sich hinsichtlich der angedachten Nutzungsszenarien unterscheiden. Diese Unterschiede machen sich in Form der Leistungsfähigkeit in verschiedenen Metriken, dem zur Verfügung stehenden Platzangebot sowie den Datensicherungskonzepten bemerkbar. Folgende Dateisysteme können dabei genutzt werden:

  • $HOME
    Bei $HOME handelt es sich um ein NFS basiertes Dateisystem, auf dem den Nutzenden standardmäßig 150 GB Speicherplatz zur Verfügung stehen um die wichtigsten Daten wie Quellcodes und Konfigurationsdateien abzulegen. Durch die Verwendung von Snapshot Mechanismen und der Datensicherung im Backup-System der RWTH Aachen University kann hier eine sehr hohe Datensicherheit garantiert werden. Dies zeigt sich auch in der 100%igen Verfügbarkeit des Dateisystems in den Jahren 2016 bis 2019.
  • $WORK
    Auch bei $WORK handelt sich um ein NFS Dateisystem. Dieses ist technisch allerdings so aufgebaut, dass es eher für die Ablage größere Dateien gedacht ist. Hierzu zählen zum Beispiel Ergebnisse von durchgeführten Rechenaufträgen. Mit 250 GB steht den Nutzenden in diesem Dateisystem mehr Speicherplatz zur Verfügung, diese Daten werden allerdings nicht gesichert, so dass diese reproduzierbar sein sollten. Versehentlich gelöschte Dateien können allerdings auf Basis von Snapshots wiederhergestellt werden.
  • $HPCWORK
    Bei $HPCWORK handelt es sich um zwei Dateisysteme die auf dem parallelen High Performance Filesystem Lustre basieren. Dieses zeichnet sich aufgrund der Funktionsweise durch hohe Schreib- und Leseraten aus. Mit einem Standardspeicherplatz von 1 TB ist das Platzangebot hier deutlich höher als bei den anderen Dateisystemen. Aufgrund der Datenmenge ist allerdings auch hier keine zentrale Datensicherung möglich.

Software

Der Software-Stack des Clusters wird durch das IT Center kontrolliert und teilweise auch selbst entwickelt. Dieser Ansatz wird seit langem verfolgt und bietet eine Reihe von Vorteilen:

  • Die Unabhängigkeit von Herstellern sichert die Flexibilität und erlaubt schnelle Anpassungen an die häufig wechselnden Anforderungen auf dem Gebiet der Forschung und Lehre (z.B. Integration innovativer Architekturen)
  • Einsparung der Lizenz- und Wartungsgebühren für Software (z.B. Betriebssystem)
  • Zugriff auf alle Schichten des Software-Stacks erlaubt effektive und effiziente Fehler-und Performance-Analyse sowie umfassende Änderungen als Reaktion auf die Analyse-Ergebnisse
  • Konsequente Verfolgung und Umsetzung einer OpenSource Strategie.

Als Betriebssystem wird mit CentOS eine offene Red Hat-basierte Linux-Variante eingesetzt.

Das eingesetzte Workload-Management-System SLURM zur Verwaltung der Rechenaufträge auf den Backend-Systemen hat in 2019 den Vorgänger, IBM Platform LSF, erfolgreich abgelöst. Die Erfahrungen haben gezeigt, dass für das 1-Cluster-Konzept, die diversen integrierten Systemarchitekturen und die unterschiedlichen an das Batchsystem gestellten Anforderungen (Fairshare, Backfilling, Einsatz unterschiedliche MPIs, etc.), der Einsatz einer professionellen Lösung sinnvoll ist.

Für die Nutzenden werden in verschiedenen fachspezifischen Kategorien ca. 100 verschiedene ISV- und Open Source-Softwarepakete zur Verfügung gestellt. Das IT Center übernimmt zentral die Bereitstellung und Pflege bei einem entsprechend großen Bedarf und betreibt ggf. auch die notwendigen Lizenz-Server. Insbesondere Werkzeuge zur Nutzung des Clusters (z.B. grafische Schnittstellen), Parallelisierung (verschiedene MPI-Implementierungen), Programmierung (Compiler, Bibliotheken) und Anwendungs-Analyse (Debugger, Performance-Analyse und -Visualisierung) werden den Nutzenden zentral zur Verfügung gestellt.

Integratives Hosting

Für einzelne Institute oder Projekte besteht immer wieder der Bedarf eigene Systeme zu besitzen. Der Dienst Integratives Hosting baut auf dem 1-Cluster-Konzept auf und nutzt die Möglichkeiten zur skalierenden Erweiterung des Clusters. Das IT Center beschafft, installiert und betreibt aufbauend auf entsprechenden Rahmenverträgen zusätzliche HPC-Ressourcen für den Hochschulbedarf zur Unterstützung von Forschung und Lehre. Das Angebot verfolgt hierbei mehrere Zielsetzungen: Durch das zentrale Angebot von Ressourcen für die Hochschule können Synergieeffekte hinsichtlich der energetischen und betrieblichen Infrastruktur genutzt werden. Das Angebot erlaubt den Nutzenden die Konzentration auf ihren Anwendungsbereich, ohne administrative Leistungen einbringen zu müssen. Im Bereich der Kooperation mit externen Nutzenden bietet das Integrative Hosting eine Plattform für die Zusammenarbeit.

Die nach IT-Service Management in Service-Level-Agreements und Leistungsscheinen beschriebenen Ressourcen werden im Rahmen von Projekten zur Verfügung gestellt. Diese Projekte können durch die Verantwortlichen selbst verwaltet werden, indem sie andere Nutzende zu Projektmitgliedern bestimmen und entscheiden, ob die Ressourcen exklusiv oder gemeinsam mit anderen Projekten mittels Fairshare genutzt werden.