Forschung
30.10.2017
Blick hinter die Kulissen
1. Teil: „Zu Gast beim Forschungrechner SuperMUC “

Zu Gast beim Forschungrechner SuperMUC

SuperMUCSuperMUCSuperMUC
Stefan Bordel
Wenn Astrophysikern im Labor die Rechenpower ausgeht, springt der SuperMUC aus dem Leibniz Rechenzentrum mit knapp 250.000 Prozessorkernen und 6,8 PetaFLOPS ein.
Hardware für die Forschung: Im Leibniz Rechenzentrum (LRZ) in Garching bei München steht einer der stärksten Supercomputer Europas. Das System trägt den Namen SuperMUC und dient Wissenschaftlern zur Berechnung komplexer Vorgänge. Das Pensum der Anwendungen reicht dabei von der Strömungsmechanik für den Fahrzeug- oder Flugzeugbau bis hin zu Astrophysik, Hochenergiephysik oder digitalen Geisteswissenschaften.
Wer den Rechenraum im obersten Stockwerk des LRZ betritt, wird von einem lauten Summen begrüßt. Verantwortlich hierfür ist aber nicht der SuperMUC selbst – der arbeitet dank einer Warmwasserkühlung praktisch lautlos. Den Geräuschpegel verursacht vielmehr ein Verbund zahlloser Router und Netzwerksysteme. Diese sind für die Weiterleitung der errechneten Daten zuständig und werden konventionell luftgekühlt.

Kommunikative Chips

Maximal stellt der SuperMUC eine Rechenleistung von 6,8 PetaFLOPS bereit. Dabei arbeiten dann alle fast 250.000 Prozessorkerne des Supercomputers an ein und derselben Aufgabe. Denn im SuperMUC können alle Chips untereinander kommunizieren. Dies sei eine Besonderheit des Systems. „Viele Prozessoren zu haben, ist das eine. Aber die Rechenpower von allen zu vereinen, das ist das Besondere“, erklärt LRZ-Mitarbeiter Ludger Palm. 
  • SuperMUC: Die Garchinger Anlage liefert maximal 6,8 PetaFLOPS an Rechenleistung.
    Quelle:
    Stefan Bordel
Im Gegensatz zu konventionellen Rechenzentren, wie sie von Amazon, Google & Co. betrieben werden, verfügt das System am LRZ über eine ganz spezielle Architektur. „Sie haben bei einem Supercomputer einen Rechner, der nicht nur eine hohe Rechenleistung hat, sondern auch eine hohe Speicherkapazität und ein starkes, leistungsfähiges Netzwerk“, erklärt LRZ-Leiter Dieter Kranzlmüller. Zudem seien alle drei Komponenten in einem Supercomputer für das System optimiert. Und der gesamte Rechner wiederum sei optimiert für eine bestimmte Anwendungsklasse.
Bei der Entwicklung eines herkömmlichen Rechenzen­trums konzentriert man sich hingegen meist nur auf einen dieser Aspekte. Als Beispiel nennt Kranzlmüller etwa die Google-Suche. Für diesen Dienst benötigen die Kalifornier lediglich eine verteilte Datenbank, die möglichst schnell die gesuchten Ergebnisse liefert. Ein großes Netzwerk ist bei diesem Einsatzszenario nicht erforderlich, da nicht viele Daten übertragen werden. Im Gegensatz dazu braucht der SuperMUC sehr wohl ein leistungsstarkes Netzwerk, da während der Berechnung sehr viel kommuniziert wird, etwa bei Simulationen von Vulkan-Ausbrüchen oder dergleichen.
Die Hauptunterschiede zwischen dem SuperMUC und einem konventionellen Rechenzentrum betreffen demnach die Rechnerarchitektur. Hinzu kommt allerdings, dass das LRZ noch weitere Punkte mitberücksichtigen muss. Denn während Amazon, Google oder Microsoft ihre Anlagen recht flexibel an Flüssen und anderen günstigen Standorten aufbauen können, ist das LRZ auf den Münchner Norden beschränkt. Hier ist die Isar, die zur Kühlung und Energiegewinnung dienen könnte, zu weit entfernt. Um trotz der nicht ganz perfekten Umgebung möglichst energieeffizient rechnen zu können, setzt das LRZ beim SuperMUC auf eine innovative Warmwasserkühlung.
2. Teil: „Innovative Kühlung“

Innovative Kühlung

Die Warmwasserkühlung zählt zu den großen Besonderheiten des Supercomputers. Sie wurde von IBM in Rüschlikon speziell für diesen Rechner entwickelt und soll einen energieeffizienten Betrieb gewährleisten. Das rund 35 Grad warme Kühlwasser der Anlage wird direkt über Kupferrohre auf die Bauteile geleitet. Für die Verbindung der Kühlleitungen mit den Chips kommt Wärmeleitpaste zum Einsatz, wie man sie auch von herkömmlichen PCs kennt. Je nach Workload des Supercomputers erwärmt sich das durchgeleitete Wasser dann auf 60 bis 65 Grad Celsius.
Über drei voneinander getrennte Kreisläufe leitet die An­lage das Kühlwasser auf das Dach des LRZ, wo es wieder auf seine Ausgangstemperatur heruntergekühlt wird. Das funktioniert laut LRZ-Leiter Kranzlmüller problemlos bis zu einer Außentemperatur von 35 Grad. Statistisch werde dieses Limit im Münchner Umland nur an einem einzigen Tag im Jahr überschritten. „Wenn uns dieser eine Tag nicht in die Quere kommt, brauchen wir keine Zusatzenergie, um zu kühlen.“ Im Vergleich zu einer konventionellen Luftkühlung benötigt die Kühlanlage des SuperMUC weitaus weniger Energie.
„Der Vorgänger des SuperMUC wurde noch über Luft gekühlt“, sagt Ludger Palm. „Damals benötigten wir ein Megawatt für den Betrieb des Rechners und ein halbes Megawatt für die Kühlung.“ Der SuperMUC hingegen braucht drei Megawatt für den Betrieb des Rechners, aber lediglich etwa 200 Kilowatt für die Kühlung. In Kombination mit der ebenfalls auf Energieeffizienz ausgelegten Software sollen dank der Warmwasserkühlung Einsparungen von bis zu 40 Prozent möglich sein.
Welche Leistung der Supercomputer zur Verfügung stellt, hängt maßgeblich vom jeweiligen Workload ab. Prinzipiell gibt es einen Energiesparmodus, einen mittleren Modus und den Turbomodus. Beim Betrieb wird permanent gemessen, ob der eingesetzte Modus auch der richtige ist, um die Anlage so energieeffizient wie möglich zu betreiben.

Härtetest in der Praxis

  • Neue Wege: Die Adsorptionskältemaschinen nutzen die Abwärme des Rechners zur Kühlung.
    Quelle:
    Stefan Bordel
Für IBM ist der SuperMUC der Beweis dafür, dass der neuartige Kühlansatz auch in der Praxis funktioniert. Im kommerziellen Einsatz lassen sich durch die Technologie kleinere Rechenzentren weitaus unkomplizierter und wirtschaftlicher kühlen. Durch den Wegfall aufwendiger Kühlanlagen sparen Unternehmen Kosten für Räumlichkeiten und Strom. Als technologischer Vorreiter fördert das LRZ die Entwickler solcher Technologien. Denn was sich im wissenschaftlichen Alltag bewährt, ist auch fit für die Industrie.
Ein ähnlich innovativer Ansatz wird aktuell am sogenannten CoolMUC-2 im LRZ getestet: Sechs Adsorptionskälte­maschinen der Firma SorTech wandeln die im Betrieb anfallende Abwärme des Rechners in Kälte um. Das heruntergekühlte Wasser dient wiederum zur Kühlung weiterer Systeme. Dadurch lassen sich sowohl der Rechner als auch verbundene Systeme über einen Kühlkreislauf betreiben, der keine zusätzliche Energie für die Kühlung erfordert. Derzeit bewährt sich die Lösung noch beim CoolMUC-2, bei einem der SuperMUC-Nachfolger könnte die Tech­nologie aber bereits umfassend zum Einsatz kommen.
3. Teil: „Nachfolger kommt 2019“

Nachfolger kommt 2019

Die Verhandlungen für den Nachfolger des LRZ-Supercomputers laufen bereits. Der neue Rechner soll den Namen SuperMUC NG tragen, wobei NG für Next Generation steht.  Bei der Konfiguration des für 2019 geplanten Systems gilt es in erster Linie, möglichst genau den Rechenanforderungen der Wissenschaftler gerecht zu werden. „Das ist eine spannende Frage, da wir jetzt also wissen müssen, was wir in den nächsten fünf Jahren rechnen wollen“, so Kranzlmüller. Darüber hinaus haben auch die Gespräche für den Rechner schon begonnen, der auf den SuperMUC NG folgen soll. Hierbei werde man sich bereits in Richtung Smart Exa­scale bewegen, was abermals einen gehörigen Sprung nach vorn bei der Rechenleistung sowie bei der Speicher -und Kommunikationsleistung bedeute.
Kranzlmüller: „Interessanterweise können Wissenschaftler ihren künftigen Rechenbedarf relativ gut abschätzen.“ Prinzipiell gehe es jedoch immer darum, mit einem neuen System Berechnungen vornehmen zu können, die mit der bisherigen Technologie noch nicht möglich gewesen wären. Und der Rechenbedarf der Wissenschaftler ist in vielen Bereichen stets höher als das technisch Mögliche.
Wie hoch die reine Rechenleistung in PetaFLOPS beim kommenden Garchinger Supercomputer ausfallen wird, spielt hingegen eine untergeordnete Rolle. In der Liste der schnellsten Supercomputer der Welt, der Top 500, wird sich das System sicherlich wieder einen der vorderen Plätze sichern. „Wie weit vorne, dass sehen wir dann. Das hängt davon ab, ob jetzt die Kollegen in China und den USA neu in­stallieren und wann genau hier der Installationszeitpunkt ist. Wir sind sicher glücklich, wenn wir unter den besten zehn sind, aber das ist nicht das eigentliche Ziel“, sagt Kranzlmüller. „Für uns zählt nur, dass unsere Wissenschaftler wieder die Arbeiten verrichten können, die sie wollen. Und das, was die Wissenschaft berechnet, folgt nicht unbedingt den Kennzahlen der Top 500.“

Wissenschaft im Fokus

Im Zentrum sämtlicher Überlegungen des LRZ steht also stets die Wissenschaft, für die die
gesamte Anlage auch zu 100 Prozent genutzt wird. Eine kommerzielle Nutzung des Supercomputers ist nicht möglich. „Man kann bei uns keine Rechenzeit kaufen“, betont der LRZ-Leiter. „Wenn jetzt ein kommerzieller Partner mit einem unserer wissenschaftlichen Kunden an irgendeinem Projekt zusammenarbeitet, dann kann es natürlich sein, dass Modelle simuliert werden, die durchaus für den Industriepartner spannend sind. Aber der Sinn und Zweck der Anlage ist immer die Wissenschaft.“
Wer den SuperMUC im LRZ für Berechnungen nutzen möchte, muss zunächst eine wissenschaftliche Fragestellung formulieren. Dadurch gebe es die Möglichkeit für eine Zusammenarbeit mit den Kollegen an den Münchner Universitäten, die sich dann um Rechenzyklen bewerben können. Und diese Zyklen sind sehr gefragt. Die Wissenschaftler wenden sich an das LRZ, sobald die Rechenleistung der herkömmlichen Systeme der Universitäten nicht mehr ausreicht.
SuperMUC in Zahlen
Betriebssystem: Suse Linux Enterprise Server
Prozessoren: 156.000
Rechenleistung: 6,8 PetaFLOPS
Parallel Storage: 15 PByte
NAS Storage: 3,5 PByte (plus 3,5 PByte Replication)
Memory: 536,56 TByte
Nicht alle Berechnungen müssen im LRZ aber direkt am Supercomputer ausgeführt werden. „Wir bieten viele Zwischenlösungen mit Spezialarchitekturen, zum Beispiel für Big Data oder Machine-Learning-Anwendungen. Dazu haben wir etwa ein eigenes Cluster für diesen Anwendungsbereich.“ Ebenfalls bedeutend sei das Zentrum für Virtuelle Realität und Visualisierung (V2C) des LRZ. Dieses bietet Kunden die Möglichkeit, wissenschaftliche Daten in irgendeiner Form grafisch darzustellen und zu untersuchen. Gleichzeitig werde hier aber auch Selbstforschung betrieben, um das Potenzial künftiger VR-Technologien auszuloten.
Von den Erkenntnissen, die aus den Berechnungen des Super­MUC und der Anlage selbst hervorgehen, profitiert neben der Wissenschaft aber auch die Industrie. Denn die Wissenschaft bewegt sich selbstverständlich auch in Bereichen, die später einmal interessant für einen kommerziellen Einsatz werden. Beispielsweise sei das energieeffiziente Rechnen für die Automobilindustrie sehr interessant. So benötigen etwa autonome E-Fahrzeuge viel Rechenleistung, um den Straßenverkehr exakt zu analysieren. Je effizienter dieses Rechensystem ist, desto höher wird die Reichweite des Autos ausfallen. Damit trägt das LRZ in Garching mit den dort durchgeführten Untersuchungen aktiv zur Entwicklung neuer Technologien bei, die über kurz oder lang auch im kommerziellen Sektor Einzug halten.

mehr zum Thema