Flüssigkeit und Immersion sind die neue Coolness bei Supercomputing '22 • The Register

Blog

HeimHeim / Blog / Flüssigkeit und Immersion sind die neue Coolness bei Supercomputing '22 • The Register

Jun 11, 2023

Flüssigkeit und Immersion sind die neue Coolness bei Supercomputing '22 • The Register

SC22 Man kann mit Sicherheit sagen, dass Flüssigkeitskühlung diese Woche ein heißes Thema auf der Supercomputing Conference in Dallas war. Soweit das Auge reichte, war die Ausstellungshalle voller flüssigkeitsgekühlter Server,

SC22 Man kann mit Sicherheit sagen, dass Flüssigkeitskühlung diese Woche ein heißes Thema auf der Supercomputing Conference in Dallas war.

Soweit das Auge reichte, war die Ausstellungshalle vollgepackt mit flüssigkeitsgekühlten Servern, ölgefüllten Tauchkühltanks und allen Armaturen, Pumpen und Kühlmittelverteilungseinheiten (CDUs), die Sie möglicherweise für den Einsatz der Technologie in einem Rechenzentrum benötigen .

Angesichts der Tatsache, dass es sich hier um eine Konferenz rund um Hochleistungsrechnen handelt, sollte die Betonung des Wärmemanagements nicht wirklich überraschen. Aber da mittlerweile 400-W-CPUs und 700-W-GPUs im Umlauf sind, handelt es sich kaum um ein ausschließliches HPC- oder KI-Problem. Da immer mehr Unternehmen ihre Rechenzentren um KI/ML-fähige Systeme erweitern möchten, sind 3-kW-, 5-kW- oder sogar 10-kW-Systeme nicht mehr so ​​verrückt.

Hier ist eine Aufschlüsselung des Flüssigkeitskühlungskits, das uns auf der diesjährigen Messe aufgefallen ist.

Die überwiegende Mehrheit der Flüssigkeitskühlsysteme, die auf der SC22 gezeigt werden, sind Direkt-Flüssigkeits-Kühlsysteme. Diese ersetzen Kühlkörper und Lüfter aus Kupfer oder Aluminium gegen Kühlplatten, Gummischläuche und Armaturen.

Wenn wir ehrlich sind, sehen diese kalten Platten alle mehr oder weniger gleich aus. Sie sind im Wesentlichen nur ein ausgehöhlter Metallblock mit einem Einlass und Auslass, durch den Flüssigkeit strömen kann. Beachten Sie, dass wir hier das Wort „Flüssigkeit“ verwenden, da flüssigkeitsgekühlte Systeme eine beliebige Anzahl von Kühlmitteln verwenden können, bei denen es sich nicht unbedingt um Wasser handelt.

Ein flüssigkeitsgekühlter Server von Supermicro, ausgestattet mit CoolIT-Kühlplatten. - Klicken um zu vergrößern

In vielen Fällen beziehen OEMs ihre Kühlplatten von denselben Anbietern. CoolIT stellt beispielsweise Flüssigkeitskühlungshardware für mehrere OEMs bereit, darunter HPE und Supermicro.

Das heißt jedoch nicht, dass es keine Möglichkeit zur Differenzierung gibt. Das Innere dieser Kühlplatten ist mit Mikrorippenanordnungen gefüllt, die angepasst werden können, um den Flüssigkeitsfluss durch sie zu optimieren. Je nachdem, wie groß bzw. wie viele Chips gekühlt werden sollen, kann die Innenseite dieser Kühlplatten sehr unterschiedlich sein.

Die meisten flüssigkeitsgekühlten Systeme, die wir auf der Ausstellungsfläche sahen, verwendeten eine Art Gummischlauch, um die Kühlplatten zu verbinden. Das bedeutet, dass die Flüssigkeit nur bestimmte Komponenten wie CPU und GPU kühlt. Obwohl der Großteil der Lüfter entfernt werden kann, ist dennoch ein gewisser Luftstrom erforderlich.

HPE demonstriert seine neuesten flüssigkeitsgekühlten Cray EX-Blades mit den 96-Kern-Epyc-4-CPUs von AMD. - Klicken um zu vergrößern

Ausnahmen von dieser Regel bildeten Lenovos Neptune und HPE Crays EX-Blades. Ihre Systeme sind speziell für die Flüssigkeitskühlung konzipiert und bis ins kleinste Detail mit Kupferrohren, Verteilerblöcken und Kühlplatten für alles, einschließlich CPU, GPU, Speicher und NICs, ausgestattet.

Mit diesem Ansatz ist es HPE gelungen, acht der 400-W-Epyc-4-Genoa-CPUs von AMD in einem 19-Zoll-Gehäuse unterzubringen.

Ein flüssigkeitsgekühlter Lenovo Neptune-Server, konfiguriert mit zwei AMD Genoa-CPUs und vier Nvidia H100-GPUs. - Klicken um zu vergrößern

Unterdessen stellte Lenovo ein 1U-Neptune-System vor, das zur Kühlung eines Paars Epycs mit 96 Kernen und vier von Nvidias H100 SXM-GPUs konzipiert ist. Abhängig von der Implementierung geben die Hersteller an, dass ihre direkt flüssigkeitsgekühlten Systeme zwischen 80 und 97 Prozent der vom Server erzeugten Wärme abführen können.

Eine der exotischeren Flüssigkeitskühlungstechnologien, die auf der SC22 gezeigt wurden, war die Immersionskühlung, die in den letzten Jahren wieder in Mode gekommen ist. Diese Systeme können 100 Prozent der vom System erzeugten Wärme auffangen.

Anstatt den Server mit Kühlplatten nachzurüsten, werden Tauchkühltanks wie dieser von Submer in nichtleitende Flüssigkeit getaucht – zum Vergrößern anklicken

So verrückt es auch klingen mag: Seit Jahrzehnten tauchen wir Computerkomponenten in nichtleitende Flüssigkeiten, um sie kühl zu halten. Eines der bekanntesten Systeme mit Immersionskühlung war der Supercomputer Cray 2.

Während die in diesen Systemen verwendeten Flüssigkeiten von Anbieter zu Anbieter variieren, sind synthetische Öle von Exxon oder Castrol oder spezielle Kältemittel von 3M keine Seltenheit.

Submer war eines von mehreren Immersionskühlungsunternehmen, die diese Woche ihre Technologie auf der SC22 vorstellten. Die SmartPods des Unternehmens sehen ein wenig so aus, als würde man eine Gefriertruhe mit Öl füllen und von oben beginnen, Server vertikal einzuschieben.

Submer bietet Tanks in mehreren Größen an, die in etwa den herkömmlichen Half- und Full-Size-Racks entsprechen. Diese Tanks sind für eine Wärmeableitung von 50–100 kW ausgelegt und liegen damit in Bezug auf die Leistungsdichte auf einer Stufe mit der im Rack montierten Luft- und Flüssigkeitskühlungsinfrastruktur.

Der Tank von Submer unterstützt OCP OpenRack-Formfaktoren wie diese Intel Xeon-Systeme mit drei Blades – zum Vergrößern anklicken

Der Demo-Tank verfügte über drei 21-Zoll-Server mit jeweils drei Dual-Socket-Intel Sapphire Rapids-Blades sowie ein standardmäßiges 2U-AMD-System, das für die Verwendung in seinen Tanks umgebaut wurde.

Uns wurde jedoch gesagt, dass die Anzahl der erforderlichen Modifikationen, insbesondere am OCP-Chassis, ziemlich vernachlässigbar ist. Die einzigen wirklichen Änderungen bestehen darin, bewegliche Teile wie Netzteile auszutauschen.

Wie zu erwarten ist, erschwert die Tauchkühlung die Wartung und ist um einiges aufwändiger als Luft- oder direkte Flüssigkeitskühlung.

Iceotopes Variante der Immersionskühlung nutzt das Servergehäuse als Reservoir. - Klicken um zu vergrößern

Nicht jede Tauchkühlungsanlage auf der Ausstellungsfläche erfordert literweise Spezialflüssigkeiten. Ein Beispiel dafür ist das im Chassis integrierte Tauchkühlsystem von Iceotope. Das versiegelte Servergehäuse des Unternehmens fungiert als Reservoir, wobei das Motherboard in eine wenige Millimeter dicke Flüssigkeit eingetaucht ist.

Eine redundante Pumpe auf der Rückseite des Servers zirkuliert Öl zu Hotspots wie CPU, GPUs und Speicher, bevor die heißen Flüssigkeiten durch einen Wärmetauscher geleitet werden. Dort wird die Wärme an ein Anlagenwassersystem oder große Kühlmittelverteilungseinheiten (CDU) übertragen.

Unabhängig davon, ob Sie Direct-to-Chip- oder Immersionskühlung verwenden, benötigen beide Systeme zusätzliche Infrastruktur, um die Wärme abzuleiten und abzuleiten. Bei Aufbauten mit direkter Flüssigkeitskühlung kann dies Verteilerverteiler, Rohrleitungen auf Rack-Ebene und vor allem eine oder mehrere CDUs umfassen.

Große CDUs im Rack-Format können zum Kühlen einer ganzen Reihe von Serverschränken verwendet werden. Cooltera stellte beispielsweise mehrere große CDUs vor, die ein Rechenzentrum mit bis zu 600 kW Kühlung versorgen können. Für kleinere Bereitstellungen könnte auch eine im Rack montierte CDU verwendet werden. Wir haben uns zwei Beispiele von Supermicro und Cooltera angesehen, die eine Kühlleistung zwischen 80 und 100 kW bieten.

Eine auf einem Rack montierte Kühlmittelverteilungseinheit von Cooltera – zum Vergrößern anklicken

Diese CDUs bestehen aus drei Hauptkomponenten: einem Wärmetauscher, redundanten Pumpen zur Zirkulation des Kühlmittels durch die Racks und einem Filtersystem, das verhindert, dass Partikel kritische Komponenten wie die Mikrorippen der Kühlplatte verstopfen.

Wie die Wärme tatsächlich aus dem Kühlmittelsystem entzogen wird, hängt stark von der Art des verwendeten Wärmetauschers ab. Flüssigkeits-Luft-Wärmetauscher gehören zu den einfachsten, da sie die wenigsten Änderungen an der Anlage selbst erfordern. Die hier abgebildete Cooltera CDU nutzt große Heizkörper, um die von der Flüssigkeit aufgenommene Wärme in den Warmgang des Rechenzentrums abzuleiten.

Zusätzlich zu Pumpen und Filterung verfügt dieser Cooltera CDU über einen integrierten Flüssigkeit-Luft-Wärmetauscher. - Klicken um zu vergrößern

Allerdings nutzten die meisten CDUs, die wir bei SC22 sahen, Flüssigkeit-Flüssigkeit-Wärmetauscher. Die Idee hier besteht darin, ein separates, anlagenweites Wassersystem zu verwenden, um die von mehreren CDUs gesammelte Wärme zu Trockenkühlern an der Außenseite des Gebäudes zu transportieren, wo sie an die Luft abgegeben wird. Oder anstatt die Wärme in die Atmosphäre abzugeben, haben einige Rechenzentren, wie die neueste Einrichtung von Microsoft in Helsinki, ihre Wassersysteme an Fernwärmesysteme angeschlossen.

Bei der Tauchkühlung ist die Situation weitgehend die gleiche, obwohl viele Komponenten der CDU, wie die Pumpen, Flüssigkeits-zu-Flüssigkeits-Wärmetauscher und Filtersysteme, in die Tanks eingebaut sind. Alles, was wirklich erforderlich ist, ist, dass sie an das Wassersystem der Anlage angeschlossen werden.

Während Flüssigkeitskühlung heute nur einen Bruchteil der Ausgaben für das Wärmemanagement von Rechenzentren ausmacht, beginnen heißere Komponenten und höhere Leistungsdichten im Rack die Akzeptanz dieser Technologie voranzutreiben.

Laut einem aktuellen Bericht der Dell'Oro Group werden die Ausgaben für Flüssigkeits- und Tauchkühlungsgeräte bis 2026 voraussichtlich 1,1 Milliarden US-Dollar oder 19 Prozent der Ausgaben für das Wärmemanagement erreichen.

Unterdessen machen steigende Energiepreise und eine zunehmende Betonung der Nachhaltigkeit die Flüssigkeitskühlung auf anderen Ebenen attraktiv. Abgesehen davon, dass es praktisch ist, einen 3-kW-Server mit Luft zu kühlen, können 30 bis 40 Prozent des Energieverbrauchs eines Rechenzentrums auf die Klimaanlage und Lüftungsgeräte zurückgeführt werden, die erforderlich sind, um die Systeme auf Betriebstemperatur zu halten.

Während Serverhersteller Möglichkeiten gefunden haben, Server mit einer Leistung von bis zu 10 kW luftzukühlen, gibt es im Fall des DGX H100 von Nvidia bei diesen Leistungs- und Wärmedichten externe Anreize, den Stromverbrauch zu senken, der jetzt für Computer verwendet wird. ®

Senden Sie uns Neuigkeiten

1919Holen Sie sich unser19