Künstliche Intelligenz (KI) ist da und bleibt hier. „Jede Branche wird zu einer Technologiebranche“, so Jensen Huang, Gründer und CEO von NVIDIA. Die Anwendungsfälle für KI sind praktisch unbegrenzt, von Durchbrüchen in der Medizin bis hin zur Betrugsprävention mit hoher Genauigkeit. KI verändert bereits unser Leben, genauso wie sie jede einzelne Branche verändert. Es beginnt auch, die Infrastruktur von Rechenzentren grundlegend zu verändern.
KI-Workloads führen zu erheblichen Veränderungen in der Art und Weise, wie wir die im Rahmen von High-Performance Computing (HPC) verarbeiteten Daten betreiben und kühlen. Ein typisches IT-Rack, das für Workloads von 5 bis 10 Kilowatt (kW) verwendet wird, und Racks mit einer Last von mehr als 20 kW wurden als hochdicht angesehen – ein seltener Anblick außerhalb sehr spezifischer Anwendungen mit geringer Reichweite. Die IT wird mit Grafikprozessoren beschleunigt, um die Rechenanforderungen von KI-Modellen zu erfüllen. Diese KI-Chips können etwa fünfmal so viel Leistung und fünfmal so viel Kühlkapazität1 auf demselben Raum wie ein herkömmlicher Server benötigen. Mark Zuckerberg gab bekannt, dass Meta bis Ende 2024 Milliarden für die Bereitstellung von 350.000 H100-Grafikprozessoren von NVIDIA ausgeben wird. Rack-Dichten von 40 kW pro Rack befinden sich jetzt am unteren Ende dessen, was für KI-Bereitstellungen erforderlich ist, wobei Rack-Dichten von mehr als 100 kW pro Rack üblich werden und in naher Zukunft in großem Umfang stattfinden.
Dies erfordert umfangreiche Kapazitätssteigerungen über den gesamten Antriebsstrang vom Netz bis zu den Chips in jedem Rack. Die Einführung von Flüssigkeitskühlungstechnologien in den weißen Bereich des Rechenzentrums und schließlich in die Serverräume des Unternehmens wird für die meisten Bereitstellungen eine Anforderung sein, da herkömmliche Kühlmethoden nicht in der Lage sein werden, die von Grafikprozessoren erzeugte Wärme zu verarbeiten, die KI-Berechnungen ausführen. Investitionen in die Aufrüstung der Infrastruktur, die für die Versorgung und Kühlung von KI-Hardware erforderlich ist, sind beträchtlich, und die Bewältigung dieser neuen Designherausforderungen ist entscheidend.
Der Übergang zu hoher Dichte
Der Übergang zu beschleunigtem Computing findet nicht über Nacht statt. Rechenzentrums- und Serverraumdesigner müssen nach Möglichkeiten suchen, die Stromversorgungs- und Kühlinfrastruktur zukunftsfähig zu machen, wobei das zukünftige Wachstum ihrer Workloads berücksichtigt werden muss. Um für jedes Rack ausreichend Strom zu erhalten, müssen Upgrades vom Netz zum Rack durchgeführt werden. Gerade im Weißraum bedeutet dies wahrscheinlich eine hohe Stromschiene und Rack-PDUs mit hoher Dichte. Um die enorme Wärmemenge, die durch Hardware erzeugt wird, die KI-Workloads ausführt, abzuweisen, werden zwei Flüssigkeitskühlungstechnologien als primäre Optionen entwickelt:
- Direct-to-Chip-Flüssigkeitskühlung: Auf den wärmeerzeugenden Komponenten (meist Chips wie CPUs und GPUs) sitzen Kühlplatten, die die Wärme ableiten. Gepumpte ein- oder zweiphasige Flüssigkeit entzieht der Kühlplatte Wärme, um sie aus dem Rechenzentrum zu entladen, wobei sie Wärme, aber keine Flüssigkeiten mit dem Chip austauscht. Dadurch können etwa 70–75 % der von den Geräten im Rack erzeugten Wärme entfernt werden, sodass 25–30 % der Wärme aus den Luftkühlsystemen entfernt werden müssen.
- Rücktür-Wärmetauscher: Passive oder aktive Wärmetauscher ersetzen die hintere Tür des IT-Racks durch Wärmetauscherspulen, durch die Flüssigkeit die im Rack erzeugte Wärme absorbiert. Diese Systeme werden oft mit anderen Kühlsystemen kombiniert, entweder als Strategie, um die Raumneutralität aufrechtzuerhalten, oder als Übergangsdesign, das den Weg zur Flüssigkeitskühlung beginnt.
Während die Direct-to-Chip-Flüssigkeitskühlung eine deutlich höhere Dichtekühlkapazität als Luft bietet, ist es wichtig zu beachten, dass es immer noch überschüssige Wärme gibt, die die kalten Platten nicht erfassen können. Diese Wärme wird in den Datenraum abgeführt, es sei denn, sie wird durch andere Mittel wie Rücktürwärmetauscher oder Raumluftkühlung eingedämmt und entfernt. Weitere Informationen zu Flüssigkeitskühlungslösungen für Rechenzentren finden Sie in unserem Whitepaper.
Designs mit hoher Dichte für Nachrüstungen und Neubauten
Zur Vereinfachung von Infrastrukturdesign und -bereitstellung mit hoher Dichte hat Vertiv™ Vertiv 360AI eingeführt, das ein komplettes Portfolio an Energie-, Kühl- und Servicelösungen umfasst, die die komplexen Herausforderungen der KI-Revolution lösen. Die Plattform umfasst eine breite Palette von umfassenden Designs, die bis zu 132 kW pro Rack für eine Vielzahl von Anwendungsfällen unterstützen, von Pilottests und Edge-Inferenz bis hin zu einer KI-Fabrik.
Design für Neubauten
| Rack-Dichte | Rack-Anzahl | GPU-Anzahl | Design-ID | Kühltechnologie | ||
|---|---|---|---|---|---|---|
| N/A | EMEA | ASIEN | ||||
| 20 kW | 18 | 248 | RD002 |
RD002E |
RD002A |
Luft |
| 40 kW | 10 | 248 | RD003 |
RD003E |
RD003A |
Luft |
| 40 kW | 10 | 248 | RD004 |
RD004E |
RD004A |
Luft |
| 73 kW | 88 | 2304 | RD006 |
RD006E | RD006A |
Flüssigkeit + Luft |
| 73 kW | 110 | 2880 | RD007 |
RD007E | RD007A |
Flüssigkeit + Luft |
| 132 kW | 36 | 1152 | RD014 |
RD014E | RD014A |
Flüssigkeit + Luft |
| 132 kW | 54 | 1728 | RD015 |
RD015E | RD015A |
Flüssigkeit + Luft |
| 132 kW | 72 | 2304 | RD016 |
RD016E | RD016A |
Flüssigkeit + Luft |
| 300 kW | - | - | RD300 | RD300E | RD300A | Flüssigkeit |
| 500 kW | - | - | RD500 | RD500E | RD500A | Flüssigkeit |
Design optimiert zur Nachrüstung
| Rack-Dichte | Rack-Anzahl | GPU-Anzahl | Design-ID | Kühltechnologie | ||
|---|---|---|---|---|---|---|
| N/A | EMEA | ASIEN | ||||
| 40 kW | 4 | 128 | 4X160R |
4X160RE | 4X160RA | Luft |
| 70 kW | 1 | 64 | 1L70R |
1L70RE |
1L70RA |
Flüssigkeit + Luft |
| 100 kW | 1 | 88 | 1L100R |
1L100R |
1L100RA |
Flüssigkeit + Luft |
| 100 kW | 4 | 368 | 4L400R |
4L400RE | 4L400RA | Flüssigkeit + Luft |
| 100 kW | 4 | 368 | 4XL400 |
4XL400 |
4XL400A |
Flüssigkeit + Luft |
| 100 kW | 5 | 460 | 5L500 |
5L500 |
5L500A |
Flüssigkeit + Luft |
| 100 kW | 12 | 1104 | 12XL1200 |
12XL1200 |
12XL1200A |
Flüssigkeit + Luft |
| 100 kW | 14 | 1288 | 14L1400 |
14L1400 |
14L1400A |
Flüssigkeit + Luft |
Diese Designs bieten Systemintegratoren, Colocation-Anbietern, Cloud-Service-Anbietern oder Unternehmensbenutzern mehrere Wege, um das Rechenzentrum der Zukunft jetzt zu erreichen. Jede spezifische Einrichtung kann Nuancen mit Rackanzahl und Rackdichte haben, die von der Auswahl der IT-Ausrüstung abhängig sind. Daher bietet diese Designsammlung eine intuitive Möglichkeit, sich definitiv auf ein Basisdesign zu beschränken und es genau auf die Bereitstellungsanforderungen anzupassen.
Bei der Nachrüstung oder Umnutzung bestehender Umgebungen für KI helfen unsere optimierten Designs, Störungen bestehender Workloads zu minimieren, indem sie die verfügbare Kühlinfrastruktur und die Wärmeabweisung nutzen, wo möglich. So können wir beispielsweise die Direct-to-Chip-Flüssigkeitskühlung mit einem Rücktürwärmetauscher integrieren, um eine raumneutrale Kühllösung zu erhalten. In diesem Fall verhindert der Rücktürwärmetauscher, dass überschüssige Wärme in den Raum entweicht. Für eine luftgekühlte Anlage, die Flüssigkeitskühlungsgeräte ohne Änderungen am Standort selbst hinzufügen möchte, stehen Flüssig-Luft-Designoptionen zur Verfügung. Diese Strategie kann in einem einzelnen Rack, hintereinander oder in großem Maßstab in einer großen HPC-Bereitstellung eingesetzt werden. Für Multi-Rack-Designs haben wir auch High-Ampere-Busway- und High-Density-Rack-PDUs zur Verteilung von Strom an jedes Rack integriert.
Diese Optionen sind mit einer Reihe verschiedener Optionen zur Wärmeabgabe kompatibel, die mit Flüssigkeitskühlung gekoppelt werden können. Dadurch wird ein sauberer und kostengünstiger Übergangsweg zur Flüssigkeitskühlung mit hoher Dichte geschaffen, ohne andere Workloads im Datenraum zu stören. Sehen Sie sich unsere KI-Datenraumlösungen an, um mehr zu erfahren.
Während viele Einrichtungen nicht für Systeme mit hoher Dichte konzipiert sind, verfügt Vertiv über umfangreiche Erfahrung bei der Entwicklung von Bereitstellungsplänen für einen reibungslosen Übergang zu hoher Dichte für KI und HPC.
1 Schätzungen des Managements: Vergleich des Stromverbrauchs und der Wärmeleistung auf Rackebene für 5 Nvidia DGX H100-Server und 21 Dell PowerStore 500T- und 9200T-Server in einem standardmäßigen 42U-Rack basierend auf Herstellerspezifikationen