Antrieb und Kühlung von KI und beschleunigtem Computing im Datenraum

Künstliche Intelligenz (KI) ist da und bleibt hier. „Jede Branche wird zu einer Technologiebranche“, so Jensen Huang, Gründer und CEO von NVIDIA. Die Anwendungsfälle für KI sind praktisch unbegrenzt, von Durchbrüchen in der Medizin bis hin zur Betrugsprävention mit hoher Genauigkeit. KI verändert bereits unser Leben, genauso wie sie jede einzelne Branche verändert. Es beginnt auch, die Infrastruktur von Rechenzentren grundlegend zu verändern.

KI-Workloads führen zu erheblichen Veränderungen in der Art und Weise, wie wir die im Rahmen von High-Performance Computing (HPC) verarbeiteten Daten betreiben und kühlen. Ein typisches IT-Rack, das für Workloads von 5 bis 10 Kilowatt (kW) verwendet wird, und Racks mit einer Last von mehr als 20 kW wurden als hochdicht angesehen – ein seltener Anblick außerhalb sehr spezifischer Anwendungen mit geringer Reichweite. Die IT wird mit Grafikprozessoren beschleunigt, um die Rechenanforderungen von KI-Modellen zu erfüllen. Diese KI-Chips können etwa fünfmal so viel Leistung und fünfmal so viel Kühlkapazität¹ auf demselben Raum wie ein herkömmlicher Server benötigen. Mark Zuckerberg gab bekannt, dass Meta bis Ende 2024 Milliarden für die Bereitstellung von 350.000 H100-Grafikprozessoren von NVIDIA ausgeben wird. Rack-Dichten von 40 kW pro Rack befinden sich jetzt am unteren Ende dessen, was für KI-Bereitstellungen erforderlich ist, wobei Rack-Dichten von mehr als 100 kW pro Rack üblich werden und in naher Zukunft in großem Umfang stattfinden.

Dies erfordert umfangreiche Kapazitätssteigerungen über den gesamten Antriebsstrang vom Netz bis zu den Chips in jedem Rack. Die Einführung von Flüssigkeitskühlungstechnologien in den weißen Bereich des Rechenzentrums und schließlich in die Serverräume des Unternehmens wird für die meisten Bereitstellungen eine Anforderung sein, da herkömmliche Kühlmethoden nicht in der Lage sein werden, die von Grafikprozessoren erzeugte Wärme zu verarbeiten, die KI-Berechnungen ausführen. Investitionen in die Aufrüstung der Infrastruktur, die für die Versorgung und Kühlung von KI-Hardware erforderlich ist, sind beträchtlich, und die Bewältigung dieser neuen Designherausforderungen ist entscheidend.

Der Übergang zu hoher Dichte

Der Übergang zu beschleunigtem Computing findet nicht über Nacht statt. Rechenzentrums- und Serverraumdesigner müssen nach Möglichkeiten suchen, die Stromversorgungs- und Kühlinfrastruktur zukunftsfähig zu machen, wobei das zukünftige Wachstum ihrer Workloads berücksichtigt werden muss. Um für jedes Rack ausreichend Strom zu erhalten, müssen Upgrades vom Netz zum Rack durchgeführt werden. Gerade im Weißraum bedeutet dies wahrscheinlich eine hohe Stromschiene und Rack-PDUs mit hoher Dichte. Um die enorme Wärmemenge, die durch Hardware erzeugt wird, die KI-Workloads ausführt, abzuweisen, werden zwei Flüssigkeitskühlungstechnologien als primäre Optionen entwickelt:

Direct-to-Chip-Flüssigkeitskühlung: Auf den wärmeerzeugenden Komponenten (meist Chips wie CPUs und GPUs) sitzen Kühlplatten, die die Wärme ableiten. Gepumpte ein- oder zweiphasige Flüssigkeit entzieht der Kühlplatte Wärme, um sie aus dem Rechenzentrum zu entladen, wobei sie Wärme, aber keine Flüssigkeiten mit dem Chip austauscht. Dadurch können etwa 70–75 % der von den Geräten im Rack erzeugten Wärme entfernt werden, sodass 25–30 % der Wärme aus den Luftkühlsystemen entfernt werden müssen.
Rücktür-Wärmetauscher: Passive oder aktive Wärmetauscher ersetzen die hintere Tür des IT-Racks durch Wärmetauscherspulen, durch die Flüssigkeit die im Rack erzeugte Wärme absorbiert. Diese Systeme werden oft mit anderen Kühlsystemen kombiniert, entweder als Strategie, um die Raumneutralität aufrechtzuerhalten, oder als Übergangsdesign, das den Weg zur Flüssigkeitskühlung beginnt.

Während die Direct-to-Chip-Flüssigkeitskühlung eine deutlich höhere Dichtekühlkapazität als Luft bietet, ist es wichtig zu beachten, dass es immer noch überschüssige Wärme gibt, die die kalten Platten nicht erfassen können. Diese Wärme wird in den Datenraum abgeführt, es sei denn, sie wird durch andere Mittel wie Rücktürwärmetauscher oder Raumluftkühlung eingedämmt und entfernt. Weitere Informationen zu Flüssigkeitskühlungslösungen für Rechenzentren finden Sie in unserem Whitepaper.

Designs mit hoher Dichte für Nachrüstungen und Neubauten

Zur Vereinfachung von Infrastrukturdesign und -bereitstellung mit hoher Dichte hat Vertiv™ Vertiv 360AI eingeführt, das ein komplettes Portfolio an Energie-, Kühl- und Servicelösungen umfasst, die die komplexen Herausforderungen der KI-Revolution lösen. Die Plattform umfasst eine breite Palette von umfassenden Designs, die bis zu 132 kW pro Rack für eine Vielzahl von Anwendungsfällen unterstützen, von Pilottests und Edge-Inferenz bis hin zu einer KI-Fabrik.

Design für Neubauten

Rack-Dichte	Rack-Anzahl	GPU-Anzahl	Design-ID			Kühltechnologie
			N/A	EMEA	ASIEN
20 kW	18	248	RD002	RD002E	RD002A	Luft
40 kW	10	248	RD003	RD003E	RD003A	Luft
40 kW	10	248	RD004	RD004E	RD004A	Luft
73 kW	88	2304	RD006	RD006E	RD006A	Flüssigkeit + Luft
73 kW	110	2880	RD007	RD007E	RD007A	Flüssigkeit + Luft
132 kW	36	1152	RD014	RD014E	RD014A	Flüssigkeit + Luft
132 kW	54	1728	RD015	RD015E	RD015A	Flüssigkeit + Luft
132 kW	72	2304	RD016	RD016E	RD016A	Flüssigkeit + Luft
300 kW	-	-	RD300	RD300E	RD300A	Flüssigkeit
500 kW	-	-	RD500	RD500E	RD500A	Flüssigkeit

Design optimiert zur Nachrüstung

Rack-Dichte	Rack-Anzahl	GPU-Anzahl	Design-ID			Kühltechnologie
			N/A	EMEA	ASIEN
40 kW	4	128	4X160R	4X160RE	4X160RA	Luft
70 kW	1	64	1L70R	1L70RE	1L70RA	Flüssigkeit + Luft
100 kW	1	88	1L100R	1L100R	1L100RA	Flüssigkeit + Luft
100 kW	4	368	4L400R	4L400RE	4L400RA	Flüssigkeit + Luft
100 kW	4	368	4XL400	4XL400	4XL400A	Flüssigkeit + Luft
100 kW	5	460	5L500	5L500	5L500A	Flüssigkeit + Luft
100 kW	12	1104	12XL1200	12XL1200	12XL1200A	Flüssigkeit + Luft
100 kW	14	1288	14L1400	14L1400	14L1400A	Flüssigkeit + Luft

Diese Designs bieten Systemintegratoren, Colocation-Anbietern, Cloud-Service-Anbietern oder Unternehmensbenutzern mehrere Wege, um das Rechenzentrum der Zukunft jetzt zu erreichen. Jede spezifische Einrichtung kann Nuancen mit Rackanzahl und Rackdichte haben, die von der Auswahl der IT-Ausrüstung abhängig sind. Daher bietet diese Designsammlung eine intuitive Möglichkeit, sich definitiv auf ein Basisdesign zu beschränken und es genau auf die Bereitstellungsanforderungen anzupassen.

Bei der Nachrüstung oder Umnutzung bestehender Umgebungen für KI helfen unsere optimierten Designs, Störungen bestehender Workloads zu minimieren, indem sie die verfügbare Kühlinfrastruktur und die Wärmeabweisung nutzen, wo möglich. So können wir beispielsweise die Direct-to-Chip-Flüssigkeitskühlung mit einem Rücktürwärmetauscher integrieren, um eine raumneutrale Kühllösung zu erhalten. In diesem Fall verhindert der Rücktürwärmetauscher, dass überschüssige Wärme in den Raum entweicht. Für eine luftgekühlte Anlage, die Flüssigkeitskühlungsgeräte ohne Änderungen am Standort selbst hinzufügen möchte, stehen Flüssig-Luft-Designoptionen zur Verfügung. Diese Strategie kann in einem einzelnen Rack, hintereinander oder in großem Maßstab in einer großen HPC-Bereitstellung eingesetzt werden. Für Multi-Rack-Designs haben wir auch High-Ampere-Busway- und High-Density-Rack-PDUs zur Verteilung von Strom an jedes Rack integriert.

Diese Optionen sind mit einer Reihe verschiedener Optionen zur Wärmeabgabe kompatibel, die mit Flüssigkeitskühlung gekoppelt werden können. Dadurch wird ein sauberer und kostengünstiger Übergangsweg zur Flüssigkeitskühlung mit hoher Dichte geschaffen, ohne andere Workloads im Datenraum zu stören. Sehen Sie sich unsere KI-Datenraumlösungen an, um mehr zu erfahren.

Während viele Einrichtungen nicht für Systeme mit hoher Dichte konzipiert sind, verfügt Vertiv über umfangreiche Erfahrung bei der Entwicklung von Bereitstellungsplänen für einen reibungslosen Übergang zu hoher Dichte für KI und HPC.

Kontaktieren Sie uns

Anton Chuchkov

Anton Chuchkov ist Produktmanager für das IT Solutions-Team bei Vertiv und konzentriert sich auf Lösungen mit hoher Dichte, einschließlich Infrastruktur zur Unterstützung von KI-Anwendungen. Er ist verantwortlich für die Einführung der neuesten Branchentechnologien in die vertikalen Märkte von Rechenzentren. Er verfügt über mehr als zehn Jahre Erfahrung in Produktmanagement- und Anwendungsingenieurrollen auf Chip-, Board-, Server- und Systemebene und ermöglicht zeitkritische KI-Inferenzanwendungen in der Peripherie. Anton hat einen Bachelor-Abschluss in Elektrotechnik von der Stony Brook University.

Brad Wilson

Brad Wilson ist VP of Technology und leitet das CTO-Büro bei Vertiv. In dieser Rolle konzentriert er sich auf Trends und Technologien, die sich in den nächsten 3-5 Jahren auf Rechenzentrumslösungen auswirken werden. Brad kam 2018 als Vice President des globalen Rack Power Distribution Unit-Angebots und der Engineering-Teams zu Vertiv. Bevor er zu Vertiv kam, war Brad President von Geist, einem privaten Unternehmen, das sich auf Rack-Stromverteilung und verwandte Technologien spezialisiert hat, die Vertiv im Februar 2018 erworben hat. Während seiner Karriere hatte Brad auch Positionen als Betriebsleiter, Engineering Manager, Chief Technical Director und Executive Vice President inne. In den letzten 30 Jahren konzentrierte er sich auf die Entwicklung, Entwicklung und Herstellung von Rack-Stromverteilungs- und zugehörigen Überwachungs- und Steuerungssystemen für den Einsatz in kritischen Umgebungen und Rechenzentren. Brad erwarb einen Bachelor of Science in Ingenieurwissenschaften von der University of Nebraska.

1 Schätzungen des Managements: Vergleich des Stromverbrauchs und der Wärmeleistung auf Rackebene für 5 Nvidia DGX H100-Server und 21 Dell PowerStore 500T- und 9200T-Server in einem standardmäßigen 42U-Rack basierend auf Herstellerspezifikationen

Wandel in der Architektur der Stromversorgung Entwicklung der Thermalkette

Key points in this article:

AI workloads require approximately five times the power and cooling capacity of a traditional server in the same space.
Rack densities of 40 kW are now the lower end for AI deployments, with 100+ kW per rack becoming commonplace.
Data center liquid cooling is emerging as the primary response to heat generated by GPU-accelerated AI workloads.
Vertiv™ 360AI delivers complete power, cooling, and service reference designs supporting up to 132 kW per rack.
Retrofit and new-build reference designs offer clean transition paths to high-density liquid cooling without disrupting existing workloads.

Wir kühlen die KI-Infrastruktur und versorgen sie mit Strom

Der Übergang zu hoher Dichte

Designs mit hoher Dichte für Nachrüstungen und Neubauten

Design für Neubauten

Design optimiert zur Nachrüstung

Anmeldung

Sprache & Standort