Sztuczna inteligencja (AI) już tu jest i pozostanie z nami na dłużej. „Każda branża stanie się branżą technologiczną” – powiedział Jensen Huang, założyciel i dyrektor generalny firmy NVIDIA. Przypadki użycia sztucznej inteligencji są praktycznie nieograniczone, od przełomów w medycynie po zapobieganie oszustwom o wysokiej dokładności. Sztuczna inteligencja już zmienia nasze życie, tak jak zmienia każdą branżę. Zaczyna również zasadniczo zmieniać infrastrukturę centrów danych.
Obciążenia związane ze sztuczną inteligencją powodują znaczące zmiany w sposobie zasilania i chłodzenia danych przetwarzanych w ramach obliczeń o wysokiej wydajności (HPC). Typowa szafa rack była wykorzystywana do obsługi obciążeń o mocy od 5 do 10 kilowatów (kW), a szafy obsługujące obciążenia powyżej 20 kW były uważane za szafy o wysokiej gęstości – rzadko spotykane poza bardzo specyficznymi zastosowaniami o wąskim zasięgu. IT jest przyspieszane dzięki procesorom graficznym, które wspierają potrzeby obliczeniowe modeli sztucznej inteligencji, a te procesory AI mogą wymagać około pięć razy więcej mocy i pięć razy większej wydajności chłodzenia1 w tej samej przestrzeni co tradycyjny serwer. Mark Zuckerberg ogłosił, że do końca 2024 roku Meta wyda miliardy na wdrożenie 350 000 układów GPU H100 firmy NVIDIA. Gęstość mocy na szafie wynosząca 40 kW znajduje się obecnie w dolnej granicy wymagań niezbędnych do wdrożenia sztucznej inteligencji, a gęstość mocy przekraczająca 100 kW na szafie stanie się powszechna i będzie stosowana na dużą skalę w najbliższej przyszłości.
Będzie to wymagało znacznego zwiększenia mocy w całym układzie zasilania, od sieci energetycznej po układy scalone w każdej szafie. Wprowadzenie technologii chłodzenia cieczą do białej przestrzeni centrum danych, a ostatecznie do serwerowni korporacyjnych, będzie wymogiem dla większości wdrożeń, ponieważ tradycyjne metody chłodzenia nie będą w stanie poradzić sobie z ciepłem generowanym przez układy GPU wykonujące obliczenia AI. Inwestycje w modernizację infrastruktury niezbędnej do zasilania i chłodzenia sprzętu AI są znaczne, a sprostanie tym nowym wyzwaniom projektowym ma kluczowe znaczenie.
Przejście do wysokiej gęstości
Przejście do akcelerowanych obliczeń nie nastąpi z dnia na dzień. Projektanci centrów danych i serwerowni muszą szukać sposobów na przygotowanie infrastruktury zasilania i chłodzenia na przyszłość, z uwzględnieniem przyszłego wzrostu ich obciążeń. Aby zapewnić wystarczającą moc dla każdej szafy, konieczne jest zmodernizowanie instalacji elektrycznej od sieci do szafy. W przypadku białej przestrzeni oznacza to prawdopodobnie zastosowanie szynoprzewodów o wysokim natężeniu prądu i PDU o dużej gęstości. Aby odrzucić ogromne ilości ciepła generowanego przez sprzęt obsługujący obciążenia AI, jako podstawowe opcje pojawiają się dwie technologie chłodzenia cieczą:
- Bezpośrednie chłodzenie chipów cieczą (direct-to-chip):Płyty chłodzące (cold plates), umieszczone na elementach generujących ciepło (zazwyczaj procesorach, takich jak CPU i GPU), skutecznie odprowadzają ciepło. Pompowany płyn jednofazowy lub dwufazowy pobiera ciepło z płyty chłodzącej i odprowadza je poza centrum danych, wymieniając ciepło, ale nie płyny z chipem. Pozwala to usunąć około 70–75% ciepła wytwarzanego przez urządzenia w szafie, pozostawiając 25–30%, które muszą usunąć systemy chłodzenia powietrzem.
- Wymienniki ciepła w tylnych drzwiach:Pasywne lub aktywne wymienniki ciepła zastępują tylne drzwi szafy IT cewkami wymiany ciepła, przez które płyn pochłania ciepło wytwarzane w szafie. Systemy te są często łączone z innymi systemami chłodzenia jako strategia zachowania neutralności pomieszczenia lub projekt przejściowy rozpoczynający drogę do chłodzenia cieczą.
Chociaż bezpośrednie chłodzenie cieczą chipów zapewnia znacznie większą wydajność chłodzenia niż powietrze, należy pamiętać, że nadal istnieje nadmiar ciepła, którego płyty chłodzące nie są w stanie wychwycić. Ciepło to zostanie odprowadzone do pomieszczenia serwerowego, chyba że zostanie zatrzymane i usunięte za pomocą innych środków, takich jak tylne wymienniki ciepła lub chłodzenie powietrza w pomieszczeniu. Więcej informacji na temat rozwiązań chłodzenia cieczą dla centrów przetwarzania danych można znaleźć w naszej białej księdze.
Konstrukcje o wysokiej gęstości do modernizowanych i nowych budynków
Aby uprościć projektowanie i wdrażanie infrastruktury o wysokiej gęstości, Vertiv™ wprowadził Vertiv 360AI, który obejmuje pełną gamę rozwiązań w zakresie zasilania, chłodzenia i usług, które rozwiązują złożone wyzwania wynikające z rewolucji sztucznej inteligencji. Platforma obejmuje szeroką gamę kompleksowych projektów obsługujących do 132 kW na szafę rackową dla różnorodnych zastosowań, od testów pilotażowych i wnioskowania brzegowego po fabrykę AI.
Projektowanie nowych budynków
| Gęstość szaf | Liczba szaf | Liczba procesorów | ID projektu | Technologia chłodzenia | ||
|---|---|---|---|---|---|---|
| ND | EMEA | AZJA | ||||
| 20 kW | 18 | 248 | RD002 |
RD002E |
RD002A |
Powietrze |
| 40 kW | 10 | 248 | RD003 |
RD003E |
RD003A |
Powietrze |
| 40 kW | 10 | 248 | RD004 |
RD004E |
RD004A |
Powietrze |
| 73 kW | 88 | 2304 | RD006 |
RD006E | RD006A |
Ciecz + powietrze |
| 73 kW | 110 | 2880 | RD007 |
RD007E | RD007A |
Ciecz + powietrze |
| 132 kW | 36 | 1152 | RD014 |
RD014E | RD014A |
Ciecz + powietrze |
| 132 kW | 54 | 1728 | RD015 |
RD015E | RD015A |
Ciecz + powietrze |
| 132 kW | 72 | 2304 | RD016 |
RD016E | RD016A |
Ciecz + powietrze |
| 300 kW | - | - | RD300 | RD300E | RD300A | Ciecz |
| 500 kW | - | - | RD500 | RD500E | RD500A | Ciecz |
Projekt zoptymalizowany pod kątem modernizacji
| Gęstość szaf | Liczba szaf | Liczba procesorów | ID projektu | Technologia chłodzenia | ||
|---|---|---|---|---|---|---|
| ND | EMEA | AZJA | ||||
| 40 kW | 4 | 128 | 4X160R |
4X160RE | 4X160RA | Powietrze |
| 70 kW | 1 | 64 | 1L70R |
1L70RE |
1L70RA |
Ciecz + powietrze |
| 100 kW | 1 | 88 | 1L100R |
1L100R |
1L100RA |
Ciecz + powietrze |
| 100 kW | 4 | 368 | 4L400R |
4L400RE | 4L400RA | Ciecz + powietrze |
| 100 kW | 4 | 368 | 4XL400 |
4XL400 |
4XL400A |
Ciecz + powietrze |
| 100 kW | 5 | 460 | 5L500 |
5L500 |
5L500A |
Ciecz + powietrze |
| 100 kW | 12 | 1104 | 12XL1200 |
12XL1200 |
12XL1200A |
Ciecz + powietrze |
| 100 kW | 14 | 1288 | 14L1400 |
14L1400 |
14L1400A |
Ciecz + powietrze |
Projekty te oferują wiele ścieżek dla integratorów systemów, dostawców usług kolokacyjnych, dostawców usług w chmurze lub użytkowników korporacyjnych, aby już teraz stworzyć centrum danych przyszłości. Każda konkretna obiekt może mieć inne wymagania dotyczące liczby i gęstości szaf, które zależą od wybranego sprzętu IT. W związku z tym ta kolekcja projektów zapewnia intuicyjny sposób na ostateczne zawężenie do projektu podstawowego i dostosowanie go dokładnie do potrzeb wdrożeniowych.
Podczas modernizacji lub ponownego wykorzystania istniejących środowisk dla sztucznej inteligencji, nasze zoptymalizowane projekty pomagają zminimalizować zakłócenia w istniejących obciążeniach poprzez wykorzystanie dostępnej infrastruktury chłodzenia i odrzucania ciepła tam, gdzie to możliwe. Na przykład możemy zintegrować chłodzenie cieczą bezpośrednio na układ z wymiennikiem ciepła z tylnymi drzwiami, aby utrzymać neutralne dla pomieszczenia rozwiązanie chłodzenia. W tym przypadku wymiennik ciepła w tylnych drzwiach zapobiega przedostawaniu się nadmiaru ciepła do pomieszczenia. Dla obiektów chłodzonych powietrzem, które chcą dodać sprzęt do chłodzenia cieczą bez żadnych zmian w samym obiekcie, mamy opcje projektowe typu ciecz-powietrze. Tę samą strategię można zastosować w pojedynczej szafie, w rzędzie lub na dużą skalę w ramach dużego wdrożenia HPC. W przypadku konstrukcji wieloszafowych zastosowaliśmy również szynoprzewody o wysokim natężeniu prądu oraz PDU o wysokiej gęstości do dystrybucji zasilania do każdej szafy.
Opcje te są kompatybilne z szeregiem różnych opcji odprowadzania ciepła, które można połączyć z chłodzeniem cieczą. Zapewnia to przejrzystą i ekonomiczną ścieżkę przejścia na chłodzenie cieczą o wysokiej gęstości bez zakłócania innych zadań wykonywanych w serwerowni. Zapoznaj się z naszymi rozwiązaniami AI Data Room, aby dowiedzieć się więcej.
Chociaż wiele obiektów nie jest przystosowanych do systemów o wysokiej gęstości, firma Vertiv ma bogate doświadczenie w pomaganiu klientom w opracowywaniu planów wdrożeniowych umożliwiających płynne przejście na wysoką gęstość dla AI i HPC.
1Szacunki kierownictwa: Porównanie zużycia energii i wydajności cieplnej na poziomie szafy dla 5 serwerów Nvidia DGX H100 oraz 21 serwerów Dell PowerStore 500T i 9200T w standardowej szafie 42U na podstawie specyfikacji producenta.