A inteligência artificial (IA) chegou, e veio para ficar. “Cada indústria se tornará uma indústria de tecnologia”, de acordo com o fundador e CEO da NVIDIA, Jensen Huang. Os casos de uso da IA são praticamente ilimitados, desde avanços na medicina até prevenção de fraudes com alta precisão. A IA já está transformando nossas vidas da mesma forma que está transformando cada setor da economia. Também está começando a transformar fundamentalmente a infraestrutura do data center.
As cargas de trabalho de IA estão impulsionando mudanças significativas na forma como alimentamos e resfriamos os dados processados como parte da computação de alta performance (HPC). Um rack de TI típico costumava rodar cargas de trabalho de 5 a 10 kilowatts (kW) e racks com cargas superiores a 20 kW eram considerados de alta densidade – uma visão rara em aplicações muito específicas e com pouco alcance. A TI está sendo acelerada com GPUs para dar suporte às necessidades de computação dos modelos de IA, e esses chips para IA podem exigir cerca de cinco vezes mais energia e cinco vezes mais capacidade de resfriamento1 no mesmo espaço que um servidor tradicional. Mark Zuckerberg anunciou que, até o final de 2024, a Meta gastará bilhões para implantar 350.000 GPUs H100 da NVIDIA. Densidades de rack de 40 kW por rack agora estão na extremidade inferior do que é necessário para facilitar implementações de IA, com densidades de racks superando 100 kW por rack se tornando comuns e em grande escala no futuro próximo.
Isso exigirá grandes aumentos de capacidade em toda a cadeia de energia, desde a rede elétrica até os chips em cada rack. A introdução de tecnologias de resfriamento líquido no espaço de produção (white space) do data center e, por fim, nas salas de servidores empresariais, será um requisito para a maioria das implementações, pois os métodos de resfriamento tradicionais não serão capazes lidar com o calor gerado pelas GPUs que executam cálculos de IA. Os investimentos para fazer os upgrades na infraestrutura necessária para alimentar e resfriar o hardware de IA são substanciais e é fundamental enfrentar esses novos desafios no design.
A transição para a alta densidade
A transição para a computação acelerada não acontecerá da noite para o dia. Os designers de data centers e salas de servidores devem procurar maneiras de tornar as infraestruturas de energia e de resfriamento preparadas para o futuro, considerando o crescimento futuro de suas cargas de trabalho. Levar energia suficiente para cada rack requer upgrades desde a rede elétrica até o rack. No espaço produção (white space) especificamente, isso provavelmente significa barramento blindado de alta amperagem e rack PDUs de alta densidade. Para rejeitar a enorme quantidade de calor gerada pelo hardware que executa cargas de trabalho de IA, duas tecnologias de resfriamento líquido estão surgindo como as principais opções:
- Resfriamento líquido direto ao chip: As placas frias ficam sobre os componentes geradores de calor (geralmente chips como CPUs e GPUs) para remover o calor. O fluido bombeado de uma fase ou de duas fases remove o calor da placa fria para enviá-lo para fora do data center, trocando calor, mas não fluidos, com o chip. Isso pode remover cerca de 70-75% do calor gerado pelo equipamento no rack, deixando de 25-30% que os sistemas de refrigeração de ar devem remover.
- Trocadores de calor da porta traseira: Trocadores de calor passivos ou ativos substituem a porta traseira do rack de TI por serpentinas de troca de calor através das quais o fluido absorve o calor produzido no rack. Esses sistemas são frequentemente combinados com outros sistemas de resfriamento como uma estratégia para manter a neutralidade da sala ou como um projeto de transição que inicia a jornada para o resfriamento líquido.
Embora o resfriamento líquido direto ao chip ofereça uma capacidade de resfriamento de densidade significativamente maior do que o ar, é importante observar que ainda há excesso de calor que as placas frias não conseguem capturar. Esse calor será rejeitado na sala de dados, a menos que seja contido e removido por outros meios, como trocadores de calor de porta traseira ou resfriamento a ar da sala. Para obter mais detalhes sobre soluções de resfriamento líquido para data centers, consulte nosso white paper.
Projetos de alta densidade para retrofits e novas construções
Para simplificar o projeto e a implementação de infraestrutura para alta densidade, a Vertiv™ lançou o Vertiv 360AI, que inclui um portfólio completo de soluções de energia, resfriamento e serviços que resolvem os complexos desafios decorrentes da revolução da IA. A plataforma inclui uma grande variedade de designs abrangentes que dão suporte a até 132 kW por rack para um conjunto diversificado de casos de uso, desde testes piloto e inferência no edge até uma fábrica de IA.
Designs para novas construções
| Densidade do rack | Quantidade de racks | Quantidade de GPUs | ID do Design | Tecnologia de Resfriamento | ||
|---|---|---|---|---|---|---|
| América do Norte | Europa, Oriente Médio e África | ÁSIA | ||||
| 20 kW | 18 | 248 | RD002 |
RD002E |
RD002A |
Ar |
| 40 kW | 10 | 248 | RD003 |
RD003E |
RD003A |
Ar |
| 40 kW | 10 | 248 | RD004 |
RD004E |
RD004A |
Ar |
| 73 kW | 88 | 2304 | RD006 |
RD006E | RD006A |
Líquido + ar |
| 73 kW | 110 | 2880 | RD007 |
RD007E | RD007A |
Líquido + ar |
| 132 kW | 36 | 1152 | RD014 |
RD014E | RD014A |
Líquido + ar |
| 132 kW | 54 | 1728 | RD015 |
RD015E | RD015A |
Líquido + ar |
| 132 kW | 72 | 2304 | RD016 |
RD016E | RD016A |
Líquido + ar |
| 300 kW | - | - | RD300 | RD300E | RD300A | Líquido |
| 500 kW | - | - | RD500 | RD500E | RD500A | Líquido |
Design otimizado para retrofits
| Densidade do rack | Quantidade de racks | Quantidade de GPUs | ID do projeto | Tecnologia de refrigeração | ||
|---|---|---|---|---|---|---|
| América do Norte | Europa, Oriente Médio e África | ÁSIA | ||||
| 40 kW | 4 | 128 | 4X160R |
4X160RE | 4X160RA | Ar |
| 70 kW | 1 | 64 | 1L70R |
1L70RE |
1L70RA |
Líquido + ar |
| 100 kW | 1 | 88 | 1L100R |
1L100R |
1L100RA |
Líquido + ar |
| 100 kW | 4 | 368 | 4L400R |
4L400RE | 4L400RA | Líquido + ar |
| 100 kW | 4 | 368 | 4XL400 |
4XL400 |
4XL400A |
Líquido + ar |
| 100 kW | 5 | 460 | 5L500 |
5L500 |
5L500A |
Líquido + ar |
| 100 kW | 12 | 1104 | 12XL1200 |
12XL1200 |
12XL1200A |
Líquido + ar |
| 100 kW | 14 | 1288 | 14L1400 |
14L1400 |
14L1400A |
Líquido + ar |
Esses designs oferecem vários caminhos para que integradores de sistemas, provedores de colocation, provedores de serviços de nuvem ou usuários de enterprises obtenham o data center do futuro, agora. Cada instalação específica pode ter nuances com a quantiadade de racks e suas densidades ditadas pela seleção dos equipamentos de TI. Como tal, esta coleção de designs proporciona uma maneira intuitiva de reduzir as opções até um design básico e adaptá-lo exatamente às necessidades da implementação.
Ao fazer um retrofit ou reaproveitar ambientes existentes para IA, nossos designs otimizados ajudam a minimizar as disrupções para as cargas de trabalho existentes, aproveitando, onde for possível, a infraestrutura de resfriamento e a rejeição de calor disponíveis. Por exemplo, podemos integrar resfriamento líquido direto ao chip com um trocador de calor de porta traseira para manter uma solução de resfriamento com ambiente neutro. Nesse caso, o trocador de calor da porta traseira evita que o calor residual escape para a sala. Para instalações refrigeradas a ar querendo adicionar equipamentos de resfriamento líquido sem modificações no próprio site, temos opções de designs líquido-ar disponíveis. Essa mesma estratégia pode ser impemlentada em um único rack, em uma fila ou em escala em uma implementação de HPC de grande porte. Para designs de vários racks, incluímos também barramento blindado de alta amperagem e rack PDUs de alta denidade para distribuir energia para cada rack.
Essas opções são compatíveis com uma variedade de diferentes opções de rejeição de calor que podem ser combinadas com resfriamento líquido. Isso estabelece um caminho limpo e econômico para a transição para resfriamento líquido de alta densidade sem causar disrupções a outras cargas de trabalho na sala de dados. Confira nossas Soluções para Sala de Dados de IA para saber mais.
Embora muitas instalações não sejam projetadas para sistemas de alta densidade, a Vertiv tem ampla experiência em ajudar os clientes a desenvolver planos de implementação para fazer uma transição suave para alta densidade para IA e HPC.
1 Estimativas dos gestores: Comparação do Consumo de Energia e Saída de Calor em um nível de rack para 5 servidores Nvidia DGX H100 e 21 servidores Dell PowerStore 500T e 9200T em um rack padrão de 42U com base nas fichas de especificações do fabricante