A inteligência artificial (IA) chegou e chegou para ficar. “Todas as indústrias tornar-se-ão uma indústria tecnológica”, de acordo com o fundador e CEO da NVIDIA, Jensen Huang. Os casos de utilização para IA são praticamente ilimitados, desde inovações na medicina a prevenção de fraude de alta precisão. A IA já está a transformar as nossas vidas, tal como está a transformar todas as indústrias. Também está a começar a transformar fundamentalmente a infraestrutura do centro de dados.
As cargas de trabalho de IA estão a impulsionar alterações significativas na forma como alimentamos e arrefecemos os dados processados como parte da computação de alto desempenho (HPC). Um bastidor de TI típico utilizado para executar cargas de trabalho de 5-10 quilowatts (kW) e bastidores a executar cargas superiores a 20 kW foram considerados de alta densidade – uma visão rara fora de aplicações muito específicas com alcance estreito. As TI estão a ser aceleradas com GPU para suportar as necessidades informáticas de modelos de IA e estes chips de IA podem exigir cerca de cinco vezes mais potência e cinco vezes mais capacidade de arrefecimento1 no mesmo espaço que um servidor tradicional. Mark Zuckerberg anunciou que, até ao final de 2024, a Meta irá gastar mil milhões para implementar 350 000 GPU H100 da NVIDIA. As densidades de bastidor de 40 kW por bastidor estão agora na extremidade inferior do que é necessário para facilitar implementações de IA, com densidades de bastidor superiores a 100 kW por bastidor a tornarem-se comuns e em grande escala num futuro próximo.
Isto exigirá aumentos extensos de capacidade em todo o grupo eléctrico, da rede às limalhas em cada bastidor. A introdução de tecnologias de arrefecimento líquido no espaço branco do centro de dados e, eventualmente, nas salas de servidores empresariais, será um requisito para a maioria das implementações, uma vez que os métodos de arrefecimento tradicionais não serão capazes de lidar com o calor gerado pelas GPU que executam cálculos de IA. Os investimentos para atualizar a infraestrutura necessária para alimentar e arrefecer o hardware de IA são substanciais e navegar nestes novos desafios de design é fundamental.
A transição para densidade elevada
A transição para a computação acelerada não acontecerá durante a noite. Os designers de centros de dados e salas de servidores devem procurar formas de preparar a infraestrutura de energia e arrefecimento para o futuro, com considerações para o crescimento futuro das suas cargas de trabalho. Obter energia suficiente para cada bastidor requer atualizações da rede para o bastidor. No espaço branco especificamente, isto significa provavelmente um barramento de alta amperagem e PDU de bastidor de alta densidade. Para rejeitar a enorme quantidade de calor gerada pelo hardware que executa volumes de trabalho de IA, estão a surgir duas tecnologias de arrefecimento líquido como principais opções:
- Arrefecimento líquido direto ao chip: As placas frias ficam por cima dos componentes geradores de calor (normalmente limalhas, como CPUs e GPUs) para retirar o calor. O fluido monofásico ou bifásico bombeado extrai calor da placa fria para enviá-lo para fora do centro de dados, trocando calor mas não fluidos com o chip. Isto pode remover cerca de 70-75% do calor gerado pelo equipamento no bastidor, deixando 25-30% que os sistemas de arrefecimento a ar têm de remover.
- Permutadores de calor da porta traseira: Os permutadores de calor passivos ou ativos substituem a porta traseira do bastidor de TI por bobinas de permuta de calor através das quais o fluido absorve o calor produzido no bastidor. Estes sistemas são muitas vezes combinados com outros sistemas de arrefecimento como estratégia para manter a neutralidade da divisão ou um design transitório que inicia a viagem para o arrefecimento líquido.
Embora o arrefecimento líquido direto ao chip ofereça uma capacidade de arrefecimento de densidade significativamente mais elevada do que o ar, é importante notar que ainda existe calor excessivo que as placas frias não conseguem capturar. Este calor será rejeitado na sala de dados, a menos que seja contido e removido através de outros meios, tais como permutadores de calor da porta traseira ou arrefecimento de ar da sala. Para mais informações sobre soluções de arrefecimento líquido para centros de dados, consulte o nosso white paper.
Designs de alta densidade para remodelações e novas construções
Para simplificar a conceção e implementação de infraestruturas de alta densidade, a Vertiv™ apresentou o Vertiv 360AI, que inclui um portefólio completo de soluções de energia, arrefecimento e serviço que resolvem os desafios complexos que surgem da revolução da IA. A plataforma inclui uma vasta gama de designs abrangentes que suportam até t 132 kW por bastidor para um conjunto diversificado de casos de utilização, desde testes piloto e inferência Edge a uma fábrica de IA.
Conceção para novas construções
| Densidade do bastidor | Contagem de bastidores | Contagem GPU | ID do design | Tecnologia de arrefecimento | ||
|---|---|---|---|---|---|---|
| NA | EMEA | ÁSIA | ||||
| 20kW | 18 | 248 | RD002 |
RD002E |
RD002A |
Ar |
| 40kW | 10 | 248 | RD003 |
RD003E |
RD003A |
Ar |
| 40kW | 10 | 248 | RD004 |
RD004E |
RD004A |
Ar |
| 73kW | 88 | 2304 | RD006 |
RD006E | RD006A |
Líquido + Ar |
| 73kW | 110 | 2880 | RD007 |
RD007E | RD007A |
Líquido + Ar |
| 132kW | 36 | 1152 | RD014 |
RD014E | RD014A |
Líquido + Ar |
| 132kW | 54 | 1728 | RD015 |
RD015E | RD015A |
Líquido + Ar |
| 132kW | 72 | 2304 | RD016 |
RD016E | RD016A |
Líquido + Ar |
| 300kW | - | - | RD300 | RD300E | RD300A | Líquido |
| 500kW | - | - | RD500 | RD500E | RD500A | Líquido |
Design otimizado para remodelações
| Densidade do bastidor | Contagem de bastidores | Contagem GPU | ID do design | Tecnologia de arrefecimento | ||
|---|---|---|---|---|---|---|
| NA | EMEA | ÁSIA | ||||
| 40kW | 4 | 128 | 4X160R |
4X160RE | 4X160RA | Ar |
| 70kW | 1 | 64 | 1L70R |
1L70RE |
1L70RA |
Líquido + Ar |
| 100kW | 1 | 88 | 1L100R |
1L100R |
1L100RA |
Líquido + Ar |
| 100kW | 4 | 368 | 4L400R |
4L400RE | 4L400RA | Líquido + Ar |
| 100kW | 4 | 368 | 4XL400 |
4XL400 |
4XL400A |
Líquido + Ar |
| 100kW | 5 | 460 | 5L500 |
5L500 |
5L500A |
Líquido + Ar |
| 100kW | 12 | 1104 | 12XL1200 |
12XL1200 |
12XL1200A |
Líquido + Ar |
| 100kW | 14 | 1288 | 14L1400 |
14L1400 |
14L1400A |
Líquido + Ar |
Estes designs oferecem vários caminhos para integradores de sistemas, fornecedores de colocation, fornecedores de serviços na cloud ou utilizadores empresariais para alcançar o centro de dados do futuro, agora. Cada instalação específica pode ter nuances com contagem de bastidor e densidade de bastidor ditadas pela seleção de equipamento de TI. Como tal, esta colecção de projectos proporciona uma forma intuitiva de limitar definitivamente um projecto de base e adaptá-lo exactamente às necessidades de implementação.
Ao remodelar ou reaproveitar ambientes existentes para IA, os nossos designs otimizados ajudam a minimizar a interrupção das cargas de trabalho existentes, aproveitando a infraestrutura de arrefecimento disponível e a rejeição de calor, sempre que possível. Por exemplo, podemos integrar o arrefecimento líquido direto ao chip com um permutador de calor da porta traseira para manter uma solução de arrefecimento neutra. Neste caso, o permutador de calor da porta traseira evita que o calor em excesso escape para a divisão. Para uma instalação arrefecida a ar que procura adicionar equipamento de arrefecimento líquido sem quaisquer modificações ao próprio local, temos opções de design líquido-ar disponíveis. Esta mesma estratégia pode ser implementada num único bastidor, em linha ou à escala numa implementação HPC de grandes dimensões. Para designs de vários bastidores, também incluímos barramentos de alta amperagem e PDU de bastidor de alta densidade para distribuir energia para cada bastidor.
Estas opções são compatíveis com uma gama de diferentes opções de rejeição de calor que podem ser emparelhadas com arrefecimento líquido. Isto estabelece um caminho de transição limpo e económico para o arrefecimento líquido de alta densidade sem perturbar outras cargas de trabalho na sala de dados. Consulte as nossas Soluções de Salas de Dados de IA para saber mais.
Embora muitas instalações não tenham sido concebidas para sistemas de alta densidade, a Vertiv tem uma vasta experiência em ajudar os clientes a desenvolver planos de implementação para fazer a transição suave para alta densidade para IA e HPC.
1 Estimativas de gestão: Comparação do consumo de energia e saída de calor a nível de bastidor para 5 servidores Nvidia DGX H100 e 21 servidores Dell PowerStore 500T e 9200T num bastidor padrão de 42U com base nas folhas de especificações do fabricante