As cargas de trabalho da IA estão excedendo os limites do resfriamento a ar. A redundância N+1 pode contribuir para reduzir o risco de interrupções no sistema.
Nos atuais ambientes com alta densidade, até mesmo uma breve interrupção no resfriamento pode desencadear um rápido pico de temperatura. À medida que os racks chegam a 100 quilowatts (kW) ou mais, há menos margem para erros e menos tempo para reagir.
O resfriamento tornou-se uma das principais questões para a confiabilidade. De acordo com a Pesquisa Global de Data Centers de 2025 do Uptime Institute, 14% das indisponibilidades graves estão ligadas agora a falhas no resfriamento. Questões com a alimentação de energia ainda lideram, mas o resfriamento chega perto (veja a Figura 1).
À medida que as instalações implementam infraestrutura otimizada para IA, elas atingem novos níveis de performance e de densidade de potência. Por exemplo, um único rack de sistemas NVIDIA GB300 NVL72 pode consumir mais de 120 kW, superando bem os limites dos designs de resfriamento convencionais. Isso cria uma oportunidade para repensar como o resfriamento é projetado.
É aí que entra a redundância N+1.
Figura 1. De acordo com a pesquisa de 2025 do Uptime Institute, falhas na distribuição de energia causam 45% das indisponibilidades graves, enquanto os sistemas de resfriamento respondem por 14%, um risco persistente de uma a cada sete ocorrências. À medida que as densidades dos racks aumentam, a taxa de falha de resfriamento pode aumentar se não forem tomadas as medidas de mitigação adequadas. A solução está em medidas proativas: sistemas térmicos redundantes e arquiteturas de resfriamento respaldadas por fontes de alimentação de energia ininterrupta (UPS) projetadas para os futuros limiares de potência. Fonte: Uptime Institute
O que N+1 significa em sistemas de resfriamento
A redundância N+1 adiciona uma unidade de resfriamento extra além do que é necessário para atender à carga térmica total. Se o seu sistema precisar de quatro chillers ou unidades de distribuição de líquido (CDUs) para manter a performance, N+1 significa instalar cinco. Se uma unidade falhar, as outras ainda poderão dar conta da carga sem haver interrupções.
Essa abordagem se aplica em toda a cadeia de gerenciamento térmico, incluindo unidades de tratamento de ar, circuitos de resfriamento líquido, chillers, bombas e controles. Mas a redundância precisa ser projetada no sistema.
Uma CDU sobressalente significa pouco se um único painel de controle lida com todo o circuito.
N+1 não elimina falhas. Ele pode ajudar a gerenciar as interrupções do sistema.
O que N significa em redundância?
Em redundância de data centers, N refere-se à quantidade de componentes ou unidades necessárias para dar suporte à capacidade operacional total do sistema. É a quantidade básica necessária para a operação normal sem nenhum backup.
Estratégias de redundância para computação de alta performance
Muitos operadores misturam níveis de redundância. Uma instalação pode operar com alimentação de energia 2N e com resfriamento N+1. Esse equilíbrio depende da carga de trabalho e da tolerância a riscos. Mas à medida que o resfriamento se torna um ponto de falha mais comum, a redundância N+1 se torna o padrão mínimo da indústria para o design de sistemas de resfriamento nos data centers modernos.
Nível de redundância |
Configuração |
Proteção contra falhas |
Alinhamento da estratégia de resfriamento |
Casos de uso comuns |
N |
Sem redundância; todos os sistemas funcionam com capacidade total |
Sem proteção; qualquer falha causa uma parada (downtime) |
Não recomendada para HPC devido ao risco de disparos térmicos (thermal excursions ou thermal trips) |
Laboratórios de desenvolvimento, ambientes de teste não críticos |
N+1 |
Uma unidade de backup além da capacidade exigida |
Proteção contra uma única falha |
Adequada para redundância de CRAC/CDU/bomba no nível de rack ou do circuito |
HPC de nível básico e implementações de IA em pequena escala |
N+2 |
Dois componentes de backup além da capacidade exigida |
Proteção contra duas falhas simultâneas |
Usada quando a necessidade de disponibilidade (uptime) é alta, mas a sensibilidade aos custos permanece |
|
2N |
Duplicação completa de todo o sistema de resfriamento |
Um sistema inteiro pode falhar sem causar disrupções |
|
Laboratórios nacionais, cargas de trabalho de modelagem comercial |
2N+1 |
Duplicação completa mais componente sobressalente adicional |
Tolera várias falhas em todos os sistemas |
Resfriamento líquido de ponta com trajetórias isoladas, controles redundantes e instrumentação |
Clusters de IA em escala de nuvem, sites de HPC Tier IV |
N+1 distribuído |
Redundância incorporada em subsistemas modulares |
Failover localizado em cada módulo |
Ideal para infraestrutura HPC conteinerizada ou pré-fabricada |
HPC modular, nós IA de edge computing com resfriamento integrado |
Benefícios operacionais da redundância N+1
A redundância N+1 em sistemas de resfriamento possibilita que as instalações mantenham a performance em caso de problemas com equipamentos, manutenção planejada ou mudanças nas cargas.
Protege a disponibilidade do resfriamento durante falhas de equipamentos
Se um chiller ou CDU falhar, a unidade de backup pode assumir com impacto mínimo na performance. Isso evita oscilações térmicas significativas que, de outra forma, poderiam forçar o “throttling” (regulagem térmica) ou acionar desligamentos.
Permite a manutenção sem disrupções
As equipes podem fazer manutenção ou substituir componentes sem desllgar o resfriamento. Para ambientes de IA com cargas altas contínuas, a flexibilidade é essencial.
Reduz o estresse através do compartilhamento da carga
Em muitos sistemas, todas as unidades de resfriamento funcionam juntas a carga parcial, mesmo a redundante. Isso reduz o estresse sobre os componentes e torna a transição das falhas mais suave.
Melhora o isolamento de falhas
As unidades redundantes são frequentemente alimentadas e controladas separadamente. Isso ajuda a conter falhas locais, como desarmes do disjuntor ou erros do controlador lógico programável (PLC) antes que se espalhem.
Compatível com validação em tempo real
Com a N+1 instalada, você pode simular falhas em condições de carga reais. Isso permite testar os tempos de resposta, a lógica de failover e o comportamento térmico com menos riscos.
Agindo antes que os problemas surjam
A redundância N+1 não resolve todos os problemas, mas dá a você tempo quando é mais importante: durante uma falha ou uma manutenção. Ela é agora o parâmetro para resfriar cargas de trabalho de alta densidade, ajudando as instalações a antecipar a demanda, manter a disponibilidade e escalar com confiança.
O que fazer a seguir:
Revise sua arquitetura térmica. Saiba quantas unidades você precisa permanecer funcionando e se você tem uma proteção. Essa proteção é o seu +1.
Avaliar os requisitos de redundância durante o planejamento inicial pode ajudar a apoiar a eficiência operacional.
Quer otimizar o resfriamento para cargas de trabalho de alta densidade? Converse com a Vertiv e explore estratégias de resfriamento líquido customizadas para o seu data center.