As cargas de trabalho de IA excedem os limites do arrefecimento a ar. A redundância N+1 pode contribuir para a redução do risco de interrupções do sistema.
Nos ambientes de alta densidade atuais, mesmo uma pequena interrupção do arrefecimento pode desencadear um aumento rápido da temperatura. À medida que os bastidores empurram 100 quilowatts (kW) ou mais, há menos espaço para erros e menos tempo para reagir.
O arrefecimento tornou-se um problema de fiabilidade da linha da frente. De acordo com o Inquérito Global de Centros de Dados de 2025 do Uptime Institute, 14% das falhas graves estão agora associadas a falhas de arrefecimento. Os problemas de alimentação continuam a conduzir, mas o arrefecimento é um segundo próximo (consulte a Figura 1).
À medida que as instalações implementam infraestruturas otimizadas para IA, estão a alcançar novos níveis de desempenho e densidade de energia. Por exemplo, um único bastidor de sistemas NVIDIA GB300 NVL72 pode extrair mais de 120 kW, ultrapassando muito os limites dos designs de arrefecimento convencionais. Isto cria uma oportunidade para repensar a forma como o arrefecimento é concebido.
É aqui que entra a redundância N+1.
Figura 1. De acordo com o inquérito do Uptime Institute de 2025, as falhas de distribuição de energia causam 45% de falhas graves, enquanto os sistemas de arrefecimento representam 14% - um risco persistente de um em sete. À medida que as densidades dos bastidores sobem, a taxa de falha de arrefecimento pode aumentar sem medidas de mitigação adequadas. A solução reside em medidas proativas: sistemas térmicos redundantes e arquiteturas de arrefecimento ininterruptas (UPS) concebidas para os limites de potência do futuro. Fonte: Instituto de Tempo de Atividade
O que N+1 significa em sistemas de arrefecimento
A redundância N+1 adiciona uma unidade de arrefecimento extra para além do necessário para satisfazer a carga térmica total. Se o seu sistema precisar de quatro refrigeradores ou unidades de distribuição de líquido de refrigeração (CDUs) para manter o desempenho, N+1 significa instalar cinco. Se uma unidade falhar, as outras ainda conseguem lidar com a carga sem interrupção.
Esta abordagem aplica-se em toda a cadeia térmica, incluindo manuseadores de ar, circuitos de arrefecimento líquido, refrigeradores, bombas e controlos. Mas a redundância tem de ser concebida no sistema.
Uma CDU sobresselente significa pouco se um único painel de controlo alimenta todo o loop.
N+1 não elimina a falha. Pode ajudar a gerir interrupções do sistema.
O que significa N em redundância?
Na redundância do centro de dados, N refere-se ao número de componentes ou unidades necessários para suportar a capacidade operacional total do sistema. É a quantidade de linha de base necessária para o funcionamento normal sem quaisquer cópias de segurança.
Estratégias de redundância para computação de alto desempenho
Muitos operadores misturam níveis de redundância. Uma instalação pode alimentar 2N com arrefecimento N+1. Esse equilíbrio depende da carga de trabalho e da tolerância ao risco. Mas à medida que o arrefecimento se torna um ponto de falha mais comum, a redundância N+1 tornou-se o mínimo padrão da indústria para o design do sistema de arrefecimento em centros de dados modernos.
Nível de redundância |
Configuração |
Proteção contra falhas |
Alinhamento da estratégia de arrefecimento |
Casos de utilização típicos |
N |
Sem redundância; todos os sistemas funcionam à capacidade máxima |
Sem proteção; qualquer falha causa tempo de inatividade |
Não recomendado para HPC devido ao risco de variações térmicas |
Laboratórios de desenvolvimento, ambientes de teste não críticos |
N+1 |
Uma unidade de reserva para além da capacidade necessária |
Protecção única contra falhas |
Adequado para CRAC/CDU/redundância de bombas ao nível de bastidor ou loop |
HPC de nível básico, implementações de IA de pequena escala |
N+2 |
Dois componentes de reserva para além da capacidade necessária |
Proteção contra duas falhas simultâneas |
Utilizado quando os requisitos de tempo de atividade são elevados, mas a sensibilidade aos custos permanece |
|
2N |
Duplicação total de todo o sistema de arrefecimento |
Um sistema inteiro pode falhar sem interrupções |
|
Laboratórios nacionais, volumes de trabalho de modelação comercial |
2N+1 |
Duplicação total mais componente sobresselente adicional |
Tolera várias falhas em todos os sistemas |
Arrefecimento líquido topo de gama com caminhos isolados, controlos redundantes e instrumentação |
Grupos de IA em escala de nuvem, locais HPC de nível IV |
Distribuído N+1 |
Redundância incorporada em subsistemas modulares |
Coffret localizado em cada módulo |
Ideal para infraestruturas HPC em contentor ou pré-fabricadas |
HPC modular, nós de IA edge com arrefecimento incorporado |
Vantagens operacionais da redundância N+1
A redundância N+1 em sistemas de arrefecimento permite às instalações manter o desempenho em caso de problemas com o equipamento, manutenção planeada ou cargas em mudança.
Protege o tempo de atividade de arrefecimento durante falhas do equipamento
Se um chiller ou CDU falhar, a unidade de reserva pode assumir o controlo com um impacto de desempenho mínimo. Isto evita oscilações térmicas significativas que, de outra forma, poderiam forçar o estrangulamento ou o acionamento de encerramentos.
Permite a manutenção sem interrupções
As equipas podem fazer a manutenção ou substituir componentes sem colocar o arrefecimento offline. Para ambientes de IA com cargas elevadas contínuas, a flexibilidade é essencial.
Reduz o stress através da partilha de carga
Em muitos sistemas, todas as unidades de arrefecimento funcionam juntas com carga parcial, mesmo a redundante. Isto reduz o stress nos componentes e torna as transições de falha mais suaves.
Melhora o isolamento de falhas
As unidades redundantes são frequentemente alimentadas e controladas separadamente. Isto ajuda a conter falhas locais, como disparos de disjuntores ou erros de controlador lógico programável (CLP) antes de se espalharem.
Suporta validação em tempo real
Com N+1 no lugar, pode simular falhas em condições de carga reais. Isto permite-lhe testar os tempos de resposta, a lógica do sino e o comportamento térmico com menos risco.
Fechar as folgas antes de partirem
A redundância N+1 não resolve todos os problemas, mas dá-lhe tempo quando mais importa: durante uma falha ou uma janela de serviço. É agora a linha de base para o arrefecimento de cargas de trabalho de alta densidade, ajudando as instalações a permanecerem à frente da procura, a manter o tempo de atividade e a escalar com confiança.
O que fazer a seguir:
Reveja a sua arquitetura térmica. Saiba quantas unidades precisa de ficar online e se tem um buffer. Esse buffer é o seu +1.
Avaliar os requisitos de redundância durante o planeamento inicial pode ajudar a apoiar a eficiência operacional.
Procura otimizar o arrefecimento para cargas de trabalho de alta densidade? Fale com a Vertiv e explore estratégias de arrefecimento líquido adaptadas ao seu centro de dados.