Las cargas de trabajo de IA están superando los límites del enfriamiento por aire. La redundancia N+1 puede contribuir a reducir el riesgo de interrupciones del sistema.
En los actuales entornos de alta densidad, incluso una breve interrupción del enfriamiento puede desencadenar un rápido aumento de temperatura. A medida que los racks consumen 100 kilovatios (kW) o más, hay menos espacio para errores y menos tiempo para reaccionar.
El enfriamiento se ha convertido en un problema de confiabilidad de primera línea. Según la Encuesta global de centros de datos de 2025 de Uptime Institute, el 14 % de las interrupciones graves ahora están vinculadas a fallas de enfriamiento. Los problemas de alimentación siguen ocupando el primer puesto, pero el enfriamiento es un segundo cercano (consulte la Figura 1).
A medida que las instalaciones implementan infraestructura optimizada para IA, están alcanzando nuevos niveles de rendimiento y densidad de potencia. Por ejemplo, un solo rack de sistemas NVIDIA GB300 NVL72 puede consumir más de 120 kW, lo cual supera ampliamente los límites de los diseños de enfriamiento convencionales. Esto crea una oportunidad para repensar cómo se diseña la refrigeración.
Ahí es donde entra en juego la redundancia N+1.
Figura 1. Según la encuesta de 2025 de Uptime Institute, las fallas en la distribución de energía causan el 45 % de los cortes eléctricos graves, mientras que los sistemas de enfriamiento representan el 14 %, un riesgo persistente de uno en cada siete. A medida que aumentan las densidades de los estantes, la tasa de fallas de enfriamiento puede aumentar sin medidas de mitigación adecuadas. La solución se encuentra en medidas proactivas: sistemas térmicos redundantes y arquitecturas de enfriamiento respaldadas por una unidad de suministro ininterrumpido de energía (UPS) diseñada para los umbrales de alimentación del mañana. Fuente: Instituto Uptime
¿Qué significa N+1 en los sistemas de enfriamiento?
La redundancia N+1 agrega una unidad de enfriamiento adicional más allá de lo necesario para satisfacer la carga térmica completa. Si su sistema necesita cuatro enfriadores o unidades de distribución de refrigerante (CDU) para mantener el rendimiento, N+1 significa instalar cinco. Si una unidad falla, las otras aún pueden manejar la carga sin interrupción.
Este enfoque se aplica en toda la cadena térmica, incluidos los manipuladores de aire, los bucles de enfriamiento de líquidos, los enfriadores, las bombas y los controles. Sin embargo, la redundancia debe diseñarse en el sistema.
Una CDU de repuesto significa poco si un solo panel de control alimenta todo el bucle.
N+1 no elimina la falla. Puede ayudar a gestionar las interrupciones del sistema.
¿Qué significa N en redundancia?
En redundancia de centros de datos, N se refiere al número de componentes o unidades necesarios para soportar la capacidad operativa completa del sistema. Es la cantidad de referencia requerida para el funcionamiento normal sin respaldos.
Estrategias de redundancia para computación de alto rendimiento
Muchos operadores mezclan los niveles de redundancia. Una instalación podría utilizar energía 2N con enfriamiento N+1. Ese equilibrio depende de la carga de trabajo y la tolerancia al riesgo, pero a medida que el enfriamiento se convierte en un punto de falla más común, la redundancia N+1 se ha convertido en el mínimo estándar de la industria para el diseño de sistemas de enfriamiento en centros de datos modernos.
Nivel de redundancia |
Configuración |
Protección contra fallas |
Alineación de la estrategia de enfriamiento |
Casos de uso típicos |
N |
Sin redundancia; todos los sistemas funcionan a plena capacidad |
Sin protección; cualquier falla causa periodos de inactividad |
No se recomienda para HPC debido al riesgo de oscilaciones térmicas |
Laboratorios de desarrollo, entornos de prueba no críticos |
N+1 |
Una unidad de respaldo más allá de la capacidad requerida |
Protección contra falla única |
Adecuado para redundancia de CRAC/CDU/bomba a nivel de rack o bucle |
HPC de nivel básico, implementaciones de IA a pequeña escala |
N+2 |
Dos componentes de respaldo más allá de la capacidad requerida |
Protección contra dos fallas concurrentes |
Se utiliza cuando los requisitos de tiempo operativo son altos, pero la sensibilidad al costo permanece |
|
2N |
Duplicación completa de todo el sistema de enfriamiento |
Un sistema completo puede fallar sin interrupciones |
|
Laboratorios nacionales, cargas de trabajo de modelado comercial |
2N+1 |
Duplicación completa más componente de repuesto adicional |
Tolera múltiples fallas en todos los sistemas |
Enfriamiento líquido de alta gama con trayectorias aisladas, controles redundantes e instrumentación |
Agrupamientos de IA a escala de nube, sitios HPC de nivel IV |
Distribuido N+1 |
Redundancia integrada en subsistemas modulares |
Conmutación por error localizada dentro de cada módulo |
Ideal para infraestructura de HPC en contenedores o prefabricada |
HPC modular, nodos de IA perimetral con enfriamiento integrado |
Beneficios operativos de la redundancia N+1
La redundancia N+1 en los sistemas de enfriamiento les permite a las instalaciones mantener el rendimiento en caso de problemas con el equipo, mantenimiento planificado o cargas cambiantes.
Protege el tiempo operativo de enfriamiento durante fallas del equipo
Si falla una enfriadora o CDU, la unidad de respaldo puede tomar el control con un impacto mínimo en el rendimiento. Esto evita oscilaciones térmicas significativas que, de otro modo, podrían forzar la regulación o desencadenar apagados.
Permite el mantenimiento sin interrupciones
Los equipos pueden dar servicio o reemplazar componentes sin dejar de enfriar. Para entornos de IA con cargas altas continuas, la flexibilidad es esencial.
Reduce el estrés al compartir la carga
En muchos sistemas, todas las unidades de enfriamiento funcionan juntas con carga parcial, incluso la redundante. Esto reduce la tensión en los componentes y hace que las transiciones de fallas sean más fluidas.
Mejora el aislamiento de fallas
Las unidades redundantes a menudo se alimentan y controlan por separado. Esto ayuda a contener fallas locales como disparos de disyuntores o errores del controlador lógico programable (PLC) antes de que se propaguen.
Compatible con la validación en vivo
Con N+1 implementado, puede simular fallas en condiciones de carga reales. Esto le permite probar los tiempos de respuesta, la lógica de conmutación por error y el comportamiento térmico con menos riesgo.
Cerrar las brechas antes de que se rompan
La redundancia N+1 no resuelve todos los problemas, pero le da tiempo cuando más importa: durante una falla o una ventana de servicio. Ahora es la base para enfriar cargas de trabajo de alta densidad, al ayudar a las instalaciones a mantenerse a la vanguardia de la demanda, mantener el tiempo operativo y escalar con confianza.
Qué hacer a continuación:
Revise su arquitectura térmica. Sepa cuántas unidades necesita permanecer en línea y si tiene una solución amortiguadora. Ese buffer es su +1.
Evaluar los requisitos de redundancia durante la planificación inicial puede ayudar a respaldar la eficiencia operativa.
¿Busca optimizar el enfriamiento para cargas de trabajo de alta densidad? Hable con Vertiv y explore las estrategias de enfriamiento líquido adaptadas a su centro de datos.