Las cargas de trabajo de IA superan los límites de la refrigeración por aire. La redundancia N+1 puede contribuir a reducir el riesgo de interrupciones del sistema.
En los entornos de alta densidad actuales, incluso una breve interrupción de la refrigeración puede desencadenar un rápido pico de temperatura. A medida que los racks impulsan 100 kilovatios (kW) o más, hay menos margen de error y menos tiempo para reaccionar.
La refrigeración se ha convertido en un problema de fiabilidad de primera línea. Según la encuesta global de centros de datos de 2025 del Uptime Institute, el 14 % de los cortes graves están ahora vinculados a fallos de refrigeración. Todavía hay problemas de alimentación, pero la refrigeración es un segundo corto (ver Figura 1).
A medida que las instalaciones implementan infraestructura optimizada para IA, están alcanzando nuevos niveles de rendimiento y densidad de potencia. Por ejemplo, un solo rack de sistemas NVIDIA GB300 NVL72 puede consumir más de 120 kW, superando con creces los límites de los diseños de refrigeración convencionales. Esto crea una oportunidad para replantearse cómo se diseña la refrigeración.
Ahí es donde entra en juego la redundancia N+1.
Figura 1. Según la encuesta de 2025 del Uptime Institute, los fallos de distribución eléctrica causan el 45 % de los cortes graves, mientras que los sistemas de refrigeración representan el 14 %, un riesgo persistente de uno de cada siete. A medida que aumentan las densidades del rack, la tasa de fallos de refrigeración puede aumentar sin medidas de mitigación adecuadas. La solución reside en medidas proactivas: sistemas térmicos redundantes y arquitecturas de refrigeración respaldadas por sistemas de alimentación ininterrumpida (SAI) diseñadas para los umbrales de alimentación del mañana. Fuente: Instituto de tiempo de actividad
Qué significa N+1 en los sistemas de refrigeración
La redundancia N+1 añade una unidad de refrigeración adicional más allá de lo necesario para satisfacer la carga térmica completa. Si su sistema necesita cuatro chillers o unidades de distribución de refrigerante (CDU) para mantener el rendimiento, N+1 significa instalar cinco. Si una unidad falla, las otras aún pueden manejar la carga sin interrupción.
Este enfoque se aplica a toda la cadena térmica, incluidos los controladores de aire, los bucles de refrigeración líquida, los chillers, las bombas y los controles. Pero la redundancia debe diseñarse en el sistema.
Una CDU de repuesto significa poco o un solo panel de control alimenta todo el bucle.
N+1 no elimina los fallos. Puede ayudar a gestionar las interrupciones del sistema.
¿Qué significa N en redundancia?
En redundancia de centros de datos, N se refiere al número de componentes o unidades necesarios para respaldar toda la capacidad operativa del sistema. Es la cantidad de referencia necesaria para el funcionamiento normal sin respaldos.
Estrategias de redundancia para computación de alto rendimiento
Muchos operadores mezclan niveles de redundancia. Una instalación puede alimentar con energía 2N con refrigeración N+1. Ese equilibrio depende de la carga de trabajo y la tolerancia al riesgo. Pero a medida que la refrigeración se convierte en un punto de fallo más común, la redundancia N+1 se ha convertido en el mínimo estándar del sector para el diseño de sistemas de refrigeración en centros de datos modernos.
Nivel de redundancia |
Configuración |
Protección contra fallos |
Alineación de la estrategia de refrigeración |
Casos de uso típicos |
N |
Sin redundancia; todos los sistemas funcionan a plena capacidad |
Sin protección; cualquier fallo provoca tiempo de inactividad |
No recomendado para HPC debido al riesgo de oscilaciones térmicas |
Laboratorios de desarrollo, entornos de prueba no críticos |
N+1 |
Una unidad de respaldo más allá de la capacidad requerida |
Protección frente a un solo fallo |
Adecuado para redundancia de CRAC/CDU/bomba a nivel de rack o bucle |
HPC de nivel básico, despliegues de IA a pequeña escala |
N+2 |
Dos componentes de respaldo más allá de la capacidad requerida |
Protección frente a dos fallos simultáneos |
Se utiliza cuando los requisitos de tiempo de actividad son altos, pero la sensibilidad a los costes sigue siendo |
|
2N |
Duplicación total de todo el sistema de refrigeración |
Un sistema completo puede fallar sin interrupciones |
|
Laboratorios nacionales, cargas de trabajo de modelado comercial |
2N+1 |
Duplicación completa más componente de repuesto adicional |
Tolera múltiples fallos en todos los sistemas |
Refrigeración líquida de alta gama con rutas aisladas, controles redundantes e instrumentación |
Clústeres de IA a escala de nube, centros HPC de nivel IV |
N+1 distribuido |
Redundancia integrada en subsistemas modulares |
Conmutación por error localizada dentro de cada módulo |
Ideal para infraestructura HPC en contenedores o prefabricada |
HPC modular, nodos de AI Edge con refrigeración integrada |
Ventajas operativas de la redundancia N+1
La redundancia N+1 en los sistemas de refrigeración permite a las instalaciones mantener el rendimiento en caso de problemas con el equipo, mantenimiento planificado o cargas cambiantes.
Protege el tiempo de actividad de refrigeración durante fallos del equipo
Si falla un chiller o CDU, la unidad de reserva puede asumir el control con un impacto mínimo en el rendimiento. Esto evita oscilaciones térmicas significativas que de otro modo podrían forzar la regulación o desencadenar apagados.
Permite el mantenimiento sin interrupciones
Los equipos pueden reparar o sustituir componentes sin desconectar la refrigeración. Para entornos de IA con cargas altas continuas, la flexibilidad es esencial.
Reduce el estrés a través del reparto de la carga
En muchos sistemas, todas las unidades de refrigeración funcionan juntas a carga parcial, incluso la redundante. Esto reduce la tensión sobre los componentes y hace que las transiciones de fallo sean más fluidas.
Mejora el aislamiento de fallos
Las unidades redundantes suelen alimentarse y controlarse por separado. Eso ayuda a contener fallos locales como disparos de disyuntores o errores de controlador lógico programable (PLC) antes de que se propaguen.
Admite validación en vivo
Con N+1 instalado, puede simular fallos en condiciones de carga real. Esto le permite probar los tiempos de respuesta, la lógica de conmutación por error y el comportamiento térmico con menos riesgo.
Cerrar las brechas antes de que se rompan
La redundancia N+1 no resuelve todos los problemas, pero te da tiempo cuando más importa: durante un fallo o una ventana de servicio. Ahora es el punto de partida para enfriar cargas de trabajo de alta densidad, ayudando a las instalaciones a mantenerse por delante de la demanda, mantener el tiempo de actividad y escalar con confianza.
Qué hacer a continuación:
Revise su arquitectura térmica. Conozca cuántas unidades necesita para permanecer online y si tiene un búfer. Ese búfer es tu +1.
Evaluar los requisitos de redundancia durante la planificación inicial puede ayudar a respaldar la eficiencia operativa.
¿Quieres optimizar la refrigeración para cargas de trabajo de alta densidad? Habla con Vertiv y explora estrategias de refrigeración líquida adaptadas a tu centro de datos.