I carichi di lavoro AI superano i limiti del raffreddamento ad aria. La ridondanza N+1 può contribuire a ridurre il rischio di interruzioni del sistema.
Negli odierni ambienti ad alta densità, anche una breve interruzione del raffreddamento può innescare un rapido picco di temperatura. Man mano che i rack raggiungono i 100 kilowatt (kW) o più, c’è meno margine di errore e meno tempo per reagire.
Il raffreddamento è diventato un problema di affidabilità in prima linea. Secondo il Global Data Center Survey 2025 di Uptime Institute, il 14% delle interruzioni gravi è ora legato a guasti dei sistemi di raffreddamento. I problemi di alimentazione rimangono al primo posto, ma il raffreddamento è subito dietro (Figura 1).
Man mano che le strutture implementano un’infrastruttura ottimizzata per l’AI, stanno raggiungendo nuovi livelli di prestazioni e densità di potenza. Ad esempio, un singolo rack di sistemi NVIDIA GB300 NVL72 può assorbire più di 120 kW, spingendosi ben oltre i limiti dei progetti di raffreddamento convenzionali. Ciò crea l’opportunità di ripensare il modo in cui viene progettato il raffreddamento.
È qui che entra in gioco la ridondanza N+1.
Figura 1. Secondo il sondaggio dell’Uptime Institute del 2025, i guasti della distribuzione dell’alimentazione causano il 45% delle interruzioni gravi, mentre i sistemi di raffreddamento rappresentano il 14%, un rischio persistente uno su sette. Con l’aumentare delle densità dei rack, il tasso di guasto del raffreddamento può aumentare senza adeguate misure di mitigazione. La soluzione consiste in misure proattive: sistemi termici ridondanti e architetture di raffreddamento supportate da UPS (UPS) progettate per le soglie di potenza di domani. Fonte: Uptime Institute
Cosa significa N+1 nei sistemi di raffreddamento
La ridondanza N+1 aggiunge un’unità di raffreddamento extra oltre a quelle necessarie per gestire il carico termico completo. Se il sistema ha bisogno di quattro chiller o unità di distribuzione del refrigerante (CDU) per mantenere le prestazioni, N+1 significa installarne cinque. Se un'unità si guasta, l'altra può comunque gestire il carico senza interruzioni.
Questo approccio si applica a tutta la catena termica, compresi sistemi di trattamento dell'aria, circuiti di raffreddamento a liquido, chiller, pompe e controlli. Tuttavia, la ridondanza deve essere progettata nel sistema.
Una CDU di riserva conta poco se un unico pannello di controllo alimenta l’intero circuito.
N+1 non elimina i guasti. Può aiutare a gestire le interruzioni del sistema.
Che cosa significa N nella ridondanza?
Nella ridondanza dei data center, N si riferisce al numero di componenti o unità necessari per supportare la piena capacità operativa del sistema. È la quantità di riferimento richiesta per il normale funzionamento senza backup.
Strategie di ridondanza per il computing ad alte prestazioni
Molti operatori combinano livelli di ridondanza. Una struttura potrebbe alimentare 2N con raffreddamento N+1. Tale equilibrio dipende dal carico di lavoro e dalla tolleranza al rischio. Ma man mano che il raffreddamento diventa un punto di guasto più comune, la ridondanza N+1 è diventata il minimo standard del settore per la progettazione di sistemi di raffreddamento nei data center moderni.
Livello di ridondanza |
Configurazione |
Protezione da guasti |
Allineamento della strategia di raffreddamento |
Casi d'uso tipici |
N |
Nessuna ridondanza; tutti i sistemi funzionano a piena capacità |
Nessuna protezione; qualsiasi guasto causa tempi di inattività |
Non consigliato per HPC a causa del rischio di escursioni termiche |
Laboratori di sviluppo, ambienti di test non critici |
N+1 |
Un’unità di backup oltre la capacità richiesta |
Protezione da singolo guasto |
Adatto per ridondanza CRAC/CDU/pompa a livello di rack o circuito |
HPC entry-level, implementazioni IA su piccola scala |
N+2 |
Due componenti di backup oltre la capacità richiesta |
Protezione da due guasti concomitanti |
Utilizzato quando i requisiti di operatività sono elevati, ma la sensibilità ai costi rimane |
|
2N |
Duplicazione completa dell'intero sistema di raffreddamento |
Un intero sistema può guastarsi senza interruzioni |
|
Laboratori nazionali, carichi di lavoro di modellazione commerciale |
2N+1 |
Duplicazione completa più componente di ricambio aggiuntivo |
Tollera più guasti tra i sistemi |
Raffreddamento a liquido di fascia alta con percorsi isolati, controlli ridondanti e strumentazione |
cluster IA su scala cloud, siti HPC di livello IV |
Distribuito N+1 |
Ridondanza integrata nei sottosistemi modulari |
Failover localizzato all’interno di ciascun modulo |
Ideale per infrastrutture HPC containerizzate o prefabbricate |
Nodi HPC modulari, Edge AI con raffreddamento integrato |
Vantaggi operativi della ridondanza N+1
La ridondanza N+1 nei sistemi di raffreddamento consente alle strutture di mantenere le prestazioni in caso di problemi alle apparecchiature, manutenzione programmata o carichi variabili.
Protegge il tempo di funzionamento del raffreddamento in caso di guasti alle apparecchiature
In caso di guasto di un chiller o di una CDU, l'unità di backup può subentrare con un impatto minimo sulle prestazioni. Ciò impedisce forti oscillazioni termiche che potrebbero altrimenti forzare il throttling o attivare gli arresti.
Consente la manutenzione senza interruzioni
I team possono eseguire la manutenzione o la sostituzione dei componenti senza mettere offline il raffreddamento. Per ambienti AI con carichi elevati continui, la flessibilità è essenziale.
Riduce lo stress grazie alla condivisione del carico
In molti sistemi, tutte le unità di condizionamento funzionano insieme a carico parziale, anche quello ridondante. Ciò riduce lo stress sui componenti e semplifica le transizioni dei guasti.
Migliora l’isolamento dei guasti
Le unità ridondanti sono spesso alimentate e controllate separatamente. Ciò aiuta a contenere guasti locali come gli interventi degli interruttori automatici o gli errori del controllore a logica programmabile (PLC) prima che si diffondano.
Supporta la convalida in tempo reale
Con N+1 in funzione, è possibile simulare i guasti in condizioni di carico reali. Ciò consente di testare i tempi di risposta, la logica di failover e il comportamento termico con meno rischi.
Colmare le lacune prima che si rompano
La ridondanza N+1 non risolve tutti i problemi, ma offre tempo quando è più importante: durante un guasto o una finestra di servizio. Oggi è il punto di riferimento per il raffreddamento dei carichi di lavoro ad alta densità, aiutando le strutture a rimanere al passo con la domanda, mantenere i tempi di attività e scalare con fiducia.
Cosa fare dopo:
Rivedi la tua architettura termica. Scopri quante unità devi rimanere online e se hai un buffer. Questo buffer è il tuo +1.
La valutazione dei requisiti di ridondanza durante la pianificazione iniziale può aiutare a supportare l’efficienza operativa.
Stai cercando di ottimizzare il raffreddamento per carichi di lavoro ad alta densità? Parla con Vertiv ed esplora le strategie di raffreddamento a liquido personalizzate per il tuo data center.