Lorsqu’un seul rack consomme plus d’énergie qu’un data center entier il y a dix ans, les approches traditionnelles de gestion en silos ne sont plus adaptées. Que se passe-t-il lorsque l’alimentation électrique, le refroidissement et le calcul commencent à fonctionner ensemble ?
Les opérations des data centers entrent dans une ère d’intelligence unifiée à travers chaque couche d’infrastructure. Les densités de rack dépassent 140 kilowatts (kW) et les charges de travail dépassent les seuils thermiques et de puissance des conceptions traditionnelles. Alors que les infrastructures deviennent plus complexes et interconnectées, les enjeux des défaillances opérationnelles sont plus élevés que jamais.
Selon l’enquête mondiale sur les data centers de l’Uptime Institute 2025, une panne majeure sur cinq coûte désormais plus d’un million de dollars aux opérateurs. Même les incidents modérés de plus en plus coûteux (voir Figure 1). Une pénurie persistante de talents spécialisés accentue la pression pour gérer le refroidissement avancé, les racks haute densité et les systèmes d’alimentation complexes.
Figure 1. Un graphique illustrant le coût total estimé des incidents de temps d’arrêt, de la panne jusqu’à la récupération complète, y compris les coûts directs, les coûts d’opportunité et les coûts de réputation, selon une enquête menée par l’Uptime Institute. Source : Uptime Institute
Pour suivre le rythme, les opérateurs intègrent plus d’intelligence et de coordination dans la gestion de l’infrastructure des data centers, en reliant l’alimentation électrique, le refroidissement et l’informatique via des systèmes intégrés qui s’adaptent en temps réel. Ils passent d’une surveillance et d’un contrôle cloisonnés à une convergence IT/OT pour répondre aux exigences tout en améliorant l’efficacité énergétique dans les data centers.
Comparaison IT et OT
Technologies de l’information (IT) : systèmes qui traitent, stockent et transmettent des données numériques, telles que des serveurs, des réseaux et des logiciels d’entreprise.
Technologie opérationnelle (OT) : systèmes qui surveillent et contrôlent l’infrastructure physique, tels que les unités de distribution électrique, les équipements de refroidissement et les systèmes d’automatisation des bâtiments.
Qu’est-ce que la convergence IT/OT ?
La convergence IT/OT représente l’intégration de systèmes numériques et physiques dans un modèle opérationnel unifié (voir Figure 2). Selon l’International Society of Automation (ISA), cette technologie permet aux entreprises d’unifier les modèles de données et les systèmes de contrôle entre les environnements. La convergence IT/OT vise à améliorer la visibilité, l’automatisation et la prise de décision en favorisant la collaboration entre les fonctions précédemment cloisonnées.
Figure 2. Un exemple de convergence IT/OT dans les opérations de data center, soulignant la connexion entre une salle de contrôle de site et une infrastructure IT avancée. Source : Vertiv
Cas d’utilisation de la convergence IT/OT
S’appuyant sur sa définition fondamentale, les opérations intégrées remodèlent déjà les opérations réelles des data centers. Les opérateurs gagnent plus que de la visibilité en connectant les systèmes de refroidissement, d’alimentation et informatique à travers des plateformes unifiées. Ils permettent une réactivité en temps réel et une gestion de l’infrastructure davantage efficace en énergie.
1. Refroidissement de data center contrôlé par l’IA
Google a développé un système de régulation basé sur l’IA qui connecte les données de charge de travail informatique à l’infrastructure de refroidissement opérationnelle. Les données provenant de milliers de capteurs sont envoyées toutes les cinq minutes à une IA basée sur le cloud, qui calcule les ajustements de refroidissement optimaux.
Ces actions sont vérifiées par rapport aux limites de sécurité, y compris les seuils de température, les limites d’humidité et les plages de fonctionnement de l’équipement, avant d’être effectuées par les systèmes de régulation locaux. Si une action générée par l’IA entre en conflit avec ces protocoles de sécurité, le système de régulation la rejette, applique des points de consigne de refroidissement prudents et alerte les opérateurs. Cette configuration en boucle fermée avec redondance intégrée permet des ajustements de refroidissement en temps réel basés sur des charges IT actives, réduisant ainsi la consommation d’énergie de refroidissement de 30 % en moyenne sur plusieurs sites. Étant donné que le refroidissement représente généralement 30 à 40 % de la consommation électrique totale du data center, cela permet de réaliser des économies opérationnelles substantielles.
2. Gestion intégrée des systèmes d’alimentation et de refroidissement
La télémétrie des alimentations sans interruption (ASI), des unités de distribution électrique (PDU) et des systèmes de refroidissement est agrégée et normalisée à l’aide de protocoles de communication ouverts comme Modbus et le protocole SNMP (Simple Network Management Protocol). Les opérateurs peuvent surveiller et contrôler ces systèmes via une interface unique, leur permettant d’obtenir des informations en temps réel sur la consommation d’énergie, l’état de l’équipement et les conditions environnementales (voir Vidéo 1).
Vidéo 1. Par exemple, Vertiv™ Unify, une plateforme d’automatisation décentralisée, standardise les processus à travers les sites, aidant les opérateurs de data centers à faire évoluer les opérations tout en maintenant des performances et une fiabilité constantes.
3. Observabilité unifiée des systèmes informatiques et des installations
Equinix a combiné les données réseau, d’application, d’alimentation électrique et environnementales en une couche d’observabilité unifiée. Les API et les intégrations aux plateformes DCIM et de gestion des actifs consolident la télémétrie à partir de systèmes numériques et physiques.
Les opérateurs peuvent consulter ces données via des tableaux de bord centralisés ou des outils tiers, accélérant ainsi l’identification des problèmes inter-domaines, tels qu’une défaillance de refroidissement affectant les performances du réseau.
4. Maintenance conditionnelle pour les infrastructures critiques
Vertiv utilise la convergence IT/OT pour prendre en charge la maintenance conditionnelle et la surveillance avancée. Les plateformes basées sur le cloud analysent la télémétrie continue depuis les systèmes de l’installation et des charges informatiques pour générer des scores d’état et identifier les écarts de performance.
Le personnel du site utilise ces indicateurs d'état pour évaluer la condition des équipements et concentrer la maintenance programmée sur les composants présentant des anomalies détectées, maximisant ainsi la valeur de chaque visite d'entretien (voir Figure 3). Les opérateurs utilisent également des comparaisons de performance historiques pour évaluer les tendances du cycle de vie et éclairer la future planification des ressources.
Figure 3. L’évolution de la maintenance montre que les changements et la combinaison subséquente des pratiques traditionnelles réactives et des pratiques avancées permettent aux entreprises de créer un modèle de maintenance qui optimise l’autonomie, l’efficacité et les cycles de vie continus de leurs actifs.
Pourquoi la convergence IT/OT est désormais une infrastructure fondamentale
À mesure que l’infrastructure évolue et que les pressions opérationnelles s’intensifient, la séparation des silos informatiques et technologiques opérationnels crée des angles morts et des inefficacités qui ne répondent plus aux exigences de rapidité et de précision des environnements actuels. Les rassembler permet :
- Visibilité unifiée : La visualisation conjointe des données d’alimentation électrique, de refroidissement et informatique permet de détecter plus rapidement les problèmes et d’en clarifier les causes profondes.
- Décisions plus rapides : Les informations en temps réel provenant des couches physiques et numériques accélèrent le dépannage et la planification.
- Fiabilité prédictive : La détection précoce des irrégularités réduit les temps d’arrêt et prolonge la durée de vie de l’équipement.
- Opérations évolutives : Les processus standardisés améliorent la probabilité de résultats cohérents sur plusieurs sites.
- Efficacité énergétique : La gestion coordonnée de la charge et du refroidissement réduit la consommation d’énergie tout en maintenant les performances opérationnelles dans les limites de conception.