关于
洞察
N+1 冗余如何保障数据中心持续冷却

N+1 冗余如何保障数据中心持续冷却

2025年9月5日

文章主题

AI 工作负载已超出风冷的极限。N+1 冗余有助于降低系统中断的风险。

在当今的高密度环境中，即使是短暂的冷却中断也可能导致温度急剧上升。随着机架功率达到 100 千瓦 (kW) 甚至更高，容错空间越来越小，反应时间也越来越短。

冷却已成为可靠性的首要问题。根据 Uptime Institute 的 2025 年全球数据中心调查，14% 的严重停电与冷却故障有关。电源问题仍然居首，但冷却问题紧随其后 （见图 1）。

随着设施部署 AI 优化的基础设施，其性能和功率密度正在达到新的水平。例如，一个 NVIDIA GB300 NVL72 系统的单机架功耗超过 120 kW，远远超出了传统冷却设计的极限。这为重新思考冷却设计创造了机会。

这就是 N+1 冗余的用武之地。

图 1.根据 Uptime Institute 的 2025 年调查，配电故障导致 45% 的严重停电，而冷却系统故障则占 14%—持续存在的七分之一风险。随着机架密度的上升，如果没有充足的缓解措施，冷却故障率可能会上升。解决方案在于主动措施：冗余散热系统和基于不间断电源 (UPS)的冷却架构，这些架构专为满足未来功率阈值而设计。来源： Uptime Institute

冷却系统中的“N+1”是什么意思

N+1 冗余是指在满足全部热负荷所需的冷却装置之外，额外增加一个冷却装置。如果您的系统需要四台冷却器或冷却液分配单元 (CDU) 来维持性能，那么 N+1 意味着安装五台。即使一台装置发生故障，其他装置仍可不间断地处理负载。

这种方法适用于整个冷链，包括空气处理器、液体冷却回路、冷却器、泵和控制器。但系统设计必须考虑冗余。

如果单个控制面板为整个回路供电，那么备用 CDU 就没有什么意义。

N+1 并不能消除故障。它可以帮助管理系统中断。

冗余中的 N 代表什么意思？

在数据中心冗余中，N 指的是支持系统全部运行能力所需的组件或单元数量。它是在没有任何备份的情况下正常运行所需的基准数量。

高性能计算的冗余策略

许多运营商会混合使用冗余级别。一个数据中心可能采用 2N 电源和 N+1 制冷。这种平衡取决于工作负载和风险承受能力。但随着制冷成为更常见的故障点，N+1 冗余已成为现代数据中心制冷系统设计的行业标准最低要求。

冗余级别	配置	故障保护	冷却策略调整	典型用例
北	无冗余；所有系统均满负荷运行	没有保护；任何故障都会导致停机	由于存在热偏移风险，不建议用于 HPC	开发实验室、非关键测试环境
N+1	一个备用单元超出所需容量	单一故障保护	适用于机架或回路级别的 CRAC/CDU/泵冗余	入门级 HPC、小规模 AI 部署
N+2	两个备用组件超出所需容量	防止两个并发故障	当正常运行时间要求较高但成本敏感时使用	研究集群、学术超级计算
2N	整个冷却系统完全复制	整个系统可能出现故障而不会中断	独立的电源和冷却路径，通常包括完全重复的 CDU 和控制	国家实验室、商业建模工作量
2N+1	完全复制并附加备用组件	容忍系统发生多种故障	具有隔离路径、冗余控制和仪表的高端液体冷却	云规模AI集群、Tier IV级HPC站点
分布式 N+1	跨模块化子系统嵌入冗余	每个模块内的本地故障转移	非常适合集装箱式或预制式 HPC 基础设施	模块化 HPC、带有板载冷却的边缘 AI 节点