The page you're viewing is for Simplified Chinese (China) region.

The page you're viewing is for Simplified Chinese (China) region.

N+1 冗余如何保障数据中心持续冷却

AI 工作负载已超出风冷的极限。N+1 冗余有助于降低系统中断的风险。

在当今的高密度环境中,即使是短暂的冷却中断也可能导致温度急剧上升。随着机架功率达到 100 千瓦 (kW) 甚至更高,容错空间越来越小,反应时间也越来越短。

冷却已成为可靠性的首要问题。根据 Uptime Institute 的 2025 年全球数据中心调查,14% 的严重停电与冷却故障有关。 电源问题仍然居首,但冷却问题紧随其后 (见图 1)

随着设施部署 AI 优化的基础设施,其性能和功率密度正在达到新的水平。例如,一个 NVIDIA GB300 NVL72 系统的单机架功耗超过 120 kW,远远超出了传统冷却设计的极限。这为重新思考冷却设计创造了机会。

这就是 N+1 冗余的用武之地。

blobid0.png

图 1.根据 Uptime Institute 的 2025 年调查,配电故障导致 45% 的严重停电,而冷却系统故障则占 14%—持续存在的七分之一风险。随着机架密度的上升,如果没有充足的缓解措施,冷却故障率可能会上升。解决方案在于主动措施:冗余散热系统和基于 不间断电源 (UPS)的冷却架构,这些架构专为满足未来功率阈值而设计。来源: Uptime Institute

冷却系统中的“N+1”是什么意思

N+1 冗余是指在满足全部热负荷所需的冷却装置之外,额外增加一个冷却装置。如果您的系统需要四台冷却器或 冷却液分配单元 (CDU) 来维持性能,那么 N+1 意味着安装五台。即使一台装置发生故障,其他装置仍可不间断地处理负载。

这种方法适用于整个冷链,包括空气处理器、 液体冷却回路、冷却器、泵和控制器。但系统设计必须考虑冗余。

如果单个控制面板为整个回路供电,那么备用 CDU 就没有什么意义。

N+1 并不能消除故障。它可以帮助管理系统中断。

冗余中的 N 代表什么意思?

在数据中心冗余中,N 指的是支持系统全部运行能力所需的组件或单元数量。它是在没有任何备份的情况下正常运行所需的基准数量。

高性能计算的冗余策略

许多运营商会混合使用冗余级别。一个数据中心可能采用 2N 电源和 N+1 制冷。这种平衡取决于工作负载和风险承受能力。但随着制冷成为更常见的故障点,N+1 冗余已成为现代数据中心制冷系统设计的行业标准最低要求。

冗余级别

配置

故障保护

冷却策略调整

典型用例

无冗余;所有系统均满负荷运行

没有保护;任何故障都会导致停机

由于存在热偏移风险,不建议用于 HPC

开发实验室、非关键测试环境

N+1

一个备用单元超出所需容量

单一故障保护

适用于机架或回路级别的 CRAC/CDU/泵冗余

入门级 HPC、小规模 AI 部署

N+2

两个备用组件超出所需容量

防止两个并发故障

当正常运行时间要求较高但成本敏感时使用


研究集群、学术超级计算

2N

整个冷却系统完全复制

整个系统可能出现故障而不会中断


独立的电源和冷却路径,通常包括完全重复的 CDU 和控制

国家实验室、商业建模工作量

2N+1

完全复制并附加备用组件

容忍系统发生多种故障

具有隔离路径、冗余控制和仪表的高端液体冷却

云规模AI集群、Tier IV级HPC站点

分布式 N+1

跨模块化子系统嵌入冗余

每个模块内的本地故障转移

非常适合集装箱式或预制式 HPC 基础设施

模块化 HPC、带有板载冷却的边缘 AI 节点

N+1 冗余的运营优势

冷却系统中的 N+1 冗余使设施能够在出现设备问题、计划维护或负载转移时保持性能。

在设备故障期间保护冷却正常运行

如果冷却器或冷量单元 (CDU) 发生故障,备用机组可以接管,最大程度地降低性能影响。这可以防止出现可能导致节流或触发停机的大幅热波动。

无需中断即可进行维护

团队无需停机即可维护或更换组件。对于持续高负载的AI环境,灵活性至关重要。

通过负载共享减轻压力

在许多系统中,所有冷却装置在部分负荷下一起运行—即使是冗余的,也能降低组件的压力,使故障转移更加平稳。

改善故障隔离

冗余单元通常单独供电和控制。这有助于在断路器跳闸或可编程逻辑控制器 (PLC) 错误等局部故障蔓延之前将其控制住。

支持实时验证

有了 N+1,您可以在真实负载条件下模拟故障。这样,您就可以以更低的风险测试响应时间、故障转移逻辑和热性能。

在差距扩大之前将其缩小

N+1 冗余并不能解决所有问题,但它能在最关键的时刻(例如故障或服务时段)为您争取时间。它如今已成为冷却高密度工作负载的基准,帮助设施始终领先于需求,维持正常运行时间,并自信地进行扩展。

下一步做什么:

检查你的热架构。了解你需要多少台设备保持在线,以及是否有缓冲区。这个缓冲区就是你的“加分项”。

在初步规划期间评估冗余需求有助于提高运营效率。

想要优化高密度工作负载的冷却系统? 请联系 Vertiv ,探索适合您数据中心的液体冷却策略。

选择您的本国语言