随着 IT 和设施基础设施在 AI 工作负载需求的推动下变得更加紧密地结合在一起,数据中心应该被视为下一个逻辑计算单元。
我们已经习惯于把一些直到最近才被称作日常用品的东西称为“计算机”。汽车就是最广为人知的例子。它们的代码比战斗机还多,在某些情况下,硅比钢铁还多,它们已经成为了“轮子上的计算机”。—有些甚至实现了自动驾驶。智能冰箱、智能手表、智能恒温器,甚至智能洗衣机也实现了同样的功能。
然而矛盾的是,我们并没有将同样的数字尊严延伸到承载计算的环境本身。尽管数据中心是专门为管理IT基础设施而建造的,但它们仍然常常沦为房地产。—设施团队将其视为“建筑物”,而 IT 团队则将其视为“计算”,几乎没有中间立场。
这已不再可持续。
数据中心作为 下一个 计算单元
这就是人工智能,尤其是加速计算成为转折点的地方。人工智能工作负载密度的不断增加—由具有数万亿参数的模型和每机架 100kW+ 的 GPU 集群驱动—迫使人们重新思考传统的抽象概念。
NVIDIA 首席执行官黄仁勋认为,数据中心本身现在就是计算单元。这是一个引人注目的演变:芯片 → 服务器 → 架子 → 排 → 房间 → 数据中心。每一层都是一个更加集成和优化的机器,而不是松散的零件组装。
451 Research 和其他机构更进一步,建议我们将数据中心视为一台机器—不是建筑物—下一个计算单元。机器拥有蓝图、公差规格和性能指标。它们经过精心设计、测量、调整,并且可重复。
大型云计算和法学硕士 (LLM) 提供商在人工智能培训方面的急剧扩张,已经开始改变这一趋势,并导致机架功率密度的提升,最终使得基于物理原理的液冷(IT 与热能紧密结合)更具说服力。电力输送和分配领域也在不断创新,以便与 IT 更紧密地结合。
Vertiv 一直在多个领域引领 IT/OT 融合,包括与 NVIDIA 等领先芯片制造商建立密切的技术合作伙伴关系。最近,在加州圣何塞举行的 NVIDIA GTC 大会上,我与分析公司 IDC 联合举办了一场会议, 并介绍了 Vertiv 对数据中心作为下一代计算单元这一概念的看法 。该理念的核心特征包括:
- 整个数据中心就像一块印刷电路板。它将电力、冷却和IT服务融为一体,可实现超过20%的能源效率、30%的空间效率,部署时间缩短一半,并节省25%的总拥有成本。
- 另一个关键点是,这种方法能够处理动态工作负载。这就像一个维修站,赛车快速进站,所有部件都同步进行,为更换的轮胎充气。充气过多会浪费,充气过少则会输掉比赛。对于 GPU 来说,预测功耗和散热情况也是一样的。
Vertiv 近期发布了 与 NVIDIA 联合开发的 NVIDIA GB200 NVL72 平台的完整 7MW 参考架构。该参考架构加速了 NVIDIA GB200 NVL72 液冷机架级平台的部署,并支持每个机架高达 132kW 的功率。Vertiv 继续与 NVIDIA 在下一代 AI 基础设施方面保持密切合作,包括即将在 NVIDIA 旗舰 GTC 2025 大会上推出的 GPU 平台。
除了数据中心应被视为计算单位的观点外,还有一种相关观点认为,针对人工智能优化的数据中心应归类为“人工智能工厂”,甚至将最大的超大规模数据中心也归类为“人工智能超级工厂”。有趣的是,这种观点也延续了数据中心作为建筑物的叙事——尽管它致力于大规模“制造”人工智能。
我们很荣幸能够深化与 NVIDIA 的合作,共同打造面向当今和未来的 AI 驱动型数据中心。作为关键电力和制冷基础设施领域的领导者,Vertiv 拥有得天独厚的优势,能够支持 NVIDIA GB200 NVL72 平台。
Giordano Albertazzi,Vertiv 首席执行官
“借助 Vertiv 世界一流的冷却和电源技术,NVIDIA 可以实现我们的愿景,即重塑计算并构建一个全新的 AI 工厂行业,生产数字智能,造福每个公司和行业。”
NVIDIA 首席执行官黄仁勋
资料来源: Vertiv 与 NVIDIA 共同开发 NVIDIA GB200 NVL72 平台的完整电源和冷却蓝图
NVIDIA 还与 Vertiv 等公司合作,通过先进的数字孪生技术 ——Omniverse Blueprint 推进 AI 工厂设计和仿真 ——以及 AI 代理的潜在用途来实现 AI 工厂的未来,甚至超越近十年前承诺的数据中心基础设施管理 (DCIM) 炒作。
融合是不可避免的
自动驾驶数据中心之路开始与自动驾驶汽车之路相似—虽然比预期要长,但进展顺利。计算正在成为基础设施。基础设施正在变得智能。数据中心正在从建筑演变为机器。
无论我们称之为建筑物、工厂还是计算机,最终都会变成语义。重要的是认识到它们已经变成了什么:智能互联的系统,旨在大规模提供人工智能。