人工智慧 (AI) 就在這裡,而且隨時都在。NVIDIA 創辦人暨執行長黃仁勳表示:“每個產業都將成為科技產業。” 人工智慧的使用案例幾乎是無限的,從醫學上的突破到高精度的詐騙預防。人工智慧已經在改變我們的生活,正如它正在改變每個產業一樣。也開始從根本上改變資料中心基礎架構。
人工智慧工作負載正在推動我們對高效能運算 (HPC) 所處理資料的強大功能和冷卻方式的重大改變。用於執行 5-10 千瓦 (kW) 工作負載的典型 IT 機架,以及負載超過 20 千瓦 的機架被視為高密度 – 在非常特定且範圍狹窄的應用程式之外,罕見的可見度。使用 GPU 加速 IT 以支援人工智慧模型的運算需求,而這些人工智慧晶片在與傳統伺服器相同的空間中,可能需要約五倍的功率和五 倍 的冷卻容量1。Mark Zuckerberg 宣布,到 2024 年底,Meta 將花費數十億的資金部署 NVIDIA 的 350,000 個 H100 GPU。每機櫃的機櫃密度為 40 kW ,現在位於促進人工智慧部署所需的最下方,機櫃密度超過每機櫃 100 kW,在不久的將來變得普遍且大規模。
這將需要在整個電力列車中,從電網到每個機架中的晶片,增加大量容量。將液體冷卻技術引入資料中心的空白空間,最終是企業伺服器機房,將是大多數部署的必要條件,因為傳統冷卻方法將無法處理執行人工智慧計算的 GPU 所產生的熱量。升級所需基礎架構以強化和冷卻人工智慧硬體的投資相當龐大,而且要應對這些新的設計挑戰至關重要。
轉為高密度
轉換為加速運算將不會一夜之間發生。資料中心和伺服器機房設計人員必須尋找方法,使電力和製冷基礎設施面向未來,並考慮其工作負載的未來增長。需要從電網升級到機架,才能為每個機架提供足夠的電力。特別是在白色空間中,這可能意味著高安培數匯流排和高密度機架 PDU。為了拒絕執行 AI 工作負載的硬體所產生的大量熱量,兩種液體冷卻技術逐漸成為主要選項:
- 直接晶片液體冷卻: 冷板位於發熱元件上方(通常為 CPU 和 GPU 等晶片),以散熱。泵送的單相或雙相流體從冷板中汲取熱量,將其送出資料中心,交換熱能,但不與晶片一起交換液體。這樣可以去除機架中設備產生的約 70-75% 的熱量,因此 25-30% 的氣冷系統必須移除。
- 後車門熱交換器: 被動或主動熱交換器以熱交換線圈取代 IT 機架的後門,液體透過該線圈吸收機架中產生的熱能。這些系統通常與其他冷卻系統結合,作為保持室內中和的策略,或從液體冷卻開始的過渡性設計。
雖然直接晶片液體冷卻提供比空氣顯著更高的密度冷卻容量,但重要的是要注意,仍然存在冷卻板無法捕獲的過熱。除非透過後門熱交換器或室內空氣冷卻等其他方式容納並移除,否則此熱量將排入資料室。如需資料中心液體冷卻解決方案的詳細資訊,請參閱我們的白皮書。
適用於改造和新建築的人工智慧入門套件
電力和冷卻正在成為資料室中 IT 解決方案設計不可或缺的一部分,使 IT 和設施團隊之間的邊界變得模糊。這增加了設計、部署和操作方面的高度複雜性。合作夥伴關係和完整解決方案的專業知識被評為平穩過渡到較高密度的首要要求。
為了簡化高密度的轉換,Vertiv 推出了一系列優化設計,包括電源和製冷技術,能夠在各種部署配置中支援每個機架高達 100 kW 的工作負載。
| 設計摘要 | 架子 | 密度/裂縫 | 綠色/棕色欄位 | 熱移除 | |
|---|---|---|---|---|---|
| 從伺服器 | 從房間 | ||||
|
訓練模型試行、大規模邊緣推論 |
|||||
| 小型 HPC 最小改裝 | 1 | 70 千瓦 | 棕色場域 | 水/乙二醇 | 空氣 |
| 冷水系統小型 HPC 改裝 | 1 | 100 千瓦 | 棕色場域 | 水/乙二醇 | 水/乙二醇 |
|
企業集中式訓練,資料中心的人工智慧角落 |
|||||
| 中型 HPC 成本最佳化改裝 | 3 | 100 千瓦 | 棕色場域 | 水/乙二醇 | 冷媒 |
| 中型 HPC 具備更高的熱捕捉功能 | 4 | 100 千瓦 | 棕色場域 綠色欄位 |
水/乙二醇+空氣 | 水/乙二醇 |
| 空氣冷卻電腦機房的中型 HPC 實用改裝 | 5 | 40 千瓦 | 棕色場域 綠色欄位 |
空氣 | 冷媒 |
| 中型高效能運算 | 5 | 100 千瓦 | 棕色場域 綠色欄位 |
水/乙二醇 | 水/乙二醇 |
|
大型人工智慧工廠 |
|||||
| 大型 HPC 保存室中和 | 12 | 100 千瓦 | 棕色場域 綠色欄位 |
水/乙二醇+空氣 | 水/乙二醇 |
| 面向規模的大型 HPC 建築 | 14 | 100 千瓦 | 棕色場域 綠色欄位 |
水/乙二醇 | 水/乙二醇 |
這些設計為系統整合商、主機代管供應商、雲端服務供應商或企業使用者提供多個路徑,以實現未來的資料中心。每個特定設施可能有由 IT 設備選擇決定的機櫃計數和機櫃密度的細微差別。因此,此設計系列提供了一種直觀的方法,可以明確地縮小到基本設計,並完全按照部署需求定制。
在改裝或重新利用現有人工智慧環境時,我們的最佳化設計利用可用的冷卻基礎設施和散熱功能,盡可能減少對現有工作負載的干擾。例如,我們可以整合直接晶片液體冷卻與後門熱交換器,以維持室內中和冷卻解決方案。在此情況下,後門熱交換器可防止多餘的熱氣逸入室內。對於希望在不修改現場本身的情況下添加液體冷卻設備的氣冷設施,我們提供了液對氣設計選項。相同的策略可以部署在單一機架、連續或大規模的 HPC 部署中。對於多機架設計,我們還配備了高安培數匯流排和高密度機架 PDU,以將電源分配到每個機架。
這些選項與一系列不同的熱排斥選項相容,可與液體冷卻配對。這樣可以建立清潔且符合成本效益的轉換路徑,在不中斷資料室中其他工作負載的情況下實現高密度液體冷卻。查看我們的 AI 資料室解決方案,瞭解更多資訊。
雖然許多設施並非針對高密度系統而設計,但 Vertiv 在協助客戶開發部署計畫方面擁有豐富的經驗,以便順利過渡到 AI 和 HPC 的高密度。
1 管理估計:根據製造商規格表,比較標準 42U 機架中 5 個 Nvidia DGX H100 伺服器和 21 個 Dell PowerStore 500T 和 9200T 伺服器在機架層級的功耗和熱輸出