Tech-Guide

如何升級資料中心,為AI時代做好完善準備?(上)先進冷卻

by GIGABYTE
人工智慧(AI)普及促使全球資料中心加快導入創新科技,最具代表性的兩項技術分別是先進冷卻和叢集運算。高效能AI晶片的熱設計功耗(TDP)日益增高,資料中心必須升級或改造其基礎設施,採用節能且具成本效益的冷卻方案,才能保持競爭力。技嘉科技最新發表的《科技指南》,將介紹業界主流的三種伺服器冷卻選項,協助你評估是否適合導入你的資料中心,為AI時代做好萬全的準備。
熟悉資料中心發展脈絡的業界人士都知道,目前席捲全球的人工智慧(AI)浪潮並非改變資料中心的發展方向,而是讓資訊科技(IT)業加速面臨預期中的挑戰,也就是隨著伺服器技術進步,處理器必將用更多電力換取更多算力,功耗提升所排放的廢熱也會增加,因此用空調來幫伺服器降溫,遲早會有力所不及的一天。AI普及使企業廣泛採用熱設計功耗(TDP)超高的先進中央處理器(CPU)圖形處理器(GPU),也導致氣冷技術更快遇上瓶頸。

目前市面上尖端AI晶片產生的廢熱,已瀕臨氣冷的解熱極限,一般氣冷式伺服器機架的平均功率密度低於20千瓦(kW),而輝達NVIDIA一顆H100加速器的TDP就高達700瓦,次世代AI加速器(如NVIDIA B100、B200)TDP預計達千瓦。如果用技嘉科技的G593-ZD1人工智慧伺服器當作範例,5U伺服器可容納八張GPU,而一座機櫃提供42U到48U的空間,也就是說不用把伺服器裝滿,氣冷方案已經不符合經濟效益。也難怪NVIDIA在2024年發表的「百萬兆級電腦」GB200 NVL72,指定採用液體冷卻

了解更多:
你的伺服器還能更冷!前往技嘉科技先進冷卻方案專屬網站
歡迎瀏覽技嘉科技AI產品專屬網站
《為人工智慧開發所設計的技嘉科技AI伺服器產品

如果AI浪潮是促進資料中心導入先進冷卻方案的「推力」,那「拉力」就是採用這些技術可帶來的優勢,歸納為「效能」、「永續」和「成本效益」這三個面向。

● 效能
先進AI晶片如果一直過熱,將無法釋放出最大的算力。透過高效率的解熱方案,不僅可讓處理器發揮百分之百的潛能,更能確保伺服器穩定運作。
  
● 永續
光用空調幫伺服器降溫不是長期的解決方法,因為空調耗能將衝擊資料中心的電力使用效率(PUE),同時增加碳足跡。導入先進的冷卻技術,用更少電力解除更多熱,可提升企業競爭力並減少碳排,進而邁向CSR、ESG的永續目標。

● 成本效益
導入新的冷卻技術可能會產生一筆可觀的開銷,但長期下來省下的電費有助於降低營業費用(OpEx),而資料中心的穩定運作將減少停機時間和維修費用,有效降低設備的總體擁有成本(TCO),這對企業的競爭力只會加分,不會扣分。

基於以上這三項優勢,我們可推測先進冷卻技術將持續被全球的資料中心和伺服器機房積極採用,即使現階段的AI浪潮出現變數,也不受影響。接下來,我們將介紹三種主流的伺服器冷卻方案:液體冷卻、浸沒式冷卻和進階氣冷,同時我們也將介紹技嘉推出的產品,你可以考慮導入你的IT架構,讓企業競爭力再晉級。
直接液體冷卻(DLC),又稱直達晶片(D2C)液冷
液體冷卻的概念,就是透過密封管線(或稱封閉式冷卻迴路)將冷卻液引導到伺服器內部的關鍵零組件,冷卻液隔著「液冷板」(cold plate)吸收熱能,再沿著管線流出伺服器,排放廢熱。如前面所說,GB200 NVL72這樣的AI超級電腦普及,使液體冷卻變成目前最熱烈討論的散熱技術,而隨著雲端服務供應商(CSP)等大型資料中心開始導入液冷設備,我們可望看見液冷方案變成資料中心的基本配備。
為資料中心導入液冷技術,可能沒有想像中那麼困難。首先,你可以評估採用「入門級」的「液對氣」方案,此方案中冷卻液從伺服器元件吸收熱能之後,透過冷卻液分配裝置(CDU)降溫,把廢熱排放到空氣中,因此你可以沿用現有的資料中心空調設備,快速導入液體冷卻。「液對液」方案的解熱功力較強大,但因為冷卻液把熱能排放到設施的冷卻管路當中,因此資料中心需要有固定的冷卻水來源,例如外部的製冷設備。無論你採用哪種方案,皆可在機櫃後方追加背板熱交換器(rear door heat exchanger,RDHx),進一步提升散熱效益。

用液體幫IT設備降溫,必須講究安全和可靠性,技嘉攜手認證夥伴提供全面且一條龍的DLC解決方案,包括伺服器內的被動式水冷循環板,由業界龍頭史陶比爾Stäubli提供的接頭,協助防止冷卻液洩漏造成損害的液冷防護感測板,及機架上的分歧管和CDU產品。技嘉更是推出完整的液冷伺服器產品線,以及可快速部署的DLC機櫃,例如22U的DL90-ST0

AI盛世最具代表性的是發揮叢集運算的技嘉GIGAPOD,此產品解決方案結合客戶指定採用的AI晶片,和氣冷或液冷的散熱方案,將所有機櫃互相連接形成強大的GPU運算叢集,實現模組化且具擴充彈性的平行運算,藉此扛起更加繁重的運算工作。

浸沒式冷卻:單相或兩相,找技嘉準沒錯
如果你想提前做好準備,超前部署尖端散熱科技,那除了液冷之外還可考慮浸沒式冷卻。浸沒式冷卻的原理,是將伺服器浸泡在不導電的冷卻液當中,熱能透過CDU對外排放(此稱為單相浸沒式冷卻),或是透過液體的自然相變,液體汽化之後再凝固恢復液態,藉此維持運作溫度(此稱為兩相浸沒式冷卻)。浸沒式冷卻擁有無與倫比的PUE,目前最低可達1.02,意謂只需要伺服器整體耗電的2%電力,就能有效幫伺服器散熱。導入浸沒式冷卻有一定的門檻,包括資料中心的基礎建設和安全驗證,可能都需要為浸沒式冷卻特別準備。
如果浸沒式冷卻在你的IT規劃當中,這裡有兩個理由讓你選擇技嘉作為合作夥伴。第一,技嘉提供完整的產品線,包含適用於浸沒式冷卻的伺服器、兩相及單相的液冷槽,還可細分為EIA或OCP規格的產品。技嘉攜手信賴夥伴,提供維護吊車和伺服器瀝架等專屬配件,還有穩定、安全的冷卻液產品,讓你無憂部署你的浸沒式冷卻解決方案。

第二,就是技嘉已經擁有幫不同產業的龍頭企業架設專屬冷卻方案的豐富經驗。舉例來說,日本電信龍頭KDDI選擇和技嘉開發採用單相浸沒式冷卻的「貨櫃型浸沒式液冷小型資料中心」;來自台灣的全球晶圓代工龍頭則攜手技嘉建造採用兩相浸沒式冷卻的「節能HPC資料中心」。這些成功案例,不但證明前瞻企業都看見了浸沒式冷卻在運算效能、節能減碳和成本效益各方面的優勢,也證實技嘉持有部署浸沒式冷卻的「實戰經驗」,準備好服務不同專業領域的客戶。

了解更多:
前往技嘉浸沒式冷卻專屬網站
一覽技嘉OCP規格伺服器產品
進階氣冷:技嘉獨門技術追加RDHx達到氣冷最高境界
AI時代來臨,我們相信資料中心導入液冷或浸沒式冷卻是必然的趨勢。然而,我們了解採用新技術的困難性,氣冷式伺服器近期可能還是無法取代。因此,技嘉持續改善氣冷技術的散熱功效,提供客戶最頂級的運算力和最具競爭力的成本效益。
技嘉氣冷式伺服器採用獨家設計,透過模擬軟體預測和評估機台內的氣流方向,然後根據所蒐集的資料,仔細微調機台架構,優化冷卻效益。伺服器內安裝強力風扇和高效能散熱片,並且在散熱片上安裝特殊的導風罩,以加強通風。機台內還有安裝感應器,可隨時監控關鍵零組件的溫度。如果智慧型溫控程式偵測到異常高溫,將自動調整風扇速度,確保在溫控和功耗之間達到最佳平衡。上述的背板熱交換器(RDHx),亦可安裝在氣冷式伺服器機櫃的背側,提升解熱效能與PUE。

看完本篇科技指南,希望你對於如何升級資料中心的冷卻方案,以迎接AI時代的到來,有更深入的了解。如果對於你的資料中心能如何導入先進冷卻技術有任何疑問,技嘉將提供最適宜的諮詢服務,歡迎透過marketing@gigacomputing.com電子信箱聯絡技嘉科技專業人員,我們將協助你挑選適合的解決方案。

延伸閱讀:
《科技指南:如何挑選您的AI伺服器?(上)CPU和GPU
《「Power of AI」系列文章:如何將人工智慧導入汽車和運輸產業?
想要掌握最新科技動向?馬上訂閱!
訂閱電子報
想要掌握最新科技動向?馬上訂閱!
訂閱電子報