Tech-Guide

如何升級資料中心,為AI時代做好完善準備?(下)叢集運算

by GIGABYTE
本篇《科技指南》的上半篇,著重於人工智慧(AI)時代的資料中心,如何透過先進冷卻技術提升企業競爭力,同時達到節能減碳目標。下半篇將探討叢集運算在AI資料中心扮演的角色。隨著AI應用的數據複雜度持續提升,AI伺服器不僅要發揮強大的算力,還要實現「一加一大於二」的綜效,才能承接高難度的運算工作。這就是叢集運算的核心概念。技嘉科技可以協助你將叢集運算導入你的AI資料中心。
就如此《科技指南》上半篇所介紹的資料中心先進冷卻技術,叢集運算並不是新的發明,但它同樣因為人工智慧(AI)的崛起而備受矚目。大型語言模型(LLM)生成式AI的人工智慧開發過程,仰賴「兆」級規模參數量的人工智慧訓練;使用者和AI模型互動時進行的人工智慧推論,也需要使用大量的運算資源。這些工作都不是單一一台電腦所能獨立完成的。

叢集運算的特點,就是將繁重的運算工作分配給多台互聯的伺服器、工作站,甚至是個人電腦,讓它們一起完成。這是「平行性」科技的一種應用,和平行運算網格運算相似。叢集運算的三大優勢,分別是高可用性負載平衡高效能運算(HPC),這些屬性對AI的開發與應用極為重要,因此AI盛世的指標性科技公司,都將叢集運算視作關鍵技術。

延伸閱讀:
了解叢集(Cluster)、叢集運算(Cluster Computing)與分散式運算

2024年萬眾注目的叢集運算產品,可說是輝達NVIDIA的機架級「百萬兆級運算」AI超級電腦:GB200 NVL72。這座叢集包含36顆NVIDIA Grace中央處理器及72 顆NVIDIA Blackwell圖形處理器,處理器間透過NVIDIA NVLink-C2C可擴充互連技術連接,實現高達900GB/s的連接頻寬,節點間則透過NVLink 交換器系統互聯,完成極低延遲的資料傳輸。另外還有個值得一提的新趨勢則是:輝達的Grace Blackwell和Grace Hopper超級晶片,以及超微AMD的Instinct™ MI300A加速處理器,皆是專為AI與HPC工作負載所設計的處理器產品,單一模組內含不同類型晶片,承擔不同性質的運算任務,藉此產出突破性的超級算力。

技嘉科技是AI伺服器的業界領袖,可根據客戶需求提供合適的叢集運算解決方案。一般而言,如果客戶的資料中心規模小,技嘉可為客戶挑選伺服器,擔當不同節點組成叢集,滿足生醫科技、半導體研究和雲端運算等領域的需求。如果客戶的資料中心規模龐大、運算需求高,則強力推薦使用技嘉推出的整合式人工智慧資料中心解决方案GIGAPOD,此產品由數十台伺服器組成,伺服器間透過互連技術串聯,形成統一單位的強大叢集,發揮極致運算效能。接下來,我們將介紹技嘉的叢集運算產品與成功案例,展現技嘉為客戶提供的多樣化服務。無論你的運算需求是什麼規模,技嘉都能找出最理想的產品組合,讓你走在AI浪潮的最前端。

了解更多:
歡迎瀏覽技嘉科技AI產品專屬網站
《為人工智慧開發所設計的技嘉科技AI伺服器產品
中小規模運算叢集:西班牙胡安卡洛斯國王大學、台灣陽明交大成功案例
技嘉可依照客戶的預算與工作需求,挑選合適的伺服器產品組成叢集。叢集的管理可使用客戶自己的軟體,亦可使用技嘉免費提供的伺服器管理平台(GMC)和伺服器管理軟體(GSM),促進多數伺服器的便利管理。西班牙胡安卡洛斯國王大學和台灣陽明交大的兩篇成功案例,證明技嘉是如何將叢集運算技術導入中小型企業或研究機構的IT架構。

● 成功案例 #1

技嘉攜手西班牙胡安卡洛斯國王大學,建立助力學術團隊投入細胞衰老研究的「塔羅斯」(Talos)運算叢集,讓學員運用AI演算法和機器學習分析醫療大數據,找出有價資訊,還能操作時空模擬與生成式模型,推動生物醫學工程發展。技嘉將全體師生需求歸納為三點:一、利用雙精度浮點處理器,透過「可解釋AI」達成運算結果;二、借力平行運算,加速研究成果的產生;三、算力和數據儲存應符合可擴充性條件,為難以預測的未來做好萬全準備。根據這三點要求,技嘉挑選八台伺服器,組成強大的叢集,不但獲得客戶好評,還助其抗老研究持續突破,造福全人類。
技嘉為西班牙胡安卡洛斯國王大學建造的「塔羅斯」運算叢集,叢集的硬體由八台技嘉伺服器組成,管理軟體也由技嘉免費提供。
叢集內八台伺服器,分別是扮演運算節點的兩台R182-Z91機架式伺服器;扮演加速節點的四台G492-ZD2 GPU協同運算伺服器;扮演儲存節點的S451-3R1儲存伺服器;還有一台R182-Z91,擔任「控制」節點,或稱「首」節點。R182-Z91和G492-ZD2提供雙插槽主機板設計,使CPU核心執行緒容量提升到最高。G492-ZD2搭配NVIDIA HGX™ A100 8-GPU運算模組,模組內包含八張互相串聯的A100圖形處理器,達成研究團隊預期的雙精度浮點運算和平行運算效果。S451-3R1提供36組3.5吋SAS/SATA硬碟與六組2.5吋NVMe/SATA/SAS硬碟,確保資料儲存的可擴充性。首節點R182-Z91透過 NVIDIA Quantum InfiniBand平台,增進叢集的資料串聯與整體效能,伺服器上也安裝技嘉免費提供的GMC和GSM管理軟體,並搭配無需支付軟體費用的開源系統,大幅降低叢集營運的總成本。

延伸閱讀:
《技嘉科技指南:如何挑選你的AI伺服器?(上)CPU和GPU

● 成功案例 #2

陽明交通大學(NYCU)的前瞻積體電路設計實驗室,為了助力台灣的半導體產業和人才培育,因此啟動資料中心的全面升級。陽明交大攜手技嘉使用六台H282-ZC1高密度伺服器和兩台R282-Z91機架式伺服器建立叢集,高密度伺服器執行運算,機架式伺服器則負責資料儲存。H282-ZC1伺服器內含四個節點,各節點支援兩顆CPU,代表一台H282-ZC1提供超過2,000顆核心,並透過PCIe高效訊號傳輸達成 128GB/s 的互聯頻寬。兩台R282-Z91提供500TB以上的儲存空間,並透過20GB/s 的鏈路聚合 (Link Aggregation)技術,有效提高節點間的溝通頻寬。為了減緩大量同時使用所造成的壅塞狀況,前瞻積體電路設計實驗室更在叢集上安裝了自主開發的伺服器流量管制系統。
技嘉為台灣陽明交大打造的運算叢集,最高峰可容納超過500人同時使用,過去可能需要花一小時進行的IC設計測試,現在只需要五到十分鐘就可完成。
技嘉打造的運算叢集,最高峰可容納超過500人同時使用,過去可能需要花一小時進行的IC設計測試,現在只需五到十分鐘就可完成。實驗室預計在下個階段導入 AI,設計積體電路領域的大型語言模型,甚至專精晶片領域的語言模型。這一切的實現,起源就是來自技嘉打造的高效能運算叢集。

更多技嘉叢集運算成功案例:
技嘉助攻成功大學建立叢集,勇奪亞太HPC-AI電腦競賽冠軍
暴風解碼!技嘉運算叢集協助日本早稻田大學研究氣候變遷
大規模整合式人工智慧資料中心解决方案:GIGAPOD
技嘉基於長年為客戶設計運算叢集的寶貴經驗,2023年推出整合式人工智慧資料中心解决方案GIGAPOD,這款產品是開創性的 AI 超級運算基礎設施,能簡化 AI運算叢集的建置工作。由多達九座伺服器機櫃,總共32座運算節點組成的GIGAPOD,提供數以百計的高效能晶片,透過連接技術彼此串聯,發揮超級電腦等級的運算力。多數的GIGAPOD亦可彼此聯繫形成叢集,滿足未來AI資料中心的算力需求。
2024年台北國際電腦展COMPUTEX,技嘉GIGAPOD成為全場重心,由九座機櫃組成的GIGAPOD內含32台GPU協同運算伺服器,數以百計的先進GPU透過連接技術串聯,整座GIGAPOD就如一座龐大的加速器,能有效處理困難的AI運算。
GIGAPOD的核心配置,是32台型號相同的GPU協同運算伺服器,每台伺服器搭載容納八張GPU的運算模組,等於整座GIGAPOD配有256張GPU。標準設定是四台伺服器裝一座機櫃,因此32台伺服器裝滿八座機櫃;但由於技嘉持有領先業界的伺服器散熱技術,5U規格(即五個機架單位)的氣冷式伺服器,例如技嘉G593-SD1-AAX3,即可搭載8-GPU運算模組發揮出最大算力與穩定性,而且32台伺服器只要四座機櫃就足夠容納,不儘可實現超高的運算密度,還能促使資料中心的空間運用最佳化。除了搭載GPU協同運算伺服器的四座或八座機櫃,額外還有一座機櫃擔任控制和儲存節點,這座機櫃放置在GIGAPOD正中央,形成業界俗稱的「主幹枝葉式」(spine-leaf)架構。

回顧前述的運算叢集成功案例,可見GIGAPOD是經優化設計的叢集,「主幹」機櫃是控制與儲存節點,兩側的「枝葉」機櫃,則是負責計算的運算節點。機櫃上端的交換器,負責串聯伺服器之間的數據傳輸(所謂的「東西向」流量),同時也促使叢集與外界連線(所謂的「南北向」流量)。32台GPU協同運算伺服器使用相同型號,是為了確保伺服器的無縫串聯,實現「一加一大於二」的綜效,一座GIGAPOD有如一台巨大的伺服器,可發揮突破性的超級運算效能。
除了超強算力,GIGAPOD還提供三項「加值服務」:彈性客製化的處理器與節點配置,促進算力與穩定性再升級的液體冷卻解決方案,以及用來實現叢集管理、優化AI開發工作的軟體配套。
技嘉致力於運用創新科技來美化人生,創造卓越的使用者體驗,GIGAPOD不僅提供超級電腦等級的算力,還端出三項「加值服務」,讓使用GIGAPOD開發AI的用戶能甩開對手,在競爭白熱化的大環境中,成為屹立不搖的人工智慧常勝軍。

● 彈性客製化的處理器與節點配置

GIGAPOD運算節點、控制節點與儲存節點使用的伺服器產品,可從技嘉AI伺服器產品線當中挑選,就連伺服器內部的晶片,也提供客製化的彈性選擇。例如扛起艱困運算工作的GPU協同運算伺服器,可搭配NVIDIA HGX™ H100/H200/B100/B200運算模組,享受輝達的人工智慧軟體生態系和極速GPU通訊互連技術;亦可挑選AMD Instinct™ MI300X模組,受惠於龐大且快速的AMD Infinity Fabric™記憶體傳輸技術。Intel® Gaudi® 加速器特別擅長進行大量的AI推論,也是極具競爭力的選項。運算產品之外,技嘉也和網路通訊、儲存、管理、機電與配電裝置的專業廠商密切合作,GIGAPOD產品有許多不同的配置方法,從可擴展的零組件到最優化的節點設計,保證客戶能找到符合需求、可靠且輕鬆管理的理想選擇,滿足各種算力需求。

● 促進算力與穩定性再升級的液體冷卻解決方案

前文提到,技嘉持有領先業界的伺服器冷卻技術,因此8-GPU運算模組能安裝在僅有5U規格的氣冷式伺服器當中,32台氣冷式GPU協同運算伺服器可容納於四座48U的伺服器機櫃,這般高密度的伺服器配置,業界沒有第二家能做到。技嘉亦提供直接液體冷卻(DLC)先進冷卻技術,促使晶片的算力與穩定性再升級。並且攜手認證夥伴提供全面且一條龍的DLC解決方案,包括伺服器內的被動式水冷循環板,防止冷卻液洩漏造成損害的液冷防護感測板,還有機架上的分歧管和冷卻液分配裝置(CDU),皆可結合GIGAPOD一併部署。GIGAPOD亦可搭配背板熱交換器(RDHx)使用,進一步改善溫控裝置的能源使用效率。

了解更多:
你的伺服器還能更冷!前往技嘉科技先進冷卻方案專屬網站
立即體驗技嘉直接液體冷卻解決方案

● 實現叢集管理、優化AI開發工作的軟體配套

技嘉攜手集團旗下的轉投資事業邁爾凌科技(MyelinTek Inc.),推出針對GIGAPOD叢集運算資源的管理平台GPM,提供資料中心優化服務,透過軟體平台監控硬體效能,充分發揮硬體使用率,輕鬆管理GIGAPOD運作時的工作負載,並能一鍵啟動軟體與韌體更新。視覺化的使用者介面有助於一覽GIGAPOD每台伺服器的狀況,確保裝置穩定運行。邁爾凌還提供用於機器學習作業(MLOps)「深度學習訓練解決方案」,結合先進軟硬體技術,協助管理資料庫及加速AI開發,運用在GIGAPOD上可以實現GPU分割共享、硬體配置定義等附加功能。

看完技嘉介紹叢集運算的科技指南,無論你的運算需求是使用個別伺服器和工作站組成叢集,或是你想嘗試使用資料中心等級的解決方案GIGAPOD,技嘉擁有豐富的產品選擇和產業經驗,能協助你將叢集運算導入你的資料中心。人工智慧浪潮帶來許多創新性的科技應用,對伺服器和資料中心的發展將有深遠的影響,懂得利用這些新工具不但能提升你的生產力,更能確保組織掌握致勝的競爭利器。

如果對於你的資料中心能如何運用叢集運算技術有任何疑問,技嘉將提供最適宜的諮詢服務,歡迎透過marketing@gigacomputing.com電子信箱聯絡技嘉科技專業人員,我們將協助你挑選適合的解決方案。

延伸閱讀:
液冷伺服器還有進階版?體驗技嘉單相浸沒式冷卻運算方案
《「Power of AI」系列文章:如何將人工智慧導入醫療保健業?
想要掌握最新科技動向?馬上訂閱!
訂閱電子報
想要掌握最新科技動向?馬上訂閱!
訂閱電子報