Success-Case

技嘉伺服器扮演強力後盾!2024 ISC歐洲超級電腦大賽清華學生團隊獲亞軍肯定

by TechNews
由國立清華大學(NTHU)周志遠教授帶領的學生團隊在 ISC 2024 學生叢集競賽中獲得亞軍。他們透過 GIGABYTE 伺服器和高效能運算 (HPC) 技術解決了多項科學難題,並利用進階 GPU 解決方案及即時性能監控工具,在功耗限制內達到優異成績。本次合作展現了台灣在 HPC 領域的全球競爭力,同時激發未來 HPC 人才的成長潛力。
清華周志遠教授(左四)與學生團隊(左至右分別為郭品毅、林展毅、魏士勛、翁君牧、牟展佑、俞昊天與白宸安)奪得2024 ISC歐洲超級電腦大賽亞軍(Source:科技新報)
高效能運算(High Performance Computing,HPC)向來是解決複雜科學問題的重要方法,也帶動各界長期投入相關技術研究。為鼓勵學生對超級計算領域進行深入學習,歐洲ISC、美國SCC、亞洲ASC等三大超級電腦大賽,每年都吸引眾多學生團隊與會,彼此之間的競爭非常激烈。在 2024 ISC歐洲超級電腦大賽中,清華大學周志遠教授帶領的學生團隊,以技嘉伺服器打造一套超級電腦系統,最終獲得亞軍肯定。

清華大學資工系教授周志遠說,長期以來,我們一直希望讓學生透過參加比賽方式,接觸不同領域的高效能運算、AI等題目挑戰,進而提升學習的廣度,而非僅限於書本中學習,達到培育高速運算人才的目的。本次競賽團隊不僅由資工系的學生所組成,更有來自理學院、工學院及藝術學院跨領域專長的學生,能從更多元角度解析問題與解決,也成為我們獲獎的關鍵。我們很感謝技嘉與技鋼科技提供2024 ISC歐洲超級電腦大賽所需的超級電腦設備與經費贊助,讓與會學生能在世界舞臺上與其他國家團隊較勁,展現臺灣在高速運算領域的軟硬體實力。

深入了解實際需求,助學生規劃超級電腦架構
周志遠教授的研究領域涵蓋分散式系統、雲端計算、系統資源管理、高效計算與儲存系統,鑑於全球對高效能運算非常重視,在開設分散式系統設計、基礎高效能計算叢集電腦實務、進階高效能計算叢集電腦實務等課程之外,也帶領清華大學的大型分散式系統架構實驗室,期盼從多元角度出發培育跨領域的HPC人才。

周志遠指出,早期高效能運算著重在架構設計、資源調配,乃至於AI模型訓練。近年由於AI發展快速、大語言模型參數量愈來愈大,早已超過一般研究單位的負荷能力,現階段則著重在AI模型推論等部分。國際間的超級電腦競賽方向與規範大致相同,2024 ISC歐洲超級電腦大賽重點在於限制比賽電腦的用電量,最高不能超過6000W,團隊必須根據比賽題目找出CPU、GPU之間的最佳組合。

2024 ISC歐洲超級電腦大賽題目涵蓋分子電場模擬、流體力學、氣象模型等,在為期3天賽程中,競賽團隊需使用自己配置的超級電腦系統完成數個科學應用程式運算。技鋼科技工程師團隊與學生團隊進行討論之後,最終根據需求提供技嘉 R183-S90 機架式伺服器,以及預先安裝10張NVIDIA H100 Tensor Core GPU的技嘉G493-SB1偕同運算伺服器;與CPU與GPU效能最直接相關的記憶體與硬碟部分,技嘉採用Micron的DDR5 RDIMM 4800MT/s 與7450 PRO 系列NVMe固態硬碟;在跨截點溝通的上,選擇了Broadcom的P1200G作為指定高速網路卡;網路交換器則採用Ufispace的S9300-32D 32x400G資料中心交換器。

G493-SB1 伺服器的顯著特色在於其可支援多達10張GPU卡,其中8張GPU卡可通過NVIDIA NVLINK™ 技術分成四組進行溝通,資料傳輸速度顯著高於傳統PCIe。相比其他比賽隊伍僅依賴PCIe介面,這項技術優勢對提升競賽表現產生正面作用。此外,技鋼科技提供的全面技術支援,尤其是在賽前準備階段,充分滿足了隊伍的需求,成為此次比賽中取得優異成績的關鍵因素之一。

在本次比賽擔任學生教練的牟展佑認為,當GPU運算能力集中在在單一節點時,可減少資料交換的時間,縮短應用程式的計算時間,在HPL Benchmark項目的成績很不錯技嘉伺服器解決方案非常多元,針對比賽題目能預先因應比賽中各種突發事件與挑戰做好準備。

本次比賽的流體力學模擬題中,團隊借助NVIDIA NVLINK™ 技術和10張NVIDIA H100 Tensor Core GPU,運算速度顯著提升。正式比賽的最終結果與先前模擬一致,對提升比賽成績有顯著幫助。

美光亞太區銷售總監曾偉樑表示:「我們很高興美光的 DDR5 RDIMM 和 7450 PRO NVMe SSD 在 2024 ISC 歐洲超級電腦大會的學生叢集運算競賽中,為清華大學團隊發揮關鍵作用。透過與技嘉合作,運用我們的高效能解決方案,幫助各隊伍最大化超級運算系統的潛力,解決複雜科學計算問題。這次合作展現了我們在教育領域推動高效能運算技術創新的決心與實踐。」

博通資料中心解決方案部門副總裁兼總經理 Jas Tremblay 表示:「很榮幸我們的乙太高速網卡參與了2024年 ISC 歐洲超級電腦大賽,並恭賀清華大學和技嘉取得卓越成就。我們將持續致力於開放生態系統的發展,為人工智慧資料中心與基礎設施提供高效能、低功耗的解決方案。」 

技鋼科技業務副總經理王俊民表示:「我們非常自豪能與清華大學合作,助力他們在2024年ISC歐洲超級電腦大賽中取得亞軍的卓越成就。這不僅展現了技鋼科技在高效能運算解決方案上的實力,更展現了技嘉伺服器能與各組件的無縫協作,充分發揮整體效能,推動AI與超算技術進步的承諾。」


▲ 周志遠教授帶領清華大學的大型分散式系統架構實驗室培育跨領域的HPC人才。(Source:科技新報)
技嘉伺服器內建管理工具,助學生即時掌握設備運作狀況
因應2024 ISC歐洲超級電腦大賽的題目範疇,清大分別使用3台技嘉 R183-S90 機架式伺服器,以及預先安裝10張NVIDIA H100 Tensor Core GPU的技嘉G493-SB1伺服器。其中,技嘉G493-SB1 是款專為 AI、深度學習及高效能運算設計的高效能 GPU 協同運算伺服器,支援兩顆 第五代Intel® Xeon® 可擴充處理器,最多可安裝10張雙插槽GPU卡,能提供絕佳的AI運算能力。具備32道記憶體插槽,每通道兩個記憶體插槽,也就是所謂的2DPC,並可容納12個2.5吋/3.5吋的Gen5 NVMe/SATA/SAS-4硬碟。這款產品採用先進的散熱和電源解決方案,可確保伺服器運算過程中的穩定性,能夠滿足資料分析、科學模擬等複雜運算需求。

至於技嘉R183-S90伺服器則專為資料中心及企業應用設計,支援第五代 Intel® Xeon®可擴充處理器,同樣內建多達32個2DPC的記憶體插槽,在記憶體容量和速度表現十分搶眼,適用於各種運算工作,如資料分析、雲端運算及虛擬化等應用。前述兩款伺服器均內建功能完善的管理工具,讓管理人員可即時監控伺服器的運作狀態。

技嘉伺服器管理工具支援標準IPMI通訊介面,清大團隊自行撰寫工具與其串連後,即能掌握CPU、GPU的溫度與運作狀況。由於2024 ISC歐洲超級電腦大賽規定整體耗電量不能超過6000W,團隊更進一步控制散熱風扇轉速,進而達到CPU、GPU晶片溫度與電力耗費的平衡,同時成為團隊能取得好成績的重要關鍵之一。

HPC過程無法進行硬體調整,應對突發狀況成為一大挑戰。比賽最後一天,某應用程式無法執行,團隊迅速分析發現外購件故障導致CPU效能受限,透過修改運算流程,成功解決問題。此外,團隊在測試軟體版本時,意外發現Intel版本的效能超越了原先預期的GCC版本,進一步提升了運算速度。這些寶貴經驗不僅強化了團隊的應變能力,也為未來教學提供了實際範例。

最後,能與世界首屈一指的對手交流也是競賽中的一大收穫。透過與其他隊伍的互動與知識交換,參賽者能突破自身思維限制,優化系統參數,進一步提升HPC領域的技術與能力。

▲ 周志遠教授帶領學生團隊使用技嘉伺服器參與2024 ISC歐洲超級電腦大賽。(Source:科技新報)
助清華大學打造HPC實驗室,對全球展現臺灣技術能量
在2024 ISC歐洲超級電腦大賽中全力支援清華大學學生團隊的技嘉與技鋼科技,讓全球看到臺灣在高效能運算的軟硬體實力,預計將與周志遠老師攜手合作,建立高效能運算實驗室。技嘉與技鋼科技將進一步提供與真實比賽環境相仿的各種設備,如伺服器、交換器等等,滿足團隊的平時練習需求,以便能在比賽時能獲得更好的成績。

周志遠指出,技嘉伺服器因其卓越品質,已成為全球各地實驗室的首選,並在國際競賽中展示了臺灣的技術實力。周志遠更強調,這不僅能讓更多學子參與高效能運算的研究,也將培育出具備跨產業應用能力的人才。清華大學碩士生郭品毅指出,長期參與高效能運算的研究讓他對GPU資源共享和跨品牌整合產生濃厚興趣,並期望未來的研究能在此領域取得更佳成果,為技術發展帶來新突破。

想要掌握最新科技動向?馬上訂閱!
訂閱電子報
想要掌握最新科技動向?馬上訂閱!
訂閱電子報