Success-Case

技嘉伺服器算力爆發 助西班牙胡安卡洛斯國王大學抗老研究

by GIGABYTE
想高效且精準地處理龐大的數據,需要強大的平行運算能力。胡安卡洛斯國王大學的研究人員Sergio Muñoz、Luis Bote與SIE和技嘉合作,創建了一個由GPU、儲存、運算和首節點組成的叢集系統。
Sergio Muñoz 正進行在Talos叢集上進行的研究。
對抗衰老的塔羅斯巨人
在2023年初,西班牙胡安卡洛斯國王大學(University of Rey Juan Carlos)完成了「塔羅斯」(Talos)伺服器叢集的安裝。該研究計畫由Sergio Muñoz和Luis Bote所主導,其名稱則取自希臘神話中的第一個非有機人工智慧體 ──塔羅斯(Talos),為團隊的細胞衰老研究提供了顯著的幫助。

了解更多:
《詞彙學習:讓電腦更強大的運算叢集是什麼?
《詞彙學習:處理器怎麼溝通?認識異質運算
Sergio Muñoz 博士與 SIE 的 Raúl Díaz
專業的研究與機構團隊
Sergio Muñoz擁有機器學習博士學位,也是胡安卡洛斯國王大學的生物醫學工程教授,與BigMed+的教授和研究人員合作,設計人工智慧和機器學習演算法。胡安卡洛斯國王大學(URJC)是一所以研究聞名的大學,1996年成立至今總數有46,000名學生,設有五個校區,涵蓋健康科學、實驗科學、工程建築、藝術人文以及法律和社會科學領域,是充滿了活力的學術環境。

演算法對於提供解決方案以及理解潛在數據至關重要,人類雖然在某特定感知任務中可以有出色表現,但洞察巨量數據中隱藏資訊的能力卻很弱。透過人工智慧和機器學習處理大量資訊並探尋隱藏的資訊,能讓演算法為研究提供更有效的解答。也因此在他們的研究中,不具備問題解釋能力的黑箱模型是不受歡迎的。

生物醫學工程在整個研究中非常重要且佔核心地位,研究小組更專精於時空模擬的設計。因此,除了要進行伺服器水平擴充以克服儲存容量和原有基礎設施的限制,為了有效執行演算法,使用的GPU在雙精度浮點數計算中也必須有良好的表現。而由於在研究小組自行開發的可解釋人工智慧演算法中有深度學習技術及生成式模型的大量應用,使用搭載NVIDIA Ampere架構且使用尖端技術的NVIDIA A100 Tensor核心GPU成為了最佳選擇。

研究小組需求:
• 大量的CPU核心以有效處理平行運算及機器學習模型的應用。
• 雙精度浮點GPU和最新一代的可解釋人工智慧與模擬技術。
• 足夠的儲存空間供全球相關生物醫學研究人員使用。

研究目標:細胞衰老與重編程
該研究旨在理解細胞和分子層面上的自然老化過程,從年輕到年老並透過細胞重編程再反向進行。研究範圍涵蓋各個領域,包括心臟病學和遺傳性心臟疾病的研究。Sergio Muñoz與莫夕亞大學(University of Murcia)和聖母阿里哈卡大學臨床醫院(Virgen of Arrixaca University Clinical Hospital)的合作攸關重要,利用以往收集的心臟組織和血液樣本庫,有助研究小組建置整體模型。

了解更多:
《詞彙學習:為什麼大家這麼需要GPU? 》

COVID-19,危機也是轉機
COVID-19會使年長者和先天性心臟病患者受到較嚴重的影響,早早關注此發現的研究小組參與了REACT-EU計畫(歐盟為新冠疫情對經濟帶來的影響而推出的經濟復甦計畫)。與CNB-CSIC(西班牙國家級生技研究機構)、CEMBio(代謝體學先進實驗室)、馬德里科學園區和麻省理工學院等知名研究中心合作,探索了心臟病、老化和COVID-19之間的關聯。團隊還研發了一個動物臨床前實驗模型來研究會造成過度發炎的細胞激素風暴,為COVID-19和未來的疾病提供了一個標的檢測及設計療法的多功能平台。

憑藉SIE在高效能運算和技嘉伺服器建置等方面的專業知識,研究團隊得以建立一個能有效利用大量人類與動物單細胞多體學數據的運算中心。

Talos Cluster at URJC
一窺技術細節
SIE進行整合的技嘉伺服器為研究人員提供強大的運算能力。為了管理這個叢集,可以直接使用技嘉獨有的「技嘉伺服器管理套件」──GIGABYTE Server Remote Management (GSM),這是一套能讓用戶透過網路進行大量伺服器即時管理的全方位軟體套件,適用於所有技嘉伺服器平台,並支援Windows以及Linux作業環境,可從技嘉官方網站免費下載使用。

叢集系統包括:
• 4個 G492-ZD2 GPU節點
• 2個 R182-Z91 運算節點
• 1個 S451-3R1 儲存節點
• 1個 R182-Z91 首節點

了解更多:
《詞彙學習:一分鐘了解節點的意義
暴風解碼,技嘉運算叢集協助早稻田大學研究氣候變遷

GPU節點:
G492-ZD2是專為高GPU負載工作而生的伺服器。採4U機箱雙路架構設計,上方1U空間放置CPU及硬碟插槽,底部3U為GPU專用加速器模組,同時支援最多10個LP PCIe Gen4 x16插槽。該解決方案提供了最佳的散熱能力,系統能在不影響性能的情況下維持高度運算能力。

叢集中每個GPU節點配備2顆AMD EPYC 7282處理器,合計共32個 CPU 核心和160條PCIe 4.0通道。 由NVIDIA HGX™ A100 SXM4 GPU來承擔較為吃重的平行運算工作負載。每個GPU伺服器搭載八個NVIDIA A100 GPU。這個先進的GPU叢集創造了令人印象深刻的平行運算能力,包括221,184個CUDA核心和13,824個Tensor核心, FP64理論運算力超越600 TFLOPS。NVIDIA NVLink與A100 Tensor 核心 GPU搭配NVIDIA NVSwitch™運用時,更能以每秒600GB的速度聯結8張的A100 GPU,得以在搭載A100的技嘉伺服器上釋放出最高的運算力。

了解更多:
《詞彙學習:常聽別人說PCIe,那有什麼厲害?

運算節點:
R182-Z91採雙處理器設計,支援AMD EPYC 7003系列處理器,合計多達128個CPU核心。具8個2.5吋SATA/SAS和2個U.2 NVMe熱插拔硬碟擴充槽,另有兩個FHHL PCIe Gen4 x16擴展槽可支援高速網卡等配件。

每個運算節點配備兩個基本時脈為2.45GHz的AMD EPYC 7763處理器,具有64個核心(128個執行緒)和256MB的L3快取,32條DDR4記憶體插槽共配置了1024GB的記憶體空間。RAID控制器管理8個快速的SATA固態硬碟,可提供最快的存取速度。總的來說,它提供了極高的性能,同時減少維護成本和能源消耗。

了解更多:
《詞彙學習:或許你還不確定核心是什麼?
《詞彙學習:技嘉小百科,帶你認識執行緒

首節點和儲存節點:
團隊同樣選擇了R182-Z91作為整個叢集系統的管理節點。與運算節點不同,首節點不需要密集的CPU核心配置,研究人員重視未來的可擴展性,看中多組記憶體插槽的R182-Z91,並搭配兩個較低功耗的AMD EPYC 7252處理器(熱設計功耗120W)。

與儲存伺服器相同,容量也是建置此儲存節點最優先的考量,S451-3R1可以滿足多數需求,其支援最多36個3.5吋SAS/SATA硬碟與6個2.5吋NVMe/SATA/SAS硬碟。在這個叢集中,系統使用2個Intel Xeon Silver 4210R處理器,共20個CPU核心,對儲存節點來說已是遊刃有餘,除此之外其CPU熱設計功耗僅100W。與運算節點同樣運用了RAID控制器,將36個18TB HDD透過兩組RAID 6組建為總容量576TB的單一儲存裝置。此外,伺服器搭配NVIDIA® ConnectX®-6 SmartNIC介面卡連接NVIDIA Quantum InfiniBand平台,提升儲存伺服器的整體效能。

SIE在所有技嘉伺服器系統上使用LADONoS 8進行HPC管理與維護,這是一個在CentOS上的開源系統,研究人員能夠在所有叢集系統上作業,且無需支付軟體費用,大大降低整體預算。主要工具如下:
a)Rocky Linux 8.7 因其穩定度高並可使用安全化的iptables而被選為操作系統。
b)SLURM 用於作業排程及工作流程等資源分配,其他在西班牙領先的叢集系統(如Mare Nostrum或Hyperion)都使用的相同的任務調度工具。
c)Docker 容器系統,在不虛擬化所有設備的情況下,可將應用程式快速地部署到各種環境,進行個別化部屬。
d)Check MK 是一個透過SNMP監控設備,並以IPMI進行管理的智慧監控程式。
e)Easy Build 是一個軟體建置與安裝框架,可在HPC系統上高效管理科學應用軟體。
站在巨人的肩膀上
研究團隊不僅致力追求新知識,更注重知識轉化與傳播。超算力中心與合作學術單位分享成果,使合作夥伴與社會大眾大大受益。SIE、技嘉伺服器與胡安卡洛斯國王大學聯手的塔羅斯計畫,遠遠超越Sergio Muñoz教授和研究人員Luis Bote當初的預期並看見未來的展望。

他們接下來的研究將聚焦於兩個領域,一為研究部分細胞重編程或暫時重編程,對抗老化及損傷;其二則是腫瘤學領域,期待透過巨人的肩膀我們能看得更高,走得更遠。

了解更多:
什麼是HPC高效能運算?
技嘉GPU運算伺服器,提升油氣產業的探勘效率
技嘉伺服器加持 巴塞隆納大學超前部署全新運算叢集

想要掌握最新科技動向?馬上訂閱!
訂閱電子報
想要掌握最新科技動向?馬上訂閱!
訂閱電子報