HPC

技嘉科技協助ISC學生團隊叢集運算競賽 - 培育新一代高效能運算人才

by GIGABYTE
ISC(International Supercomputing Conference)論壇
2019六月在德國法蘭克福,技嘉伺服器支援四支參賽團隊參與ISC高效能運算會議(International Supercomputing Conference)和展覽。此次盛會吸引來自五十多個國家/地區的三千五百多名與會者參加了今年的展會。
ISC是全球歷史最悠久的高效能運算論壇之一,自1986年開始迄今已有30多年歷史,是歐洲規模最大的高效能運算集會,每年都吸引了無數來自全球的專家與學者與會。已經成為HPC業界最高端的峰會。
每次在ISC大會上公佈的全球高性能運算TOP500排行榜更是高性能運算的權威榜單。高效能運算代表著IT技術的頂尖水準,國內外很多客戶利用HPC系統解決商業運算中出現的大數據分析與數據挖掘、商業模型、國內外匯款(SWIFT code)等高速商業交易或其他一般性商業應用,也包括國內外大多數高效能運算教學科學研究應用,這類型的商業客戶對於HPC的應用效率和產品可靠性提出了極高規格的硬體要求。
GIGABYTE's Booth at ISC 2019
技嘉科技為業界知名的伺服器設計製造商,多年來協助客戶建構彈性、靈活的高效能叢集運算系統,技嘉科技的高密度和GPU伺服器等系列產品可以滿足各類型高效能叢集運算應用。以多樣化的伺服器產品,例如H系列高密度伺服器、G系列GPU協同加速運算伺服器與R系列高效能伺服器,透過各項產品組合滿足高效能運算各個應用角色需要,供給各個不同階層應用伺服器的最佳性價比與靈活性。
每次ISC主辦的學生教育競賽(SCC:Student Cluster Competition),技嘉科技都有贊助高等教育機構組隊,為高效能運算市場與產業培植將來的研發人才,善盡企業社會責任(CSR:Corporate Social Responsibility),除了運用創新的產品研發,設計產品與服務,為經濟發展做出貢獻之外,同時也回饋社會盡一己之力。
除了廠商產品展示和會議,ISC另一大亮點就是SSC ( Student Cluster Competition)。 SCC 已進入第八個年頭,是一項為期三天的ISC-SSC學生叢集運算競賽,有來自世界各地不同大學的十四支學生團隊參加,專注於推進STEM科系(STEM縮寫是代表 科學(Science)、技術(Technology)、工程(Engineering)及數學(Mathematics)等四類學科) 和高效能叢集運算(HPC)技能發展。每一支參賽團隊需要構建自己設計的高效能叢集運算架構,然後運行一系列高效能叢集運算基準測試和應用程式,同時遵守嚴格的功率限制(總功耗限制在 3000W 以下)。
這次競賽有四個不同的學生團隊選擇技嘉科技的高效能伺服器來佈署高效能叢集運算架構。這四個團隊各自選擇四種不同CPU平臺構建高效能運算叢集架構,可證實技嘉科技伺服器滿足不同高效能運算應用架構需求條件。以下介紹四支參賽隊伍:
1. Tartu Team(瑞典-愛沙尼亞-塔爾圖大學)
塔爾圖大學團隊選用技嘉科技設計製造的AMD EPYC處理器平臺構建HPC叢集架構,使用了四部R281-Z94和兩部G291-Z20伺服器。
2. HPC Team RACKlette(瑞士-蘇黎世聯邦理工學院)
蘇黎世聯邦理工學院團隊選擇四部G291-280 技嘉科技伺服器,採用Intel Xeon Scalable處理器平臺,構建了HPC叢集架構。 RACKlette團隊取得了很好成績——在HPL LINPACK基準測試中獲得高分,在比賽中排名第三。
3. 國立成功大學隊(台灣)
國立成功大學團隊採用自主挑選伺服器主機板、相關元件組合,並選用技嘉科技X299伺服器主機板自行構建高效能叢集運算架構,該團隊創建最具刻苦耐勞、克難工程師精神的HPC叢集架構。這就是他們獲得粉絲最喜愛獎的原因!
4. UPC Les Maduixes(西班牙_加泰羅尼亞理工大學)
UPC Les Maduixes團隊採用技嘉科技設計的Marvell ThunderX2處理器平臺構建高效能叢集運算架構,選備8台R281-T94伺服器。從這個團隊參賽硬體架構設計,同時驗證Arm CPU平臺也是構建HPC叢集架構的可行解決方案。
國立成功大學團隊(台灣)
採訪參賽團隊
ISC論壇展會與學生叢集運算競賽 (SCC:Student Cluster Competition)結束後,我們實際採訪兩個採用技嘉伺服器產品的參賽團隊——HPC Team Racklette(瑞士蘇黎世聯邦理工學院)和Tartu Team(愛沙尼亞塔爾圖大學)——,詳細瞭解他們為何選用技嘉科技伺服器構建高效能叢集運算架構、面臨哪些挑戰,以及團隊在比賽中的亮點。採訪團隊同時詢問下一場比賽SC19,他們預計怎麼調整與改進比賽計劃。
UPC Les Maduixes團隊(西班牙加泰羅尼亞加泰羅尼亞理工大學)及技嘉R281-T94伺服器 / Marvell ThunderX2 Arm
採訪瑞士-RACKlette 團隊(蘇黎世聯邦理工學院)
1. 能否更詳細地告訴我們於比賽用的高效能運算的硬體、軟體堆疊與叢集架構?
我們採用四部技嘉科技 G291-280伺服器作為運算集點,配置兩顆Intel Xeon Platinum 8180 CPU,總計八顆CPU。其中兩個節點額外配備四張NVIDIA Tesla V100 GPU加速卡,運用GPU加速應用程式實現最佳性能,整體系統配置八張GPU加速卡。 所有節點都使用Infiniband通訊協定,網路交換機採用Mellanox 100Gbit/s Infiniband EDR,完成四部運算節點互為連接。再運用主機的乙太網路(Ethernet)用於部署、運算和監控。 為了節省電力,儲存設備裝置保持在最低限度,因此將開機磁碟與運算節點資料儲存共用一顆SSD。整體高效能叢集架構的系統設計,是來自CSCS瑞士國家超級計算中心 (Swiss National Supercomputing Centre )的顧問和系統整合商,還有瑞士的贊助商Dalco的協助組裝建構完成整體比賽軟硬體架構。




ISC19 Meet The Teams interview: ETH
在這次比賽的軟/硬體佈署,裝載CentOS 7的Bright Cluster Management系統,四部伺服器主機,乙部主機作為管理節點,其他三部定為運算。CentOS 7 Bright Cluster Management軟體系統帶有廣泛的工具集,用於部署、維護、作業調度、監控、備份等等。使我們能建立一個高效的工作流程,準確地監控硬體並以較低的功耗和性能調整以獲得最佳運算效能。為了進一步提高運算生產力,我們大量運用導向式數據包管理器完成HPC平行運算管控,例如 Spack。 讓我們能夠輕鬆地在各種不同運算版本與運算條件中完成軟體基礎運算部署,彈性啟用不同程度的運算優化,便於調整整體電源效率和性能數值(比賽總功耗限制在3000W以下),同時保持所有運算的準確性。
2. 所選擇硬體/軟體堆疊架構設計的原因是什麼?
我們試圖設計一個對廣泛的應用具有競爭力的系統。 經過一些粗略的初步測試並考慮到 3000W 的功率限制,我們已經在早期階段系統設計採用四個運算節點。我們選擇了英特爾 CPU 與 NVIDIA 加速卡的組合達到最佳運算性能,將使我們處於非常有競爭力的位置。為了平衡軟硬體架構以及軟體所有應用程式的系統與基準測試的功率測量,我們決定最終8顆CPU和8張GPU的硬體配置。所有軟/硬體配置確定後,使我們能夠在GPU與CPU的應用運算程式條件中,能夠較準確評估3000W功率上限。
瑞士-RACKlette 團隊(蘇黎世聯邦理工學院)
3. 在比賽中遇到了哪些挑戰?
我們的團隊準備得很好,在比賽開始時就已經啟動並運行了所有應用程式。然而,在比賽期間我們仍然遇到了一些障礙,我們必須處理新的資料源輸入集(new input sets)。 我們在使用Swift和OpenFOAM模擬資料處理時遇到了一些問題。我們使用的訊息傳遞介面 (MPI:Message Passing Interface),拋出了各種錯誤消息,最初我們無法在比賽當天運行應用程式。 然而,經過密集調試和耐心等待和適應新編碼,對應元資料依賴項重新組譯後,能夠為每個應用程式運作提交一個不錯的運算結果。
在比賽中面臨的另一個挑戰是3000W的限制,以及如果超過這個限制我們將受到的懲罰性扣分。儘管我們針對這個能耗上限進行硬體和軟體訓練和優化,但在正式比賽開始前,仍遇到應用程式上效能調校的不定性因素,為了進行新優化調校必須改變應用與功耗程式,所以在比賽的第一天就經歷了超過 3000W 限制的意外峰值。然而,我們很快從錯誤中吸取了教訓,盡快調整運算程式作業並考慮潛在耗電峰值,在比賽開始前幾分鐘內完成數值優化。

4. 恭喜團隊獲得階段LINPACK 基準測試的最高分!達到最佳結果的關鍵因素是什麼?
我們真實目標是構建一個在所有應用程式上都良好表現的運算系統,不是單獨為LINPACK效能數值構建單一用途叢集運算軟/硬體結構。然而,由於比賽的LINPACK是非常重要的基準測試值,因此決定使用八張NVIDIA Tesla V100 GPU來獲得具競爭力的運算能力。 技嘉科技的GPU伺服器良好硬體設計,使我們能夠在比賽前進行廣泛測試,以確保最佳的GPU佈局能獲得最高 LINPACK數值。雖然我們整體架構從每組配置(4x2)的4個節點和2張GPU 開始;經過各種組合排列,例如一部伺服器搭配八張GPU設置,最終確認二部伺服器搭配四張GPU設置佈局。除了對 LINPACK 基準測試的最佳輸入參數進行廣泛測試外,我們還測試驗證系統中的各種參數調教,一方面是為了節省運行本身不需要的組件的電源,另一方面是推動關鍵部件(如 GPU)盡可能高運算值,且剛好低於3000W功率上限。因此,我們最終花費了大量時間來尋找最佳CPU、風扇速度、GPU、待機模式和其他系統組件的電源狀態以及相關應軟硬元組件。最終辛勤工作獲得回報,我們能夠在僅使用八張GPU的情況下實現最高的LINPACK運行,與比賽中其他系統運算能力更強的團隊競爭。除了我們在比賽前嚴格的測試和調整之外,達成優化運算的關鍵是我們選擇了由技嘉科技GPU Server組成四個運算節點,組合成一套小型的HPC叢集運算,其中LINPACK運算能力更集中在這四個運算節點中。讓我們的電源運作與空閒消耗保持在較低水準,同時能以更高效能水準運作兩組裝載GPU的運算節點。
RACKlette 團隊HPC cluster 採用 4 x 技嘉科技 G291-280
5. 你們團隊獲得哪些啟發,以及將如何改變策略面對 SC19 取得更好的成績??
我們已經開始討論 SC19 的基礎硬體配置。主要目標是構建一個平衡的多工運算系統,整套系統架構將執行高效運算及為所有應用程式提供良好的性能。在準備 ISC19 的過程中,我們學會了使用許多工具,例如 Bright Cluster Management 和數據包管理器 Spack,我們將繼續使用整套軟體配置架構。為了在SC19上取得更好的成績,我們將嘗試進一步改進我們的監控設置。我們的團隊沒有太多的時間在比賽中對叢集運算進行精準的功耗測量,因此為具備更準確功率測量進行多種設定比較以及進行運算訓練成為首要任務。到目前為止,我們為了穩定性並確認元資料的各項取捨,從而獲得進一步改善運算效能,並且嘗試在運算過程中添加更多項自動化優化運算調校,試著減少手動調整韌體參數配置。此外,在過去為 ISC19 做準備期間,我們在HPC軟體架構方面獲得許多經驗,使得我們在嘗試軟體架構優化方面更得心應手,例如研究手動調整源代碼優化等等。


採訪瑞典-塔爾圖團隊(愛沙尼亞-塔爾圖大學)
1. 能否更詳細地告訴我們於比賽用的高效能運算的硬體、軟體堆疊與叢集架構?
最初,我們選配四部CPU運算節點和兩部GPU運算節點,配置四張NVIDIA V100 GPU;但後來從一個 GPU運算節點中取出四張V100 GPU,重新調整為一部GPU運算節點,技嘉科技 G291-Z20 GPU node配置八張NVIDIA V100 GPU。以下是最終配置:
● 4 x 技嘉科技 R281-Z94 CPU nodes
     ■ Each node featured:
        ◆ 2 x AMD EPYC 7601 @ 2.2GHz (32 cores) / 128 GB RAM,
        ◆ 2 nodes had 1 x SATA SSD 240GB and the other 2 had 1 x NVMe M.2 460GB SSD / EDR Infiniband
● 1 x 技嘉科技 G291-Z20 CPU node
    ■ Featuring:1 x AMD EPYC 7601 @ 2.2GHz (32 cores) / 256 GB RAM / 1 x NVMe M.2 460GB SSD / EDR Infiniband
● 1 x 技嘉科技 G291-Z20 GPU node
    ■ Featuring:1 x AMD EPYC 7601 @ 2.2GHz (32 cores) / 256 GB RAM / 1 x NVMe M.2 460GB SSD / EDR Infiniband / 8 x                                    NVIDIA Tesla V100 with 32GB * 8
● Switch:
     ■ IB-2 SB7800 36 ports EDR
● Software:
     ■ OS: CentOS 7.6 / MPI: Openmpi 3.10, Openmpi 3.12 / CUDA: 10
     ■ Also, we used Nvidia HPL and HPCG binaries.
ISC19 Meet The Teams interview: Tartu
2. 選擇硬體/軟體堆疊架構設計的原因是什麼?
我們首選的CPU是AMD EPYC™ 7001 Series,因為 AMD CPU具有較多快取、較高運算時脈與較低電源能耗,在高速運算需要移動大量數據的應用程序中非常有效用。因此,我們可以比其他競爭球隊更具優勢。我們的團隊希望通過 AMD CPU 的優質效能,來挑戰比賽任務,並在平行運算領域獲得更多的知識和經驗。另外AMD還有支援許多開源函數庫。
其次,我們不僅關注整體高效能叢集運算架構性能,還評估CPU市場發展。在我們看來,AMD擁有強大的優勢,因為AMD處理器比同等性能的其他品牌X86處理器價格便宜許多。換言之,AMD EPYC™ 7001 Series能以較低的成本價格,提供較多的高效能運算能力,從而減少電算中心的成本支出。
但是,只採用AMD CPU參加競爭比賽過於冒險,因此增加NVIDIA GPU加速卡是我們安全選擇。 NVIDIA擁有龐大的網路論壇,我們可以在其中獲得所需的支援。NVIDIA HPC DEVELOPER KIT READY幾乎為所有主要應用程序提供了許多可用的資源(庫/編譯器)。 由於我們不知道模擬軟體的哪些功能會出現在比賽中,我們預計與其他選擇相比,NVIDIA GPU(CUDA、OpenACC、OpenCL)與開發工具包能以最大可能的支援各種模擬運算功能。
瑞典-愛沙尼亞-塔爾圖大學團隊合照
3. 在比賽中遇到了哪些挑戰?
在比賽中常會出現意想不到的狀況。 對這些問題做出快速反應是一個相當大的挑戰,但這是比賽樂趣之一! 在有限的時間和資源以及適應各種任務的情況下,及時處理這些棘手問題,尤其是在嘗試相對應資訊元,藉以平衡不同運算任務以在比賽排行榜上佔據較高排序。 對於其中一些挑戰模擬,在比賽前做好準備,可以讓我們在比賽中更好地利用時間與既有資源。 在共享系統的同時管理電源功耗尤為重要。 我們團隊期望將運算資源用在主要AI 人工智慧工作負載來進行訓練,達成有效過濾不重要的資訊源,希望能夠藉由GPU來加速資料分析,同時讓團隊中其他分組成員能夠發揮加速運算作用。經由此次比賽,我們理解到為高效能運算值設置檢查點是非常繁瑣且複雜的評估工作。

4. 您的團隊在比賽中有哪些亮點/收穫?
我們設法快速組裝能夠運行和編譯每個應用程序的叢集運算系統,這給了我們很大的信心與充裕的時間來調整性能。本次活動所需的團隊合作令人驚嘆,並讓我們理解高效能運算需要非常積極的協作才能解決問題。 總的來說,比賽的一大好處是可以結識對相似領域感興趣的同學,且這些同學同時也具有不同的專業領域背景。 除此之外,我們還有機會與該行業建立聯繫。 這不僅能開拓視野,對未來也可能非常有益。
塔爾圖大學 HPC 叢集運算-使用 4 x 技嘉科技 R281-Z94 和 2 x 技嘉科技 G291-Z20
5. 你們團隊獲得哪些啟發,以及將如何改變策略面對 SC19 取得更好的成績?
每次在比賽告一段落後,都會對可能遇到的問題有更多的瞭解,以便更好地為下次遇到這些情況做好準備。 對於潛在的問題,最好有一個已知的有效解決方案並有幾個備用計劃。
準備是關鍵。 我們擁有出色的硬體,但評估一些架構改動,以及在下一場比賽之前為每個基準測試找到最佳配置將幫助我們帶來更好的設計和設置,同時節省在比賽中調整性能的時間。 最後一刻的更改通常會嚴重損害性能,因此我們應該知道解決方案。
當然,了解函數庫與開發工具包非常重要。 這場比賽教會了我們很多關於 Tensorflow ( TensorFlow 是用於機器學習的端對端開放原始碼平台,內含開源軟體庫,應用於各種感知和語言理解任務的機器學習) 的知識,在比賽之前我們並不關注;經由這次比賽經驗,我們將能夠改進硬體到軟體的應用程序設置取捨,也對運算處理的內容有更整體性的了解。
總結
2019年的 ISC 學生叢集運算競賽(SCC:Student Cluster Competition),技嘉科技的伺服器產品被四個不同的團隊選用,這證明技嘉科技已是高效能運算主要的伺服器製造供應商,多樣化設計機型供應給高效能叢集運算常用的CPU 和 GPU硬體配置的系統應用,基於各種不同運算元件建構最高硬體系統性能,例如x86(Intel、AMD)和 Arm(ThunderX2),還有新世代ARM Ampere Altra/Altra MAX等新機型上市。
技嘉科技對這些競賽團隊的贊助,即展現技嘉科技持續深化培養下一代高性能運算人才成效。祝福這次參與ISC學生叢集運算競賽的十四支團隊,往後能更加精進高效能運算技術;也恭賀此次比賽總冠軍 - CHPC 團隊(Center for High Performance Computing, South Africa)。期待很快在下場SC19 再次見到大家!


想要掌握最新科技動向?馬上訂閱!
訂閱電子報
想要掌握最新科技動向?馬上訂閱!
訂閱電子報