今天是“Venado”超級計算機的剪彩儀式,早在 2021 年 4 月Nvidia 宣布其首款數(shù)據(jù)中心級 Arm 服務(wù)器 CPU 的計劃時就曾暗示過這一點,并進行了一些詳細討論,但還不夠充分。
現(xiàn)在我們終于可以了解有關(guān) Venado 系統(tǒng)的更多詳細信息,并更深入地了解Los Alamos將如何使其發(fā)揮作用,更具體地說,為什么內(nèi)存帶寬和依賴于它的計算之間的更好平衡對此可能更為重要與世界其他 HPC 中心相比,該實驗室的規(guī)模更大。
1、ISC24 Presentation Market-Update(2024)
2、Hyperion Research ISC24 Presentation(2024)
3、ISC24 Presentation Navigating:HPC-AI-Quantum-and-Clouds
1、ISC24 Presentation Considerations for Storage and Interconnects
2、ISC24 Presentation 4th-Annual-Global-QC-Market-Robust-and-on-the-Rise
3、ISC24 Presentation Considerations-for-Sustainability
1、ISC24 Presentation Widespread AI Adoption Creates New Demands
2、ISC24 Presentations Forecasts and High Growth Areas
3、ISC24 Presentation Considerations for Cloud
4、ISC24 Presentation Conclusions
Los Alamos始建于 1943 年,是制造世界上第一批核武器的曼哈頓計劃的所在地。當(dāng)然,我們當(dāng)時沒有超級計算機,但Los Alamos一直在進行大量非常復(fù)雜的計算;有時是手工操作,有時是 IBM 的制表機使用打孔卡來存儲和操作數(shù)據(jù)——這是一種早期的模擬形式。
Los Alamos第一臺進行此類計算的數(shù)字計算機名為 MANIAC,于 1952 年安裝;它每秒可以執(zhí)行 10,000 次操作,并運行蒙特卡羅模擬,利用隨機性來模擬實際的確定性過程。在接下來的四十年里,洛斯阿拉莫斯使用了 IBM、Control Data Corporation、Cray、Thinking Machines 和 Silicon Graphics 的一系列超級計算機,并且是IBM 使用 AMD Opteron 處理器和Cell 加速器打造的“Roadrunner”于 2008 年安裝,代表了 CPU 和加速器的首次大規(guī)模集成。
最近,Los Alamos于 2015 年安裝了耗資1.47 億美元的“Trinity”系統(tǒng),該系統(tǒng)由英特爾的英特爾至強和至強融核 CPU 組成,并配有 2 PB 內(nèi)存和英特爾 100 Gb/秒 Omni-Path 互連。Trinity 值得注意,因為從大量內(nèi)存中卸載計算結(jié)果需要突發(fā)緩沖區(qū),以便機器可以繼續(xù)計算。Trinity 的替代品是“Crossroads”超級計算機,該超級計算機于 2023 年 8 月安裝,它基于英特爾的“Sapphire Rapids”Xeon SP 處理器,配備 HBM2e 堆疊內(nèi)存和 HPE 的 Slingshot 互連。
Los Alamos及其鄰居桑迪亞國家實驗室(Sandia National Laboratories)都渴望促進可集群成超級計算機的 Arm 服務(wù)器的創(chuàng)建,洛斯阿拉莫斯一直在通過 Cavium 的不幸的 ThunderX4 Arm 服務(wù)器項目來推動每個內(nèi)核的內(nèi)存帶寬(以及然后是馬維爾)。“Triton”ThunderX3 或 ThunderX4 都沒有問世,因此Los Alamos誘使英特爾創(chuàng)建了 Sapphire Rapids 的 HBM 變體,并說服 Nvidia 創(chuàng)建了“Grace”CG100 Arm 服務(wù)器芯片。與其當(dāng)前的“Hopper”GH100 和 GH200 GPU 加速器以及未來的“Blackwell”GB100 和 GB200 加速器配對。
Venado 在西班牙語中的意思是鹿或雄鹿,也是新墨西哥州 Sangre de Cristo 山脈的一座山峰的名稱,這就是新機器得名的地方。正如您所預(yù)料的那樣,Hewlett Packard Enterprise 是該系統(tǒng)的主要承包商,并且正如我們所預(yù)期的那樣,該系統(tǒng)沒有使用 Nvidia 為制造共享內(nèi)存 GPU 的超級 Pod 而創(chuàng)建的 GPU NVLink Switch 共享內(nèi)存互連。
兩年前,當(dāng) Venado 系統(tǒng)架構(gòu)正式確定時,有人討論Los Alamos可能希望在具有 Grace-Grace 和 Grace-Hopper 計算的 Cray“Shasta”XE 超級計算機系統(tǒng)內(nèi)使用 InfiniBand,而不是 HPE 的 Slingshot 以太網(wǎng)變體引擎,但事實證明,Los Alamos正在部署 200 Gb/秒的 Slingshot 11 互連。我們的猜測?每個端口速度為 200 Gb/秒的 HPE Slingshot 11 比端口速度為 400 Gb/秒的 Nvidia Quantum 2 InfiniBand 便宜很多。
新的 Venado 系統(tǒng)并不是Los Alamos艦隊中的主力機器,而是一個實驗性的機器,它是根據(jù)自己的預(yù)算建造的,其明確目的是進行硬件和軟件研究。Los Alamos采購的大多數(shù)機器都是為負責(zé)管理美軍核武器庫存的國家核安全管理局提出、建造、驗收并立即投入使用的。
早在 2021 年 5 月,我們就通過公告正式了解了 Venado:
我們還通過與 HPC 項目經(jīng)理 Jim Lujan 和Los Alamos模擬與計算實驗室副主任 Irene Qualters 的交談了解到,基本想法是在兩種架構(gòu)之間對計算周期進行 80/20 的分割。這意味著 80% 的flops 將來自 GPU(我們假設(shè)這是在 FP64 精度下完成的,以瓜分計算量),20% 將來自 GPU。
考慮到在常規(guī) GPU 加速機器中,95% 到 98% 的flops 來自 GPU,這臺 Venado 機器看起來對 CPU 的負擔(dān)比您預(yù)期的要重一些。正如 Gary Grider 所說,他是Los Alamos HPC 部門的領(lǐng)導(dǎo)者,在過去的兩年半里擔(dān)任該部門的負責(zé)人,同時也是突發(fā)緩沖區(qū)(burst buffer)的發(fā)明者,他有充分的理由告訴The Next Platform。
“我們的應(yīng)用程序是極其復(fù)雜的多物理場、多鏈路規(guī)模、極端多分辨率、極其復(fù)雜的程序包,其中包含數(shù)百萬行代碼,這些代碼在半臺機器上運行六個月才能得到答案,”Grider 解釋道。“這對我們來說很正常,但對于許多其他能源部實驗室(如果有的話)來說,情況并非如此。他們可能會將其視為一件不尋常的事情,但并非通常。
運行這些應(yīng)用程序需要六個月的時間是因為對內(nèi)存的訪問非常稀疏和不規(guī)則,因為它們試圖做的事情非常復(fù)雜——應(yīng)用程序正在嘗試運行一個比實際問題大 50 倍的問題。因此,這最終成為我們?yōu)槟M環(huán)境購買的各種機器的驅(qū)動力,因為我們有這些需求。這最終成為我們不購買太多 GPU 的原因,因為如果你能做密集線性代數(shù),GPU 就真的很好。但如果你所做的一切都是稀疏和不規(guī)則的,并且一切都是索引查找之類的,那么它們實際上并不比 CPU 更好。實際上,更重要的是你每美元可以購買多少內(nèi)存帶寬,而不是你可以購買多少 flops 。”
也許很方便的是,在 GPU 上運行深度學(xué)習(xí)推薦系統(tǒng) (DLRM:deep learning recommendation systems ) 的超大規(guī)模開發(fā)商和云構(gòu)建商還需要一種方法來為這些推薦器緩存比 GPU HBM 內(nèi)存中所能容納的更多的嵌入量,Nvidia 給出了答案隨之而來的是 Grace,一款出色的計算內(nèi)存控制器,可額外提供 480 GB LPDDR5。
或許并非巧合的是,兩個 72 核 Grace 芯片通過 NVLink 端口連接形成一個超級芯片,蝕刻到 Grace 中的 Arm“Demeter”V2 內(nèi)核具有 960 GB 的內(nèi)存容量和 1 TB/秒的內(nèi)存帶寬。由于每個 V2 內(nèi)核有四個 128 位 SVE2 矢量引擎,Grace-Grace 超級芯片可以自行提供 7.1 teraflops 的聚合峰值 FP64 計算。在正常情況下,當(dāng) GPU 執(zhí)行大部分計算時,您可能會認為 Nvidia 會使用 Arm 的向量較少的“Perseus”N2 核心。我們認為美國的Los Alamos和瑞士的 CSCS 擁有“Alps”系統(tǒng),促使 Nvidia 使用 V2 核心。并且得益于Grace CPU中相對較少的核心、相對便宜且低功耗的LPDDR5內(nèi)存以及相對肥厚的480 GB可用內(nèi)存,Grace在每核心內(nèi)存帶寬和單位內(nèi)存帶寬成本之間取得了很好的平衡。
我們在此詳細介紹的Grace CPU具有 16 個 LPDDR5 內(nèi)存控制器,每個控制器的內(nèi)存帶寬總計為 546 GB/秒,容量為 512 GB。Grace 的交付版本只有 480 GB 內(nèi)存和 500 GB/秒帶寬。詳細而言,Grace-Grace 超級芯片中的兩個 CPU 通過 900 GB/秒 NVLink 芯片到芯片實現(xiàn)(chiplet 行話中的 C2C)相互連貫地鏈接。同樣的 NVLink C2C 互連用于將 Grace CPU 連接到具有 80 GB 或 96 GB HBM3 或 141 GB HBM3E 容量的 Hopper GPU,具體取決于您購買的型號。
無論如何,根據(jù)我們在 2022 年 5 月對 Grace 和 Hopper 的了解以及在計算上進行 80/20 的分割,我們進行了一些粗略的計算,并得出您將需要 3,125 個 Grace-Hopper 節(jié)點和大約 1,500 個 Grace-Grace 節(jié)點。Grace CPU 的 FP64 性能超出了許多人的預(yù)期——同樣,我們認為這是有意為之,并且是由 HPC 客戶而非 AI 客戶驅(qū)動的——結(jié)果是實際的 Venado 系統(tǒng)擁有 2,560 個 Grace-Hopper 節(jié)點和 920 個 Grace-Grace 節(jié)點。
如果您計算一下,總共有 316,800 個 Grace 核心,峰值 FP64 性能總計為 15.62 petaflops。Venado 節(jié)點中的 Grace CPU 共有 2 PB 主內(nèi)存。(呵呵,您認為這是巧合嗎?我們不這么認為。它的內(nèi)存量與 Trinity 系統(tǒng)相同。)LPDDR5 內(nèi)存的總帶寬為 2.1 PB/秒。
“盒子”中有 2,560 個 Hopper GPU,矢量核心上的 FP64 性能合計為 85.76 petaflops,張量核心上的 FP64 性能為 171.52 petaflops。如果您在 H100 上使用張量核心,則 Hopper 上的 FP64 為 92%,Graces 上的 FP64 為 8%,但如果僅使用矢量核心,則 Hopper 上的 FP64 為 85%。我們假設(shè)這些 Hopper GPU 每個具有 96 GB 的 HBM3 內(nèi)存,總共 240 TB 的 HBM3 內(nèi)存和 9.75 PB/秒的聚合帶寬。如果進一步計算,就會發(fā)現(xiàn)機器 81% 的內(nèi)存帶寬位于 Hopper GPU 上,但驚人的 19% 位于 Grace CPU 上。
作為與 HPE 合同的一部分,Venado 系統(tǒng)將配備駐留在 Slingshot 網(wǎng)絡(luò)上的 Lustre 并行存儲集群,Grider 表示,洛斯阿拉莫斯也希望在該機器上嘗試DeltaFS 文件系統(tǒng)以及其他文件系統(tǒng)。
Grider 表示,Venado 現(xiàn)已安裝并正在運行,并且應(yīng)該會在接下來的兩個月內(nèi)被接受,“除非有時會發(fā)生一些問題”,并且到 7 月份左右應(yīng)該會有大量應(yīng)用程序在實驗機器上運行。
下載鏈接:
2024年中國安防視頻監(jiān)控SoC芯片行業(yè)研究報告:安防SoC市場喜迎百億爆發(fā),眾企競逐后海思時代
邁向巔峰之路:中國成長型AI企業(yè)研究報告(2024)
2024安全大模型技術(shù)與市場研究報告
2024大模型典型示范應(yīng)用案例集
HBM專題:逐鹿頂尖工藝,HBM4的三國時代
AI Agent行業(yè)詞條報告:驅(qū)動智能交互變革,重塑服務(wù)生態(tài)
空間數(shù)據(jù)智能大模型研究:2024年中國空間數(shù)據(jù)智能戰(zhàn)略發(fā)展白皮書
企業(yè)競爭圖譜:2024年量子計算詞條報告
2024中國服務(wù)器CPU行業(yè)概覽:信創(chuàng)帶動服務(wù)器CPU國產(chǎn)化
HBM專題報告:跨越帶寬增長極限,HBM賦能AI新紀元
2024基于標準PCIe接口的人工智能加速卡液冷設(shè)計白皮書
《新型智算中心改造系列報告合集》
1、新型智算中心改造系列報告二:拉動全球電力消耗增長,液冷滲透率快速提升 2、新型智算中心改造系列報告一:網(wǎng)絡(luò)成大模型訓(xùn)練瓶頸,節(jié)點內(nèi)外多方案并存
《國產(chǎn)異構(gòu)處理器定位優(yōu)化技術(shù)合集》
1、面向申威眾核處理器的規(guī)則處理優(yōu)化技術(shù) 2、神威超級計算機運行時故障定位方法
2024中國半導(dǎo)體深度分析與展望報告
面向異構(gòu)硬件架構(gòu)軟件支撐和優(yōu)化技術(shù)
AI大模型賦能手機終端,擁抱AI手機新機遇
全球AI算力行業(yè)首次覆蓋:從云到端,云端協(xié)同,AI開啟科技行業(yè)超級成長周期
2024年中國大模型行業(yè)應(yīng)用研究:大模型引領(lǐng)智能時代,助力各行業(yè)全面升級
《半導(dǎo)體行業(yè)系列專題合集》
1、半導(dǎo)體行業(yè)系列專題:刻蝕—半導(dǎo)體制造核心設(shè)備,國產(chǎn)化典范
2、半導(dǎo)體行業(yè)系列專題:碳化硅—襯底產(chǎn)能持續(xù)擴充,加速國產(chǎn)化機會
3、半導(dǎo)體行業(yè)系列專題:直寫光刻篇,行業(yè)技術(shù)升級加速應(yīng)用滲透
4、半導(dǎo)體行業(yè)系列專題:先進封裝—先進封裝大有可為,上下游產(chǎn)業(yè)鏈受益
“人工智能+”進入爆發(fā)臨界,開啟繁榮生態(tài)前景
鯤鵬處理器軟件性能調(diào)優(yōu)(精編版)
《算力網(wǎng)絡(luò):光網(wǎng)絡(luò)技術(shù)合集(1)》
1、面向算力網(wǎng)絡(luò)的新型全光網(wǎng)技術(shù)發(fā)展及關(guān)鍵器件探討
2、面向算力網(wǎng)絡(luò)的光網(wǎng)絡(luò)智能化架構(gòu)與技術(shù)白皮書
3、2023開放光網(wǎng)絡(luò)系統(tǒng)驗證測試規(guī)范
4、面向通感算一體化光網(wǎng)絡(luò)的光纖傳感技術(shù)白皮書
《算力網(wǎng)絡(luò):光網(wǎng)絡(luò)技術(shù)合集(2)》
1、數(shù)據(jù)中心互聯(lián)開放光傳輸系統(tǒng)設(shè)計
2、確定性光傳輸支撐廣域長距算力互聯(lián)
3、面向時隙光交換網(wǎng)絡(luò)的納秒級時間同步技術(shù)
4、數(shù)據(jù)中心光互聯(lián)模塊發(fā)展趨勢及新技術(shù)研究
面向超萬卡集群的新型智算技術(shù)白皮書
面向AI大模型的智算中心網(wǎng)絡(luò)演進白皮書
網(wǎng)絡(luò)系列報告之交換機概覽:IB性能占優(yōu),以太網(wǎng)開放占優(yōu)
中國分布式存儲產(chǎn)業(yè)未來發(fā)展空間廣闊(2024)
本號資料全部上傳至知識星球,更多內(nèi)容請登錄全棧云技術(shù)知識星球下載全部資料。
???????????????? END ????????????????
免責(zé)申明:本號聚焦相關(guān)技術(shù)分享,內(nèi)容觀點不代表本號立場,可追溯內(nèi)容均注明來源,發(fā)布文章若存在版權(quán)等問題,請留言刪除,謝謝。
溫馨提示:搜索關(guān)注“全棧云技術(shù)架構(gòu)”微信公眾號,“掃碼”或點擊“閱讀原文”進入知識星球獲取10000+份技術(shù)資料。