深入解讀:英偉達最強異構(gòu)平臺



強大的可擴展 HPC 和大型 AI 工作負載的性能和生產(chǎn)力

英偉達 Grace CPU: 多達 72 個 Arm Neoverse V2 內(nèi)核,每個內(nèi)核具有 Armv9.0-A ISA 和 4 個 128 位 SIMD 單元。 高達 117 MB 的 L3 緩存。 高達 512 GB 的 LPDDR5X 內(nèi)存,提供高達 546 GB/s 的內(nèi)存帶寬。 多達 64 個 PCIe Gen5 通道。 NVIDIA 可擴展一致性結(jié)構(gòu) (SCF) 網(wǎng)格和分布式緩存,內(nèi)存帶寬高達 3.2 TB/s。 單個 CPU NUMA 節(jié)點可提高開發(fā)人員的工作效率。
與 NVIDIA A100 GPU 相比,多達 144 個帶有第四代張量核心、Transformer Engine、DPX 和 3 倍高 FP32 和 FP64 的 SM。 高達 96 GB 的 HBM3 內(nèi)存提供高達 3000 GB/s 的速度。 60 MB 二級緩存。 NVLink 4 和 PCIe 5。
Grace CPU 和 Hopper GPU 之間的硬件一致性互連。 高達 900 GB/s 的總帶寬,450 GB/s/dir。 擴展 GPU 內(nèi)存功能使 Hopper GPU 能夠?qū)⑺?CPU 內(nèi)存尋址為 GPU 內(nèi)存。每個 Hopper GPU 可以在超級芯片內(nèi)尋址多達 608 GB 的內(nèi)存。
使用 NVLink 4 連接多達 256 個 NVIDIA Grace Hopper 超級芯片。 每個連接 NVLink 的 Hopper GPU 都可以尋址網(wǎng)絡中所有超級芯片的所有 HBM3 和 LPDDR5X 內(nèi)存,最高可達 150 TB 的 GPU 可尋址內(nèi)存。
性能、可移植性和生產(chǎn)力的編程模型



Superchip 架構(gòu)特點
NVIDIA Grace CPU NVIDIA Hopper GPU NVLink-C2C NVLink Switch System Extended GPU memory NVIDIA Grace CPU


NVIDIA Hopper GPU
新的第四代張量核心在更廣泛的 AI 和 HPC 任務中執(zhí)行比以往更快的矩陣計算。 與上一代 NVIDIA A100 GPU 相比,新的 Transformer 引擎使 H100 在大型語言模型上的 AI 訓練速度提高了 9 倍,AI 推理速度提高了 30 倍。 空間和時間數(shù)據(jù)局部性和異步執(zhí)行的改進功能使應用程序能夠始終保持所有單元忙碌并最大限度地提高能效。 安全多實例 GPU (MIG )將 GPU 劃分為隔離的、大小合適的實例,以最大限度地提高較小工作負載的服務質(zhì)量 (QoS)。


NVLink-C2C:用于超級芯片的高帶寬、芯片到芯片互連
NVLink 開關(guān)系統(tǒng)

擴展 GPU 顯存

本號資料全部上傳至知識星球,更多內(nèi)容請登錄智能計算芯知識(知識星球)星球下載全部資料。

免責申明:本號聚焦相關(guān)技術(shù)分享,內(nèi)容觀點不代表本號立場,可追溯內(nèi)容均注明來源,發(fā)布文章若存在版權(quán)等問題,請留言聯(lián)系刪除,謝謝。
電子書<服務器基礎(chǔ)知識全解(終極版)>更新完畢。
獲取方式:點擊“閱讀原文”即可查看182頁 PPT可編輯版本和PDF閱讀版本詳情。
溫馨提示:
請搜索“AI_Architect”或“掃碼”關(guān)注公眾號實時掌握深度技術(shù)分享,點擊“閱讀原文”獲取更多原創(chuàng)技術(shù)干貨。

評論
圖片
表情
