高性能GPU服務(wù)器硬件拓?fù)渑c集群組網(wǎng)
共 14471字,需瀏覽 29分鐘
·
2024-04-15 08:01
01、術(shù)語(yǔ)與基礎(chǔ)
大模型訓(xùn)練一般都是用單機(jī) 8 卡 GPU 主機(jī)組成集群,機(jī)型包括 8*{A100,A800,H100,H800} 。下面一臺(tái)典型 8*A100 GPU 的主機(jī)內(nèi)硬件拓?fù)洌?/span>
PCIe 交換芯片
NVLink
-
是一種短距離通信鏈路,保證包的成功傳輸,更高性能,替代 PCIe, -
支持多 lane,link 帶寬隨 lane 數(shù)量線性增長(zhǎng), -
同一臺(tái) node 內(nèi)的 GPU 通過(guò) NVLink 以 full-mesh 方式(類(lèi)似 spine-leaf)互聯(lián), -
NVIDIA 專(zhuān)利技術(shù)。
-
A100 是 2 lanes/NVSwitch * 6 NVSwitch * 50GB/s/lane= 600GB/s 雙向帶寬(單向 300GB/s)。注意:這是一個(gè) GPU 到所有 NVSwitch 的總帶寬; -
A800 被閹割了 4 條 lane,所以是 8 lane * 50GB/s/lane = 400GB/s 雙向帶寬(單向 200GB/s)。
NVSwitch
NVLink Switch
HBM (High Bandwidth Memory)
-
AMD MI300X 采用 192GB HBM3 方案,帶寬 5.2TB/s; -
HBM3e 是 HBM3 的增強(qiáng)版,速度從 6.4GT/s 到 8GT/s。
帶寬單位
-
網(wǎng)絡(luò)習(xí)慣用 bits/second (b/s) 表示之外,并且一般說(shuō)的都是單向(TX/RX); -
其他模塊帶寬基本用 byte/sedond (B/s) 或 transactions/second (T/s) 表示,并且一般都是雙向總帶寬。
主機(jī)內(nèi)拓?fù)洌?/strong>2-2-4-6-8-8
-
2 片 CPU(及兩邊的內(nèi)存,NUMA) -
2 張存儲(chǔ)網(wǎng)卡(訪問(wèn)分布式存儲(chǔ),帶內(nèi)管理等) -
4 個(gè) PCIe Gen4 Switch 芯片 -
6 個(gè) NVSwitch 芯片 -
8 個(gè) GPU -
8 個(gè) GPU 專(zhuān)屬網(wǎng)卡
-
從分布式存儲(chǔ)讀寫(xiě)數(shù)據(jù),例如讀訓(xùn)練數(shù)據(jù)、寫(xiě) checkpoint 等; -
正常的 node 管理,ssh,監(jiān)控采集等等。
-
A100 用的 NVLink3,50GB/s/lane,所以 full-mesh 里的每條線就是 12*50GB/s=600GB/s,注意這個(gè)是雙向帶寬,單向只有 300GB/s。 -
A800 是閹割版,12 lane 變成 8 lane,所以每條線 8*50GB/s=400GB/s,單向 200GB/s。
-
GPU 之間(左上角區(qū)域):都是 NV8,表示 8 條 NVLink 連接; -
NIC 之間:
-
GPU 和 NIC 之間:
GPU 訓(xùn)練集群組網(wǎng):IDC GPU fabirc
-
這個(gè)網(wǎng)絡(luò)的目的是 GPU 與其他 node 的 GPU 交換數(shù)據(jù); -
每個(gè) GPU 和自己的網(wǎng)卡之間通過(guò) PCIe 交換芯片連接:GPU <--> PCIe Switch <--> NIC。
-
RoCEv2:公有云賣(mài)的 8 卡 GPU 主機(jī)基本都是這種網(wǎng)絡(luò),比如 CX6 8*100Gbps 配置;在性能達(dá)標(biāo)的前提下,(相對(duì))便宜; -
InfiniBand (IB):同等網(wǎng)卡帶寬下,性能比 RoCEv2 好 20% 以上,但是價(jià)格貴一倍。
數(shù)據(jù)鏈路帶寬瓶頸分析
-
同主機(jī) GPU 之間:走 NVLink,雙向 600GB/s,單向 300GB/s; -
同主機(jī) GPU 和自己的網(wǎng)卡之間:走 PICe Gen4 Switch 芯片,雙向 64GB/s,單向 32GB/s; -
跨主機(jī) GPU 之間:需要通過(guò)網(wǎng)卡收發(fā)數(shù)據(jù),這個(gè)就看網(wǎng)卡帶寬了,目前國(guó)內(nèi) A100/A800 機(jī)型配套的主流帶寬是(單向) 100Gbps=12.5GB/s。所以跨機(jī)通信相比主機(jī)內(nèi)通信性能要下降很多。
-
200Gbps==25GB/s:已經(jīng)接近 PCIe Gen4 的單向帶寬; -
400Gbps==50GB/s:已經(jīng)超過(guò) PCIe Gen4 的單向帶寬。
-
PCIe Gen5 -
SXM5:性能更高一些
H100 芯片 layout
-
4nm 工藝; -
最下面一排是 18 根 Gen4 NVLink;雙向總帶寬 18 lanes * 25GB/s/lane = 900GB/s; -
中間藍(lán)色的是 L2 cache; -
左右兩側(cè)是 HBM 芯片,即顯存。
主機(jī)內(nèi)硬件拓?fù)?/strong>
組 網(wǎng)
L40S vs A100 配置及特點(diǎn)對(duì)比
-
比如 FP64 和 NVLink 都干掉了; -
使用 GDDR6 顯存,不依賴(lài) HBM 產(chǎn)能(及先進(jìn)封裝)。
-
大頭可能來(lái)自 GPU 本身價(jià)格降低:因?yàn)槿サ袅艘恍┠K和功能,或者用便宜的產(chǎn)品替代; -
整機(jī)成本也有節(jié)省:例如去掉了一層 PCIe Gen4 Swtich;不過(guò)相比于 4x/8x GPU,整機(jī)的其他部分都可以說(shuō)送的了。
L40S 與 A100 性能對(duì)比
-
性能 1.2x ~ 2x(看具體場(chǎng)景); -
功耗:兩臺(tái) L40S 和單臺(tái) A100 差不多。
L40S 攢機(jī)
-
2 片 CPU(NUMA) -
2 張雙口 CX7 網(wǎng)卡(每張網(wǎng)卡 2*200Gbps) -
4 片 L40S GPU -
另外,存儲(chǔ)網(wǎng)卡只配 1 張(雙口),直連在任意一片 CPU 上
-
說(shuō)是現(xiàn)在PCIe Gen5 Switch 單片價(jià)格 1w 刀(不知真假),一臺(tái)機(jī)器需要 2 片;價(jià)格不劃算; -
PCIe switch 只有一家在生產(chǎn),產(chǎn)能受限,周期很長(zhǎng); -
平攤到每片 GPU 的網(wǎng)絡(luò)帶寬減半。
組網(wǎng)
數(shù)據(jù)鏈路帶寬瓶頸分析
-
PCIe Gen4 x16 雙向 64GB/s,單向 32GB/s; -
CPU 處理瓶頸?TODO
-
PCIe Gen4 x16 雙向 64GB/s,單向 32GB/s; -
平均每個(gè) GPU 一個(gè)單向 200Gbps 網(wǎng)口,單向折算 25GB/s; -
需要 NCCL 支持,官方說(shuō)新版本 NCCL 正在針對(duì) L40S 適配,默認(rèn)行為就是去外面繞一圈回來(lái);
-
任何兩片 GPU 的通信帶寬和延遲都是一樣的,是否在一臺(tái)機(jī)器內(nèi)或一片 CPU 下面并不重要,集群可以橫向擴(kuò)展(scaling up,compared with scaling in); -
GPU 機(jī)器成本降低;但其實(shí)對(duì)于那些對(duì)網(wǎng)絡(luò)帶寬要求沒(méi)那么高的業(yè)務(wù)來(lái)說(shuō),是把 NVLINK 的成本轉(zhuǎn)嫁給了網(wǎng)絡(luò),這時(shí)候必須要組建 200Gbps 網(wǎng)絡(luò),否則發(fā)揮不出 L40S 多卡訓(xùn)練的性能。
-
L40S:200Gbps(網(wǎng)卡單向線速) -
A100:300GB/s(NVLINK3 單向) == 12x200Gbps -
A800:200GB/s(NVLINK3 單向) == 8x200Gbps
測(cè)試注意事項(xiàng)
-
Arm架構(gòu)升級(jí),v9與v8版本有何差異? -
從X86到ARM,跨越CPU架構(gòu)鴻溝 -
走進(jìn)芯時(shí)代:AI算力GPU行業(yè)深度報(bào)告 -
高性能計(jì)算:RoCE技術(shù)分析及應(yīng)用
-
高性能計(jì)算:談?wù)劚缓鲆暤膰?guó)之重器
-
高性能計(jì)算:RoCE v2 vs. InfiniBand網(wǎng)絡(luò)該怎么選?
-
高性能網(wǎng)絡(luò)全面向RDMA進(jìn)軍
全店內(nèi)容持續(xù)更新,現(xiàn)下單“架構(gòu)師技術(shù)全店資料打包匯總(全)”一起發(fā)送“服務(wù)器基礎(chǔ)知識(shí)全解(終極版)”和“存儲(chǔ)系統(tǒng)基礎(chǔ)知識(shí)全解(終極版)”pdf及ppt版本,后續(xù)可享全店內(nèi)容更新“免費(fèi)”贈(zèng)閱,價(jià)格僅收249元(原總價(jià)399元)。
溫馨提示:
掃描二維碼關(guān)注公眾號(hào),點(diǎn)擊閱讀原文鏈接獲取“架構(gòu)師技術(shù)全店資料打包匯總(全)”電子書(shū)資料詳情。
