模型變革:從云到端,云端融合(2024)
共 4391字,需瀏覽 9分鐘
·
2024-06-22 09:07
本文參考自“模型變革:云端融合為趨勢(2024)”,從GPT-1到GPT-5,GPT模型的智能化程度不斷提升。ChatGPT在擁有3000億單詞的語料基礎(chǔ)上預(yù)訓(xùn)練出擁有1750億個(gè)參數(shù)的模型(GPT-2僅有15億參數(shù)),預(yù)訓(xùn)練數(shù)據(jù)量從5GB增加到45TB。
AI對云廠商資本開支需求的拉動(dòng)始于2023年四季度,據(jù)一季度各大云廠商的資本開支及指引,預(yù)計(jì)2024年北美云商資本開支有望重回高速增長態(tài)勢。
Transformer算力需求在2年內(nèi)增長750倍,平均每年以接近10倍的速度增長;英偉達(dá)平均每2年左右推出一代加速卡,從A系列到B系列的升級節(jié)奏來看,每一代產(chǎn)品算力提升幅度在3倍左右,價(jià)格提升幅度比算力提升幅度略低。綜合大模型的參數(shù)增長和算力的單位價(jià)格來看,過去5年大模型訓(xùn)練對資本開支的需求持續(xù)快速提升,未來大模型參數(shù)的持續(xù)提升仍將帶動(dòng)算力需求激增。
在生成式AI場景下,模型訓(xùn)練和推理所需的算力與參數(shù)大小成正相關(guān)。
1)訓(xùn)練所需的算力和模型參數(shù)以及訓(xùn)練集大小(Token)數(shù)量成正比;
2)推理所需的算力和模型參數(shù),回答大小,以及訪問量成正比關(guān)系。
當(dāng)前大模型參數(shù)仍以較快速度增長,后續(xù)將推出的GPT-5模型,參數(shù)有望達(dá)到十萬億量級,有望引起大模型以及云廠商在算力領(lǐng)域的新一輪競賽,拉動(dòng)下游算力需求。
AI大模型的算力需求在過去幾年呈現(xiàn)快速增長的態(tài)勢,Transformer算力需求在2年內(nèi)增長750倍,平均每年以接近10倍的速度增長。以O(shè)penAI的GPT為例,GPT 1在2018年推出,參數(shù)量級為1億個(gè),Open AI下一代推出的GPT 5參數(shù)量級預(yù)計(jì)達(dá)到10萬億。
算力是加速卡的核心性能指標(biāo)。AI芯片算力根據(jù)精度有所差異,一般神經(jīng)網(wǎng)絡(luò)的標(biāo)準(zhǔn)訓(xùn)練精度是32位浮點(diǎn)數(shù),但有時(shí)為了節(jié)省時(shí)間和資源,也可以使用16位浮點(diǎn)數(shù)進(jìn)行訓(xùn)練,推理時(shí)對算力精度的要求相對較低,而對功耗、推理成本、響應(yīng)速度等要求較高,通常采用INT8算力。
英偉達(dá)的加速卡在算力方面仍處于行業(yè)領(lǐng)先地位,最新一代Blackwell平臺(tái)加速卡不僅在8~32位推理算力中顯著超過競爭對手,還額外提供了FP4算力用于低精度的推理場景。
其他廠商來看,AMD在算力方面與英偉達(dá)最為接近,并且在FP64算力上超越英偉達(dá)最新一代的產(chǎn)品,更適合用于科學(xué)計(jì)算的場景。而目前其他的互聯(lián)網(wǎng)公司自研加速卡與英偉達(dá)仍有較大差距。
英偉達(dá)的NV Link和NV Switch保持著2年一代的升級節(jié)奏,目前NV Link帶寬已達(dá)到1.8TB/s的雙向互聯(lián),在市面上處于領(lǐng)先地位。
競爭對手的情況來看,AMD和谷歌的片間互聯(lián)帶寬分別達(dá)到了896GB/s和600GB/s,與英偉達(dá)的上一代H系列產(chǎn)品較為接近,而其他云廠商自研加速卡大多采用PCIe通信協(xié)議,在片間互聯(lián)能力方面與英偉達(dá)仍有較大的差距。
據(jù)TechInsights,2023年英偉達(dá)占全球數(shù)據(jù)中心GPU出貨量份額的98%,處于壟斷地位。
同時(shí),AMD、谷歌、特斯拉等廠商相繼推出MI300系列、TPU V5以及Dojo D1等產(chǎn)品,挑戰(zhàn)英偉達(dá)的壟斷地位,盡管2024年4月英偉達(dá)推出的B系列加速卡再一次在算力方面與競爭對手甩開差距,但當(dāng)前全球加速卡市場競爭者不斷增加已成定局。
國內(nèi)市場方面,伴隨美國禁令趨嚴(yán),2023年10月17日美國商務(wù)部公布算力芯片出口管制新規(guī),A100、H100、A800、H800、L40、L40S等芯片進(jìn)入管制名單,同時(shí)國內(nèi)昇騰、寒武紀(jì)等龍頭廠商產(chǎn)品能力不斷追趕海外龍頭,AI芯片國產(chǎn)化成為大趨勢。
英偉達(dá)自2020年以來,平均每2年推出一代產(chǎn)品,每一代產(chǎn)品在算力、互聯(lián)帶寬等指標(biāo)方面的提升幅度均在一倍左右。
訓(xùn)練卡方面,除了英偉達(dá)常規(guī)的H100、B100等加速卡外,H系列以后,英偉達(dá)還增加了H200、B200等產(chǎn)品,從而給客戶提供更多的產(chǎn)品選擇和更好的性價(jià)比,例如H200加速卡在HBM容量方面相較于H100均有較大提升,但價(jià)格方面提升幅度相對較少。
推理卡方面,2024年英偉達(dá)的產(chǎn)品出貨以L40和L40S為主,并且推出了L20,L2,L4等產(chǎn)品供客戶選擇。
2023年12月,谷歌推出面向云端的AI加速卡TPU v5p,相較于TPU V4,TPU v5p提供了二倍的浮點(diǎn)運(yùn)算能力和三倍內(nèi)存帶寬提升,芯片間的互聯(lián)帶寬最高可以達(dá)到600GB/s。其他云廠商也紛紛推出自研加速卡計(jì)劃。
1)Meta:2023年,Meta宣布自研MTIA v1芯片,2024年4月,Meta發(fā)布最新版本MTIA v2加速卡;
2)微軟:微軟Azure的企業(yè)數(shù)量已經(jīng)達(dá)到25萬家,微軟的Maia 100在2023年推出,專為Azure云服務(wù)設(shè)計(jì);
3)亞馬遜:2023年,亞馬遜推出了用于訓(xùn)練的Trainium2加速卡,以及用于推理的Graviton4加速卡,目前亞馬遜在訓(xùn)練和推理卡均有布局。
以AMD的MI300X為例,這顆加速卡在Int8、FP16、FP32算力方面均為H100的1.3倍,互聯(lián)帶寬方面達(dá)到了接近于NV Link4.0的896GB/s雙向互聯(lián),F(xiàn)P64算力和HBM容量更是達(dá)到了H100的2倍以上,一系列的堆料和價(jià)格優(yōu)勢使得下游云廠商考慮轉(zhuǎn)用一部分AMD的產(chǎn)品。
相較于H100,H200將此前的HBM3提升為HBM3E,同時(shí)將HBM容量從上一代的80GB提升至141GB。在價(jià)格方面,H200相較于上一代產(chǎn)品體現(xiàn)出極強(qiáng)的性價(jià)比,該款加速卡發(fā)售后預(yù)計(jì)將受到下游客戶的歡迎。英偉達(dá)的下一代Blackwell GPU系列產(chǎn)品,在算力、內(nèi)存和互聯(lián)帶寬的AI三要素領(lǐng)域與競爭對手的差距進(jìn)一步拉開,鞏固了英偉達(dá)的領(lǐng)先地位。
GB200 NVL72顯著拉開了英偉達(dá)與其競爭對手的差距。英偉達(dá)通過架構(gòu)的創(chuàng)新,解決了GPU之間互聯(lián)帶寬的問題,實(shí)現(xiàn)了最多576張卡1.8TB/s的雙向互聯(lián)帶寬,顯著領(lǐng)先其他競爭對手,使得GB200 NVL72的推理性能達(dá)到H100的30倍。
1)從性價(jià)比來看:NVL 72的集群規(guī)模增大,一方面節(jié)省了除算力芯片以外的系統(tǒng)成本,另一方通過提升產(chǎn)品性能,間接提升了下游客戶購買的算力性價(jià)比。
2)從片間互聯(lián)能力來看:市場上主流的AI服務(wù)器仍然是傳統(tǒng)的8卡服務(wù)器架構(gòu),而伴隨Blackwell平臺(tái)推出的最多可以支持576卡互聯(lián),片間互聯(lián)數(shù)量和帶寬的提升極大改善了英偉達(dá)平臺(tái)的推理和訓(xùn)練性能。
GB200 NVL72 Rack內(nèi)部的GPU之間的互聯(lián),英偉達(dá)采用了高速銅纜的方案,優(yōu)點(diǎn)包括:
1)成本低——相較于光模塊,高速銅纜在相同成本的情況下可以提供更高的互聯(lián)帶寬,從而提升Rack的推理以及訓(xùn)練效率;
2)功耗低——采用銅互聯(lián)方案可以節(jié)省光電轉(zhuǎn)換產(chǎn)生的能量損耗,同時(shí)也降低了散熱問題;
3)故障率低——光模塊每年有2%-5%的損壞率,而銅連接更加穩(wěn)定。
除了GPU之間,Compute Tray內(nèi)部以及Rack之間也可以采用銅互連的方案。在英偉達(dá)的高速銅纜解決方案中,Compute Tray內(nèi)部采用跳線對GPU、網(wǎng)卡等產(chǎn)品進(jìn)行互聯(lián);同時(shí)多個(gè)Rack之間也可以采用銅纜的方案,GB200的Rack架構(gòu)下,銅互連方案最多可以在8個(gè)Rack之間實(shí)現(xiàn)576卡的高速互聯(lián)。
中國交換機(jī)行業(yè)短報(bào)告(行業(yè)概況、分類、架構(gòu)、市場規(guī)模、競爭格局 、產(chǎn)業(yè)鏈等)
-
InfiniBand高性能網(wǎng)絡(luò)設(shè)計(jì)概述
-
面向E級計(jì)算的4款高性能處理器概述
-
基于鯤鵬處理器的高性能計(jì)算實(shí)踐
-
高性能計(jì)算關(guān)鍵組件核心知識
-
一文全解高性能制造仿真技術(shù)
-
高性能計(jì)算:RoCE技術(shù)分析及應(yīng)用
-
高性能計(jì)算:談?wù)劚缓鲆暤膰仄?/span>
-
高性能計(jì)算:RoCE v2 vs. InfiniBand網(wǎng)絡(luò)該怎么選?
-
高性能網(wǎng)絡(luò)全面向RDMA進(jìn)軍
轉(zhuǎn)載申明:轉(zhuǎn)載本號文章請注明作者和來源,本號發(fā)布文章若存在版權(quán)等問題,請留言聯(lián)系處理,謝謝。
推薦閱讀
更多架構(gòu)相關(guān)技術(shù)知識總結(jié)請參考“架構(gòu)師全店鋪技術(shù)資料打包(全)”相關(guān)電子書(41本技術(shù)資料打包匯總詳情可通過“閱讀原文”獲取)。
全店內(nèi)容持續(xù)更新,現(xiàn)下單“架構(gòu)師技術(shù)全店資料打包匯總(全)”一起發(fā)送“服務(wù)器基礎(chǔ)知識全解(終極版)”和“存儲(chǔ)系統(tǒng)基礎(chǔ)知識全解(終極版)”pdf及ppt版本,后續(xù)可享全店內(nèi)容更新“免費(fèi)”贈(zèng)閱,價(jià)格僅收249元(原總價(jià)399元)。
溫馨提示:
掃描二維碼關(guān)注公眾號,點(diǎn)擊閱讀原文鏈接獲取“架構(gòu)師技術(shù)全店資料打包匯總(全)”電子書資料詳情。
