10萬億!達(dá)摩院發(fā)布全球最大AI預(yù)訓(xùn)練模型,能耗僅為GPT-3的1%

大數(shù)據(jù)文摘作品
11月8日,阿里巴巴達(dá)摩院公布多模態(tài)大模型M6最新進(jìn)展,其參數(shù)已從萬億躍遷至10萬億,規(guī)模遠(yuǎn)超谷歌、微軟此前發(fā)布的萬億級模型,成為全球最大的AI預(yù)訓(xùn)練模型。同時,M6做到了業(yè)內(nèi)極致的低碳高效,使用512 GPU在10天內(nèi)即訓(xùn)練出具有可用水平的10萬億模型。相比去年發(fā)布的大模型GPT-3,M6實現(xiàn)同等參數(shù)規(guī)模,能耗僅為其1%。
?
與傳統(tǒng)AI相比,大模型擁有成百上千倍“神經(jīng)元”數(shù)量,且預(yù)先學(xué)習(xí)過海量知識,表現(xiàn)出像人類一樣“舉一反三”的學(xué)習(xí)能力。因此,大模型被普遍認(rèn)為是未來的“基礎(chǔ)模型”,將成下一代AI基礎(chǔ)設(shè)施。然而,其算力成本相當(dāng)高昂,訓(xùn)練1750億參數(shù)語言大模型GPT-3所需能耗,相當(dāng)于汽車行駛地月往返距離。
?
今年5月,通過專家并行策略及優(yōu)化技術(shù),達(dá)摩院M6團隊將萬億模型能耗降低超八成、效率提升近11倍。10月,M6再次突破業(yè)界極限,通過更細(xì)粒度的CPU offload、共享-解除算法等創(chuàng)新技術(shù),讓收斂效率進(jìn)一步提升7倍,這使得模型規(guī)模擴大10倍的情況下,能耗未顯著增加。這一系列突破極大降低了大模型研究門檻,讓一臺機器訓(xùn)練出一個千億模型成為可能。
一、背景介紹
二、十萬億M6技術(shù)實現(xiàn)

相比此前的萬億參數(shù)M6,M6-10T的參數(shù)量是原先的10倍沒有顯著的資源增加(480 vs 512 GPU); 相比萬億參數(shù)M6,M6-10T在樣本量的維度上具有更快的收斂速度; 提出的共享解除機制將十萬億參數(shù)模型的訓(xùn)練速度提升7倍以上,并可廣泛應(yīng)用于其他同類大模型的訓(xùn)練。

三、M6能力再升級









四、M6服務(wù)化平臺發(fā)布


任務(wù)形式覆蓋廣:平臺可以覆蓋多模態(tài)(圖文)輸入輸出的常見任務(wù)。 高性能 & 簡單易用:用戶快速試用只需要準(zhǔn)備數(shù)據(jù)和簡單修改參數(shù),無需關(guān)注底層細(xì)節(jié);平臺底層實現(xiàn)集成系列優(yōu)化提升效率,其中包括自研MoE分組策略等。 下游任務(wù)內(nèi)源 + 支持自定義模型改造:用戶可以編寫自定義模型,只需開發(fā)少量接口。
五、大規(guī)模中文多模態(tài)評測基準(zhǔn)MUGE發(fā)布

六、潛在科學(xué)應(yīng)用方向
總結(jié)

評論
圖片
表情
