Mamba超強(qiáng)進(jìn)化體一舉顛覆Transformer!單張A100跑140K上下文
共 4326字,需瀏覽 9分鐘
·
2024-04-02 12:52
新智元報(bào)道
新智元報(bào)道
【新智元導(dǎo)讀】52B的生產(chǎn)級(jí)Mamba大模型來了!這個(gè)超強(qiáng)變體Jamba剛剛打破世界紀(jì)錄,它能正面硬剛Transformer,256K超長上下文窗口,吞吐量提升3倍,權(quán)重免費(fèi)下載。
之前引爆了AI圈的Mamba架構(gòu),今天又推出了一版超強(qiáng)變體!
人工智能獨(dú)角獸AI21 Labs剛剛開源了Jamba,世界上第一個(gè)生產(chǎn)級(jí)的Mamba大模型!
Jamba在多項(xiàng)基準(zhǔn)測(cè)試中表現(xiàn)亮眼,與目前最強(qiáng)的幾個(gè)開源Transformer平起平坐。
特別是對(duì)比性能最好的、同為MoE架構(gòu)的Mixtral 8x7B,也互有勝負(fù)。
具體來說它——
是基于全新SSM-Transformer混合架構(gòu)的首個(gè)生產(chǎn)級(jí)Mamba模型
與Mixtral 8x7B相比,長文本處理吞吐量提高了3倍
實(shí)現(xiàn)了256K超長上下文窗口
是同等規(guī)模中,唯一一個(gè)能在單張GPU上處理140K上下文的模型
-
以Apache 2.0開源許可協(xié)議發(fā)布,開放權(quán)重
之前的Mamba因?yàn)楦鞣N限制,只做到了3B,還被人質(zhì)疑能否接過Transformer的大旗,而同為線性RNN家族的RWKV、Griffin等也只擴(kuò)展到了14B。
——Jamba這次直接干到52B,讓Mamba架構(gòu)第一次能夠正面硬剛生產(chǎn)級(jí)別的Transformer。
Jamba在原始Mamba架構(gòu)的基礎(chǔ)上,融入了Transformer的優(yōu)勢(shì)來彌補(bǔ)狀態(tài)空間模型(SSM)的固有局限性。
可以認(rèn)為,這實(shí)際上是一種新的架構(gòu)——Transformer和Mamba的混合體,最重要的是,它可以在單張A100上運(yùn)行。
它提供了高達(dá)256K的超長上下文窗口,單個(gè)GPU就可以跑140K上下文,而且吞吐量是Transformer的3倍!
LLM新里程碑
內(nèi)存占用量大:Transformer的內(nèi)存占用量隨上下文長度而擴(kuò)展。想要運(yùn)行長上下文窗口,或大量并行批處理就需要大量硬件資源,這限制了大規(guī)模的實(shí)驗(yàn)和部署。 隨著上下文的增長,推理速度會(huì)變慢:Transformer的注意力機(jī)制導(dǎo)致推理時(shí)間相對(duì)于序列長度呈平方增長,吞吐會(huì)越來越慢。因?yàn)槊總€(gè)token都依賴于它之前的整個(gè)序列,所以要做到超長上下文就變得相當(dāng)困難。
長上下文又出新選手
Jamba真正的獨(dú)特之處
雖然也有一些SSM模型的初步樣例,但Jamba是第一個(gè)生產(chǎn)規(guī)模的商業(yè)級(jí)模型。
