全球最強開源模型一夜易主,1320億參數(shù)推理飆升2倍!
共 8987字,需瀏覽 18分鐘
·
2024-04-02 12:52
新智元報道
新智元報道
【新智元導(dǎo)讀】就在剛剛,全球最強開源大模型王座易主,創(chuàng)業(yè)公司Databricks發(fā)布的DBRX,超越了Llama 2、Mixtral和Grok-1。MoE又立大功!這個過程只用了2個月,1000萬美元,和3100塊H100。
全球最強開源模型,一夜易主!
剛剛,超級獨角獸Databricks重磅推出1320億參數(shù)的開源模型——DBRX。
它采用了細(xì)粒度MoE架構(gòu),而且每次輸入僅使用360億參數(shù),實現(xiàn)了更快的每秒token吞吐量。
這種獨特的MoE架構(gòu),讓DBRX成為開源模型的SOTA,推理速度比LLaMA 2-70B快了2倍!
最重要的是,訓(xùn)練成本直接砍半!只用了1000萬美元和3100塊H100,Databricks就在2個月內(nèi)肝出了DBRX。
比起Meta開發(fā)Llama2所用的成本和芯片,這只是很小一部分。
DBRX在語言理解、編程、數(shù)學(xué)和邏輯方面輕松擊敗了開源模型LLaMA2-70B、Mixtral,以及Grok-1。
甚至,DBRX的整體性能超越GPT-3.5。尤其在編程方面,完全擊敗了GPT-3.5。
并且,DBRX還為開放社區(qū)和企業(yè)提供了僅限于封閉模型的API功能。現(xiàn)在,基本模型(DBRX Base)和微調(diào)模型(DBRX Instruct)的權(quán)重,已經(jīng)在Hugging Face開放許可了。
從今天開始,Databricks客戶就可以通過API使用DBRX。它在Macbook Pro上都可跑,LLM很快能為個人設(shè)備提供支持了。
Pytorch之父Soumith Chintala對最新開源模型DBRX也是非常看好。
從Mistral、到Grok-1,再到DBRX,MoE架構(gòu)的模型正在占領(lǐng)開源界。
而Databricks的員工激動地表示,過去3個月,朋友們周末約我都說「不行,這周不行我有事,但是又不能說有啥事」的日子終于結(jié)束了,DBRX就是我們加班加點搞出來的一頭「怪獸」。
還有網(wǎng)友表示,「如果實驗室繼續(xù)開源大型MoE模型,英偉達可能就需要推出最強Blackwell架構(gòu)的消費級GPU了」。
全球最強開源模型易主
DBRX是一種基于Transformer純解碼器的大模型,同樣采用下一token預(yù)測進行訓(xùn)練。
它采用的是細(xì)粒度專家混合(MoE)架構(gòu),也就是具有更多的專家模型。
是的,這次立大功的,依然是MoE。在MoE中,模型的某些部分會根據(jù)查詢的內(nèi)容啟動,這就大大提升了模型的訓(xùn)練和運行效率。
DBRX大約有1320億個參數(shù),Llama 2有700億個參數(shù),Mixtral 有450億個,Grok有3140億個。
但是,DBRX處理一個典型查詢,平均只需激活約360億個參數(shù)。
這就提高了底層硬件的利用率,將將訓(xùn)練效率提高了30%到50%。不僅響應(yīng)速度變快,還能減少所需的能源。
而與Mixtral、Grok-1等其他開源MoE模型相比,DBRX使用了更多的小型專家。
具體來說,DBRX有16個不同的專家,在每層為每個token選擇4個專家。Mixtral和Grok-1有8個專家,一個路由網(wǎng)絡(luò)在每層為每個token選擇2個專家。
顯然,DBRX提供了65倍的專家組合可能性,能夠顯著提升模型質(zhì)量。
此外,DBRX還使用了旋轉(zhuǎn)位置編碼(RoPE)、門控線性單元(GLU)和分組查詢注意力(GQA),并使用tiktoken存儲庫中提供的GPT-4分詞器。
DBRX模型在12萬億Token的文本和代碼進行預(yù)訓(xùn)練,支持的最大上下文長度為32k。
研究人員估計,這些數(shù)據(jù)比用來預(yù)訓(xùn)練MPT系列模型的數(shù)據(jù)至少好2倍。
這個新的數(shù)據(jù)集,使用全套數(shù)據(jù)庫工具開發(fā),包括用于數(shù)據(jù)處理的ApacheSpark?和Databricks筆記本,用于數(shù)據(jù)管理和治理的Unity Catalog,以及用于實驗追蹤的MLFlow。
團隊使用了「課程學(xué)習(xí)」(curriculum learning)進行預(yù)訓(xùn)練,并在訓(xùn)練過程中改變數(shù)據(jù)組合,大大提高了模型質(zhì)量。
那么,DBRX究竟表現(xiàn)如何?
擊敗2.4倍參數(shù)Grok-1
如下表1,在綜合基準(zhǔn)、編程和數(shù)學(xué)基準(zhǔn)以及MMLU上,DBRX Instruct刷新了開源AI的SOTA。
綜合基準(zhǔn)
研究人員在兩個綜合基準(zhǔn)上對DBRX Instruct和其他開源模型進行了評估,一個是Hugging Face的Open LLM Leaderboard,另一個是Databricks Model Gauntlet。
Databricks Model Gauntlet由30多項任務(wù)組成,涵蓋了6個類別:世界知識、常識推理、語言理解、閱讀理解、符號問題解決和編程。
就綜合基準(zhǔn)來看,DBRX Instruct超越了所有聊天、指令調(diào)優(yōu)的模型。
編程和數(shù)學(xué)基準(zhǔn)
DBRX Instruct在編程和數(shù)學(xué)方面尤為突出。
它在HumanEval以及GSM8k上,得分均高于其他開源模型。
在編程基準(zhǔn)上,DBRX Instruct得分為70.1%,Grok-1為63.2%,LLaMA2-70B Chat為32.2%。在數(shù)學(xué)基準(zhǔn)上,DBRX Instruct為66.9%,Grok-1為62.9%,LLaMA2-70B Base為54.1%。
盡管Grok-1的參數(shù)是DBRX的2.4倍,但DBRX在編程和數(shù)學(xué)方面的性能,均超越了排名第二的Grok-1。
在HumanEval上,DBRX Instruct(70.1%)甚至超過了CodeLLaMA-70B Instruct(67.8%),這是一個專門為編程構(gòu)建的模型。
在語言理解測試基準(zhǔn)MMLU方面,DBRX Instruct得分高于所有模型,為73.7%。
全面超越GPT-3.5
另外,與閉源模型GPT-3.5相比,DBRX Instruct的性能全面超越了它,還可與Gemini 1.0 Pro和Mistral Medium相較量。
具體來說,DBRX Instruct在MMLU的常識知識(73.7% vs. 70.0%)、常識推理HellaSwg(89.0% vs. 85.5%)和WinoGrand(81.8% vs. 81.6%)方面優(yōu)于GPT-3.5。
在HumanEval(70.1% vs. 48.1%)和GSM8k(72.8% vs. 57.1%)的測試中,DBRX同樣在編程和數(shù)學(xué)推理方面尤其出色。
此外,在Inflection Corrected MTBench、MMLU、HellaSwag以及HumanEval基準(zhǔn)上,DBRX Instruct的得分高于Gemini 1.0 Pro。
不過,Gemini 1.0 Pro在GSM8k的表現(xiàn)上,明顯更強。
在HellaSwag基準(zhǔn)上,DBRX Instruct和Mistral Medium得分相似,而Winogrande和MMLU基準(zhǔn)上,Mistral Medium更強。
另外,在HumanEval、GSM8k、以及Inflection Corrected MTBench基準(zhǔn)上,DBRX Instruct取得了領(lǐng)先優(yōu)勢。
在Databricks看來,開源模型擊敗閉源模型非常重要。
在上個季度,團隊成員看到自家12,000多名客戶群重大轉(zhuǎn)變,即將專有模型替換為開源模型,以提高效率。
現(xiàn)在,許多客戶可以通過定制開源模型來完成特定任務(wù),從而在質(zhì)量和速度上超越專有模型。
DBRX的推出,就是為了加速這個過程。
長上下文任務(wù)質(zhì)量和RAG
DBRX Instruct采用高達32K token上下文進行了訓(xùn)練。
表3比較了它與Mixtral Instruct,以及最新版本的GPT-3.5 Turbo和GPT-4 Turbo API,在一套長上下文基準(zhǔn)測試上的性能。
毫無疑問,GPT-4Turbo是執(zhí)行這些任務(wù)的最佳模型。
但是,除了一個例外,DBRX Instruct在所有上下文長度和序列的所有部分的表現(xiàn),都優(yōu)于GPT-3.5 Turbo。
DBRX Instruct和Mixtral Instruct的總體性能相似。
利用模型上下文的最常見的方法之一是,檢索增強生成(RAG)。
在RAG中,從數(shù)據(jù)庫中檢索與提示相關(guān)的內(nèi)容,并與提示一起呈現(xiàn),從而為模型提供更多信息。
表4顯示了DBRX在兩個RAG基準(zhǔn)測試——Natural Questions和HotPotQA上的質(zhì)量。
DBRX Instruct與Mixtral Instruct和LLaMA2-70B Chat等開源模型,以及GPT-3.5 Turbo相比,具有很強的競爭力。
訓(xùn)練效率是非MoE模型兩倍
模型質(zhì)量必須放在模型的訓(xùn)練和使用效率的上下文中,在Databricks尤其如此,
研究人員發(fā)現(xiàn)訓(xùn)練MoE模型在訓(xùn)練的計算效率方面,提供了實質(zhì)性的改進(表5)。
比如,訓(xùn)練DBRX系列中較小的成員DBRX MoE-B(總參數(shù)為23.5B,活躍參數(shù)為6.6B)所需的Flop比LLaMA2-13B少1.7倍,才能在Databricks LLM Gauntlet上達到45.5%的得分。
DBRX MOE-B包含的有效參數(shù)也是LLaMA2-13B的一半。
從整體上看,端到端LLM預(yù)訓(xùn)練pipeline,在過去十個月中的計算效率提高了近4倍。
2023年5月5日,Databricks發(fā)布了MPT-7B,這是一個在1T token上訓(xùn)練的7B參數(shù)模型,在Databricks LLM Gauntlet上得分為30.9%。
DBRX系列中名為DBRX MoE-A的(總參數(shù)為7.7B,活躍參數(shù)為2.2B)得分為30.5%,而FLOPS減少了3.7倍。
這種效率是一系列改進的結(jié)果,包括使用MoE架構(gòu)、網(wǎng)絡(luò)的其他架構(gòu)更改、更好的優(yōu)化策略、更好的分詞,以及更好的預(yù)訓(xùn)練數(shù)據(jù)。
單獨來看,更好的預(yù)訓(xùn)練數(shù)據(jù)對模型質(zhì)量有很大的影響。
研究人員使用DBRX預(yù)訓(xùn)練數(shù)據(jù)在1T token(稱為DBRX Dense-A)上訓(xùn)練了7B模型。在Databricks Gauntlet上得分39.0%,而MPT-7B為30.9%。
研究者估計,全新的預(yù)訓(xùn)練數(shù)據(jù)至少比用于訓(xùn)練MPT-7B的數(shù)據(jù)高出2倍。
換句話說,要達到相同的模型質(zhì)量,所需的token數(shù)要少一半。
進而,研究人員通過在500B token上訓(xùn)練DBRX Dense-A確定了這一點。
它在Databricks Gauntlet上的表現(xiàn)優(yōu)于MPT-7B,達到32.1%。
除了更好的數(shù)據(jù)質(zhì)量外,token效率提高的另一個重要原因可能是GPT-4分詞器。
推理效率
總體而言,MoE模型的推理速度,它們的總參數(shù)所顯示的要快。這是因為它們對每個輸入使用的參數(shù)相對較少。
DBRX推理吞吐量是132B非MoE模型的2-3倍。
推理效率和模型質(zhì)量通常是相互矛盾的:模型越大通常質(zhì)量越高,但模型越小推理效率越高。
使用MoE架構(gòu)可以在模型質(zhì)量和推理效率之間,實現(xiàn)比密集模型更好的平衡。
通過Mosaic AI Model Serving測量,DBRX生成速度明顯快于LLaMA2-70B
比如,DBRX的質(zhì)量比LLaMA2-70B更高,而且由于活躍參數(shù)量大約是LLaMA2-70B的一半,DBRX推理吞吐量最多可快2倍。
Mixtral是MoE模型改進的「帕累托最優(yōu)」(pareto frontier)另一個點:它比DBRX小,質(zhì)量相對較低,但實現(xiàn)了更高的推理吞吐量。
在優(yōu)化的8位量化模型服務(wù)平臺上,Databricks Foundation Model API推理吞吐量每秒多達150個token。
企業(yè)免費用
企業(yè)可以在Databricks平臺上訪問DBRX,能在RAG系統(tǒng)中利用長上下文功能,還可以在自己的私有數(shù)據(jù)上構(gòu)建定制的DBRX模型。
而開源社區(qū)可以通過GitHub存儲庫和Hugging Face訪問DBRX。
項目地址:https://github.com/databricks/dbrx
項目地址:https://huggingface.co/databricks
因為DATABricks是完全基于數(shù)據(jù)庫來構(gòu)建DBRX的,因此每個企業(yè)用戶都可以使用相同的工具和技術(shù)來創(chuàng)建或改進自己的定制化模型。
用戶可以通過Unity Catalog中集中管理訓(xùn)練數(shù)據(jù),使用ApacheSpark和Lilac AI提供的工具和服務(wù)進行處理和清理。
大規(guī)模的模型訓(xùn)練和微調(diào)由DataBricks前不久剛剛收購的Mosaic AI提供的服務(wù)。
對齊問題,也可以通過的他們的平臺和服務(wù)解決。
納斯達克,埃森哲等客戶和合作伙伴已經(jīng)用上了這一套服務(wù)和工具。
收購估值13億公司,2個月肝出來
外媒Wired的一篇報道,為我們詳述了世界最強開源模型的誕生過程。
此前,Databricks在業(yè)界已經(jīng)小有名聲。
在本周一,Databricks的十幾位工程師和高管,在會議室等待著最終的結(jié)果——
團隊花費了數(shù)月時間,投入了大概1000萬美元訓(xùn)練的LLM,會取得怎樣的成績?
顯然,能力測試最終結(jié)果出來之前,他們并不知道自己創(chuàng)造的模型有這么強大。
「我們超越了所有模型!」隨著首席神經(jīng)網(wǎng)絡(luò)架構(gòu)師、DBRX團隊負(fù)責(zé)人Jonathan Frankle宣布這一結(jié)果,成員們爆發(fā)出熱烈的歡呼和喝彩聲。
Databrick的決策者:Jonathan Frankle,Naveen Rao, Ali Ghodsi,Hanlin Tang
是的,DBRX就是這樣超越了Llama 2、Mixtral這兩個如今最流行的開源模型。
甚至馬斯克的xAI最近開源的Grok AI,也被DBRX打敗了。
Frankle開玩笑說:如果收到馬斯克發(fā)出的一條刻薄的推特,我們就鐵定成功了。
最令團隊感到驚訝的是,DBRX在多項指標(biāo)上甚至接近了GPT-4這個機器智能的巔峰之作。
毫無疑問,DBRX現(xiàn)在為開源LLM設(shè)立了全新的技術(shù)標(biāo)準(zhǔn)。
獨角獸重振開源界
通過開源DBRX,Databricks進一步推動了開源運動,加入了Meta對抗OpenAI和谷歌的開源大潮。
不過,Meta并沒有公布Llama 2模型的一些關(guān)鍵細(xì)節(jié),而Databricks會將最后階段做出關(guān)鍵決策的過程全部公開,要知道,訓(xùn)練DBRX的過程,耗費了數(shù)百萬美元。
艾倫人工智能研究所的CEO AliFarhadi表示,AI模型的構(gòu)建和訓(xùn)練,亟需更大的透明度。
Databricks有理由選擇開源。盡管谷歌等巨頭過去一年里部署了AI,但行業(yè)內(nèi)的許多大公司,還還沒有在自己是數(shù)據(jù)上廣泛使用大模型。
在Databricks看來,金融、醫(yī)藥等行業(yè)的公司渴望類似ChatGPT的工具,但又擔(dān)心將敏感數(shù)據(jù)發(fā)到云上。
而Databricks將為客戶定制DBRX,或者從頭為他們的業(yè)務(wù)量身定做。對于大公司來說,構(gòu)建DBRX這種規(guī)模模型的成本非常合理。
「這就是我們的大商機。」
為此,Databricks去年7月收購了初創(chuàng)公司MosaicML,引入了Frankle在內(nèi)的多名技術(shù)人才。此前,兩家公司內(nèi)都沒人構(gòu)建過如此大的模型。
內(nèi)部運作
Databricks首席執(zhí)行官Ali Ghodsi
OpenAI等公司,執(zhí)著地追求更大的模型。但在Frankle看來,LLM重要的不僅僅是規(guī)模。
怎樣讓成千上萬臺計算機通過交換機和光纜巧妙地連接在一起并且運轉(zhuǎn)起來,尤其具有挑戰(zhàn)性。
而MosailML公司的員工,都是這門晦澀學(xué)問的專家,因此Databrick去年收購它時,對它的估值高達13億美元。
另外,數(shù)據(jù)對最終結(jié)果也有很大影響,或許也是因此,Databricks并沒有公開數(shù)據(jù)細(xì)節(jié),包括數(shù)據(jù)的質(zhì)量、清洗、過濾和預(yù)處理。
Databricks副總裁、MosaicML創(chuàng)始人兼CEO Naveen Rao表示:「你幾乎可以認(rèn)為,這是模型質(zhì)量的重中之重。」
價值數(shù)百萬美元的問題
有時候,訓(xùn)練一個龐大AI模型的過程不僅考驗技術(shù),還牽涉到情感上的抉擇。
兩周前,Databricks的團隊就遇到了一個涉及數(shù)百萬美元的棘手問題:如何充分利用模型的潛能。
在租用的3072個強大英偉達H100 GPU上訓(xùn)練模型兩個月后,DBRX在多個基準(zhǔn)測試中已經(jīng)取得了卓越的成績。但很快,他們可以使用的時間只剩下了最后一周。
團隊成員在Slack上互拋主意,其中一個提議是制作一個專門生成計算機代碼的模型版本,或者是一個小型版本供業(yè)余愛好者嘗試。
團隊還考慮了不再增加模型的大小,轉(zhuǎn)而通過精心挑選的數(shù)據(jù)來提升模型在特定功能上的表現(xiàn),這種方法稱為課程學(xué)習(xí)。
或者,他們可以繼續(xù)按原計劃擴大模型的規(guī)模,希望使其變得更加強大。
最后這種做法被團隊成員親切地稱為「隨它去」選項,似乎有人對此格外情有獨鐘。
雖然討論過程中大家都保持了友好,但隨著各位工程師為自己青睞的方案力爭上游,激烈的觀點交鋒不可避免。
最終,F(xiàn)rankle巧妙地將團隊的方向引向了以數(shù)據(jù)為中心的方法(課程學(xué)習(xí))。兩周后,這個決定顯然帶來了巨大的回報。
然而,對于項目的其他預(yù)期成果,F(xiàn)rankle的判斷就沒那么準(zhǔn)確了。
他原本認(rèn)為DBRX在生成計算機代碼方面不會有特別突出的表現(xiàn),因為團隊并沒有將重點放在這一領(lǐng)域。
他甚至信心滿滿地表示,如果自己判斷錯誤,就會把頭發(fā)染成藍色。
然而,周一的結(jié)果卻顯示,DBRX在標(biāo)準(zhǔn)的編碼基準(zhǔn)測試上勝過了所有其他開源AI模型。
「我們的模型代碼能力非常強。」他在周一的成果發(fā)布會上說道,「我已經(jīng)預(yù)約了今天去染發(fā)。」
風(fēng)險評估
最后還有一個問題,就是開源模型的風(fēng)險。
DBRX是迄今最強的開源大模型,任何人都可以使用或修改。
這是否會帶來不可預(yù)知的風(fēng)險,比如被網(wǎng)絡(luò)犯罪或者生化武器濫用?
Databricks表示,已經(jīng)對模型進行了全面的安全測試。
Eleuther AI的執(zhí)行主任Stella Biderman說,幾乎沒有證據(jù)表明開源會增加安全風(fēng)險。「我們并沒有特別的理由相信,開放模型會比現(xiàn)有的封閉模型大幅增加風(fēng)險。」
此前,EleutherAI曾與Mozilla以及其他約50個組織和學(xué)者一道,向美國商務(wù)部長雷蒙多發(fā)出了一封公開信,要求她確保未來的人工智能監(jiān)管為開源AI項目留出足夠的發(fā)展空間。
信中專家們相信,AI開源有利于經(jīng)濟增長,因為它們有助于初創(chuàng)企業(yè)和小企業(yè)接觸到這項突破性的進展,還有助于加速科學(xué)研究。
而這也是Databricks希望DBRX能夠做出的貢獻。
Frankle說,DBRX 除了為其他人工智能研究人員提供了一個新的模型和構(gòu)建自己模型的有用技巧外,還有助于加深對AI實際工作原理的理解。
Databricks團隊計劃研究模型在訓(xùn)練的最后階段是如何變化的,也許能揭示一個強大的模型是如何涌現(xiàn)出額外能力的。
