小模型狂飆!6家巨頭爭(zhēng)相發(fā)布小模型,Andrej Karpathy:大語(yǔ)言模型的尺寸競(jìng)爭(zhēng)正在倒退...
共 6225字,需瀏覽 13分鐘
·
2024-07-29 17:00
作者 | 21#
小模型(SLM),是相對(duì)于大語(yǔ)言模型(LLM)而言的,它們一般來(lái)說(shuō)具有較少的參數(shù)和較低的計(jì)算資源需求。
大語(yǔ)言模型的尺寸競(jìng)爭(zhēng)正在倒退... 我打賭我們會(huì)看到非常非常小的模型“思考”得非常好且可靠。很可能存在一個(gè)GPT-2參數(shù)的設(shè)置,大多數(shù)人會(huì)認(rèn)為GPT-2是“聰明的”。當(dāng)前模型如此大的原因是因?yàn)槲覀冊(cè)谟?xùn)練期間仍然非常浪費(fèi)——我們要求它們記住互聯(lián)網(wǎng),令人驚訝的是,它們確實(shí)做到了,并且可以例如背誦常見數(shù)字的SHA哈希值,或回憶非常深?yuàn)W的事實(shí)。(實(shí)際上,大語(yǔ)言模型在記憶方面非常出色,質(zhì)量上遠(yuǎn)勝于人類,有時(shí)只需要一次更新就能記住大量細(xì)節(jié),并且長(zhǎng)時(shí)間記?。?。但想象一下,如果你要在閉卷考試中背誦互聯(lián)網(wǎng)的任意段落,給出前幾個(gè)詞。這是當(dāng)今模型的標(biāo)準(zhǔn)(預(yù))訓(xùn)練目標(biāo)。更難的是,因?yàn)樗伎嫉难菔驹谟?xùn)練數(shù)據(jù)中是與知識(shí)“糾纏”的。 因此,模型必須先變大,然后才能變小,因?yàn)槲覀冃枰鼈儯ㄗ詣?dòng)化)的幫助將訓(xùn)練數(shù)據(jù)重構(gòu)和模塑成理想的、合成的格式。 這是一個(gè)改進(jìn)的階梯——一個(gè)模型幫助生成下一個(gè)模型的訓(xùn)練數(shù)據(jù),直到我們獲得“完美的訓(xùn)練集”。當(dāng)你在這個(gè)訓(xùn)練集上訓(xùn)練GPT-2時(shí),它將是一個(gè)非常強(qiáng)大且聰明的模型,以今天的標(biāo)準(zhǔn)來(lái)看。也許MMLU會(huì)低一些,因?yàn)樗粫?huì)完美記住所有的化學(xué)知識(shí)。也許它需要偶爾查找一些東西以確保準(zhǔn)確。
-
7月18日,OpenAI 發(fā)布了 GPT-4o mini:在MMLU(文本智能和推理基準(zhǔn)測(cè)試)中得分為82.0% -
7月18日,Apple發(fā)布了 DCLM 7B :真正的開源,性能碾壓 Mistral 7B -
7月18日,Mistral & Nvidia 發(fā)布了 NeMo 12B:性能優(yōu)于 Llama 3 8B, Gemma 2 9B -
7月16日,HuggingFace 發(fā)布了SmolLM - 135M、360M 和 1.7B:僅使用 650B 個(gè) token 進(jìn)行訓(xùn)練,擊敗Qwen 1.5B、Phi 1.5B -
7月17日,Groq 發(fā)布了 Llama 3 8B 和 70B 工具使用和函數(shù)調(diào)用模型:在 Berkely 函數(shù)調(diào)用排行榜 (BFCL) 上實(shí)現(xiàn)了 90.76% 的準(zhǔn)確率 -
7月19日,Salesforce 發(fā)布了 xLAM 1.35B 和 7B 大型動(dòng)作模型:7B 模型在 BFCL 上的得分為 88.24%, 2B為78.94%
OpenAI 發(fā)布 GPT-4o mini,主打?qū)嵒?/span>
Apple發(fā)布DCLM,數(shù)據(jù)、模型權(quán)重、訓(xùn)練代碼全開源!
https://huggingface.co/apple/DCLM-7B
數(shù)據(jù)集:
https://huggingface.co/datasets/mlfoundations/dclm-baseline-1.0
倉(cāng)庫(kù):
https://github.com/mlfoundations/dclm
Mistral&Nvidia 發(fā)布NeMo 12B,企業(yè)級(jí)人工智能!
https://huggingface.co/mistralai/Mistral-Nemo-Instruct-2407 https://huggingface.co/mistralai/Mistral-Nemo-Base-2407
HuggingFace 發(fā)布SmolLM - 135M、360M 和 1.7B,可在手機(jī)運(yùn)行!
https://top.aibase.com/tool/smollm
模型:
https://huggingface.co/blog/smollm
Groq發(fā)布Llama3函數(shù)調(diào)用專用模型,BFCL排名第一
https://huggingface.co/Groq/Llama-3-Groq-70B-Tool-Use
Salesforce 發(fā)布xLAM,自主計(jì)劃并執(zhí)行任務(wù)以實(shí)現(xiàn)特定目標(biāo)!
大型動(dòng)作模型 (LAMs) 是先進(jìn)的大型語(yǔ)言模型,旨在增強(qiáng)決策能力并將用戶意圖轉(zhuǎn)化為可執(zhí)行的操作,與現(xiàn)實(shí)世界進(jìn)行交互。
https://huggingface.co/collections/Salesforce/xlam-models-65f00e2a0a63bbcd1c2dade4
https://huggingface.co/datasets/Salesforce/xlam-function-calling-60k
AI未來(lái):向多元化方向發(fā)展
參考資料
[2]https://zhuanlan.zhihu.com/p/709968629
[3]https://finance.sina.com.cn/roll/2024-07-20/doc-inceufea4483904.shtml
[4]https://baijiahao.baidu.com/s?id=1804909497687646306&wfr=spider&for=pc
[5]https://wow.groq.com/introducing-llama-3-groq-tool-use-models/?continueFlag=48a4e33852a014bbc88ad384a1be9ff2
[6]https://x.com/reach_vb/status/1814244909680832941
[7]https://x.com/karpathy/status/1814038096218083497
評(píng)論
圖片
表情
