Llama 3.1要來啦?!測試性能戰(zhàn)勝GPT-4o
共 2344字,需瀏覽 5分鐘
·
2024-07-23 16:50
大數(shù)據(jù)文摘授權(quán)轉(zhuǎn)載自夕小瑤科技說
作者:海野
哎呀,Meta聲稱將于今晚發(fā)布的Llama 3.1,數(shù)小時前就在Hugging Face上泄露出來了?泄露的人很有可能是Meta員工?
還是先來看泄露出來的llama3.1吧。新的Llama 3.1模型包括8B、70B、405B三個版本。
而經(jīng)過網(wǎng)友測試,該base版模型在AI的基準(zhǔn)測試中有顯著進步,其性能可以超越當(dāng)前大模型天花板GPT-4o。而模型的instruct版本通常會更強,也許值得期待一手。
這一模型的問世,可能會成為AI歷史性的節(jié)點。它意味著開源模型首次在性能上,戰(zhàn)勝當(dāng)下最頂尖的閉源AI大模型(GPT-4o)。
不過GPT-4o好像也發(fā)布了很久了,我們一直沒能等來GPT5,甚至等來的只是個更便宜的縮水版GPT-4o mini。那就是OpenAI不夠努力咯。
128k上下文,15T+tokens訓(xùn)練最強開源模型
Llama 3.1系列不僅是405b模型成績顯著,70b的模型也在一定程度上超越了GPT-4o。不過在human eval和social sciences方面略遜一籌。
而8B和70B模型在基準(zhǔn)測試中有了非常顯著的進步,下圖為Meta根據(jù)內(nèi)部的評估庫評估后的結(jié)果。
基礎(chǔ)預(yù)訓(xùn)練模型:
指令微調(diào)模型:
而看到llama 3.1 70b和8b的數(shù)據(jù)后,我們不妨猜測這兩個模型就是405b的蒸餾。
同時,作為純文本模型,Llama 3.1專門針對多語言對話場景優(yōu)化了文本指令。包括英語,法語、德語、印地語、意大利語、葡萄牙語、西班牙語和泰語等等。
Llama 3.1使用了15T+個tokens的公開數(shù)據(jù)源來進行預(yù)訓(xùn)練,還使用了超過2500萬個人工合成的示例進行微調(diào)。預(yù)訓(xùn)練數(shù)據(jù)的時間截止到2023年的12月。這三個版本的模型的上下文長度都達到了128K。相比于原本Llama的8k上下文,這可以說是一次質(zhì)的飛躍了。
不過嘛,泄露的文章中并沒有透露使用了哪些私人的數(shù)據(jù)源,也許要等到Meta正式發(fā)布后才能知曉。
原文件地址已刪除,疑似員工泄露
一經(jīng)泄露,Llama 3.1在reddit上迅速引發(fā)熱議,不過很快這個頁面就變成404了。
還是有好心人給出了下載鏈接。不過Meta官方聲明,正式公布時間也就在今晚,大家先按捺一下好奇心,不用急于這一時。
也有網(wǎng)友對泄露的原文進行了補檔,對Llama3.1具體數(shù)據(jù)有興趣的小伙伴可以去看一看:
而另一邊,根據(jù)網(wǎng)友猜測,泄露這個模型的人的身份可能是Meta員工。
以下是上傳文件的作者的主頁:
雖然這種偷跑的行為令人不齒,但看完Llama的表現(xiàn)后,個人認(rèn)為開源模型能取得如此成績,是對閉源模型的一種鞭策。長久以來,閉源模型在人力和鈔能力的支持下,始終壓開源模型一頭。而“螞蟻雖小可潰千里長堤”,開源模型的資源交匯織成的蛛網(wǎng),終究會產(chǎn)生無比強大的力量。
現(xiàn)在我只想對OpenAI說一句:OpenAI你說句話呀!開源的模型都打贏你了,快把GPT5端上來!
