安徽BBBBB视频BBB,韩日无码五月天,狼人精品久久一区,九九九亚洲视频播放,狠狠撸视频在线观看,黄色成人免费视频,亚洲免费电影AAA,男人天堂网2024

大數(shù)據(jù)文摘授權(quán)轉(zhuǎn)載自夕小瑤科技說
作者：海野

哎呀，Meta聲稱將于今晚發(fā)布的Llama 3.1，數(shù)小時前就在Hugging Face上泄露出來了？泄露的人很有可能是Meta員工？

還是先來看泄露出來的llama3.1吧。新的Llama 3.1模型包括8B、70B、405B三個版本。

而經(jīng)過網(wǎng)友測試，該base版模型在AI的基準(zhǔn)測試中有顯著進步，其性能可以超越當(dāng)前大模型天花板GPT-4o。而模型的instruct版本通常會更強，也許值得期待一手。

這一模型的問世，可能會成為AI歷史性的節(jié)點。它意味著開源模型首次在性能上，戰(zhàn)勝當(dāng)下最頂尖的閉源AI大模型（GPT-4o）。

不過GPT-4o好像也發(fā)布了很久了，我們一直沒能等來GPT5，甚至等來的只是個更便宜的縮水版GPT-4o mini。那就是OpenAI不夠努力咯。

128k上下文，15T+tokens訓(xùn)練最強開源模型

Llama 3.1系列不僅是405b模型成績顯著，70b的模型也在一定程度上超越了GPT-4o。不過在human eval和social sciences方面略遜一籌。

而8B和70B模型在基準(zhǔn)測試中有了非常顯著的進步，下圖為Meta根據(jù)內(nèi)部的評估庫評估后的結(jié)果。

基礎(chǔ)預(yù)訓(xùn)練模型：

指令微調(diào)模型：

而看到llama 3.1 70b和8b的數(shù)據(jù)后，我們不妨猜測這兩個模型就是405b的蒸餾。

同時，作為純文本模型，Llama 3.1專門針對多語言對話場景優(yōu)化了文本指令。包括英語，法語、德語、印地語、意大利語、葡萄牙語、西班牙語和泰語等等。

Llama 3.1使用了15T+個tokens的公開數(shù)據(jù)源來進行預(yù)訓(xùn)練，還使用了超過2500萬個人工合成的示例進行微調(diào)。預(yù)訓(xùn)練數(shù)據(jù)的時間截止到2023年的12月。這三個版本的模型的上下文長度都達到了128K。相比于原本Llama的8k上下文，這可以說是一次質(zhì)的飛躍了。

不過嘛，泄露的文章中并沒有透露使用了哪些私人的數(shù)據(jù)源，也許要等到Meta正式發(fā)布后才能知曉。

原文件地址已刪除，疑似員工泄露

一經(jīng)泄露，Llama 3.1在reddit上迅速引發(fā)熱議，不過很快這個頁面就變成404了。

還是有好心人給出了下載鏈接。不過Meta官方聲明，正式公布時間也就在今晚，大家先按捺一下好奇心，不用急于這一時。

也有網(wǎng)友對泄露的原文進行了補檔，對Llama3.1具體數(shù)據(jù)有興趣的小伙伴可以去看一看：

https://web.archive.org/web/20240722214257/https://huggingface.co/huggingface-test1/test-model-1

而另一邊，根據(jù)網(wǎng)友猜測，泄露這個模型的人的身份可能是Meta員工。

以下是上傳文件的作者的主頁：

https://huggingface.co/samuelselvan

雖然這種偷跑的行為令人不齒，但看完Llama的表現(xiàn)后，個人認(rèn)為開源模型能取得如此成績，是對閉源模型的一種鞭策。長久以來，閉源模型在人力和鈔能力的支持下，始終壓開源模型一頭。而“螞蟻雖小可潰千里長堤”，開源模型的資源交匯織成的蛛網(wǎng)，終究會產(chǎn)生無比強大的力量。

現(xiàn)在我只想對OpenAI說一句：OpenAI你說句話呀！開源的模型都打贏你了，快把GPT5端上來！