<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          Llama 3.1要來啦?!測試性能戰(zhàn)勝GPT-4o

          共 2344字,需瀏覽 5分鐘

           ·

          2024-07-23 16:50

          大數(shù)據(jù)文摘授權(quán)轉(zhuǎn)載自夕小瑤科技說
          作者:海野


          哎呀,Meta聲稱將于今晚發(fā)布的Llama 3.1,數(shù)小時前就在Hugging Face上泄露出來了?泄露的人很有可能是Meta員工?



          還是先來看泄露出來的llama3.1吧。新的Llama 3.1模型包括8B、70B、405B三個版本。


          而經(jīng)過網(wǎng)友測試,該base版模型在AI的基準(zhǔn)測試中有顯著進步,其性能可以超越當(dāng)前大模型天花板GPT-4o。而模型的instruct版本通常會更強,也許值得期待一手。



          這一模型的問世,可能會成為AI歷史性的節(jié)點。它意味著開源模型首次在性能上,戰(zhàn)勝當(dāng)下最頂尖的閉源AI大模型(GPT-4o)。


          不過GPT-4o好像也發(fā)布了很久了,我們一直沒能等來GPT5,甚至等來的只是個更便宜的縮水版GPT-4o mini。那就是OpenAI不夠努力咯。



          128k上下文,15T+tokens訓(xùn)練最強開源模型


          Llama 3.1系列不僅是405b模型成績顯著,70b的模型也在一定程度上超越了GPT-4o。不過在human eval和social sciences方面略遜一籌。


          而8B和70B模型在基準(zhǔn)測試中有了非常顯著的進步,下圖為Meta根據(jù)內(nèi)部的評估庫評估后的結(jié)果。


          基礎(chǔ)預(yù)訓(xùn)練模型:



          指令微調(diào)模型:



          而看到llama 3.1 70b和8b的數(shù)據(jù)后,我們不妨猜測這兩個模型就是405b的蒸餾。



          同時,作為純文本模型,Llama 3.1專門針對多語言對話場景優(yōu)化了文本指令。包括英語,法語、德語、印地語、意大利語、葡萄牙語、西班牙語和泰語等等。


          Llama 3.1使用了15T+個tokens的公開數(shù)據(jù)源來進行預(yù)訓(xùn)練,還使用了超過2500萬個人工合成的示例進行微調(diào)。預(yù)訓(xùn)練數(shù)據(jù)的時間截止到2023年的12月。這三個版本的模型的上下文長度都達到了128K。相比于原本Llama的8k上下文,這可以說是一次質(zhì)的飛躍了。



          不過嘛,泄露的文章中并沒有透露使用了哪些私人的數(shù)據(jù)源,也許要等到Meta正式發(fā)布后才能知曉。


          原文件地址已刪除,疑似員工泄露


          一經(jīng)泄露,Llama 3.1在reddit上迅速引發(fā)熱議,不過很快這個頁面就變成404了。



          還是有好心人給出了下載鏈接。不過Meta官方聲明,正式公布時間也就在今晚,大家先按捺一下好奇心,不用急于這一時。



          也有網(wǎng)友對泄露的原文進行了補檔,對Llama3.1具體數(shù)據(jù)有興趣的小伙伴可以去看一看:

          https://web.archive.org/web/20240722214257/https://huggingface.co/huggingface-test1/test-model-1


          而另一邊,根據(jù)網(wǎng)友猜測,泄露這個模型的人的身份可能是Meta員工。



          以下是上傳文件的作者的主頁:

          https://huggingface.co/samuelselvan



          雖然這種偷跑的行為令人不齒,但看完Llama的表現(xiàn)后,個人認(rèn)為開源模型能取得如此成績,是對閉源模型的一種鞭策。長久以來,閉源模型在人力和鈔能力的支持下,始終壓開源模型一頭。而“螞蟻雖小可潰千里長堤”,開源模型的資源交匯織成的蛛網(wǎng),終究會產(chǎn)生無比強大的力量。


          現(xiàn)在我只想對OpenAI說一句:OpenAI你說句話呀!開源的模型都打贏你了,快把GPT5端上來!


          參考資料

          https://www.reddit.com/r/LocalLLaMA/comments/1e9qpgt/meta_llama_31_models_available_in_hf_8b_70b_and/ 



          租售GPU算力
          租:4090/A800/H800/H100
          售:現(xiàn)貨H100/H800

          特別適合企業(yè)級應(yīng)用
          掃碼了解詳情?


          點「在看」的人都變好看了哦!
          瀏覽 218
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  欧美91在线 | 欧美天堂在线 | 欧美成人网站在线观看视频 | 操逼视频一级片 | 男人操女人免费网站 |