Llama 3.1 405B 中文基準(zhǔn)評(píng)測(cè)出爐!推理總分80.44,略超GPT-4 Turbo,不敵GPT-4o
共 3403字,需瀏覽 7分鐘
·
2024-07-25 12:00
本測(cè)評(píng)結(jié)果僅用于學(xué)術(shù)研究。
Meta于7月23日發(fā)布Meta Llama 3.1 405B,并認(rèn)為這是世界上最大、功能最強(qiáng)大的開(kāi)源基礎(chǔ)模型。頂級(jí)開(kāi)源模型Llama 3.1 405B的上下文長(zhǎng)度擴(kuò)展到了 128K、支持八種語(yǔ)言,在常識(shí)、可操縱性、數(shù)學(xué)、工具使用和多語(yǔ)言翻譯等方面可與 GPT-4、GPT-4o、Claude 3.5 Sonnet 等領(lǐng)先的閉源模型相媲美。
針對(duì)公眾關(guān)注的Llama 3.1 405B的中文性能問(wèn)題,作為專(zhuān)業(yè)第三方測(cè)評(píng)機(jī)構(gòu)SuperCLUE選取了中文推理相關(guān)的核心任務(wù)進(jìn)行了深入測(cè)評(píng)。具體來(lái)說(shuō),我們采用了中文數(shù)學(xué)多步推理測(cè)評(píng)基準(zhǔn)(SuperCLUE-Math6,含2024題)和中文等級(jí)化代碼單元測(cè)試基準(zhǔn)(SuperCLUE-Code3,包含1560個(gè)測(cè)試用例),對(duì)Llama 3.1 405B在數(shù)學(xué)和編程方面的能力進(jìn)行了全面評(píng)估。
先說(shuō)結(jié)論
結(jié)論1:在完成SuperCLUE推理任務(wù)時(shí),Llama 3.1 405B的整體得分為88.44,超過(guò)GPT-4 Turbo,僅次于GPT-4o,暫據(jù)排行榜第二。
結(jié)論2:Llama 3.1 405B在SC-Math6數(shù)學(xué)基準(zhǔn)上得分91.19分,判定為推理等級(jí)5,與GPT-4o相比僅有0.58分的差距,領(lǐng)先其他模型。
結(jié)論3:Llama 3.1 405B在SC-Code3代碼基準(zhǔn)上得分69.68分,接近70分,較GPT-4 Turbo略高(0.11分),與GPT-4o有一定差距(2分)。
Math6數(shù)據(jù)集申請(qǐng)方式:
請(qǐng)使用單位郵箱,將數(shù)據(jù)研究目的、計(jì)劃,研究機(jī)構(gòu)、申請(qǐng)者介紹和聯(lián)系方式(手機(jī)或微信),發(fā)送到郵箱,并承諾不向第三方提供。
Code3測(cè)評(píng)申請(qǐng)方式:
請(qǐng)使用單位郵箱發(fā)送郵件至[email protected],標(biāo)題:SuperCLUE-Code3測(cè)評(píng)
擴(kuò)展閱讀
[1] CLUE官網(wǎng):www.CLUEBenchmarks.com
[2] SuperCLUE排行榜網(wǎng)站:www.superclueai.com
[3] Github地址:https://github.com/CLUEbenchmark/SuperCLUE
[4] Math6地址:www.cluebenchmarks.com/superclue_math6.html
[5] Code3地址:www.cluebenchmarks.com/superclue_code3.html
往期精彩回顧
交流群
歡迎加入機(jī)器學(xué)習(xí)愛(ài)好者微信群一起和同行交流,目前有機(jī)器學(xué)習(xí)交流群、博士群、博士申報(bào)交流、CV、NLP等微信群,請(qǐng)掃描下面的微信號(hào)加群,備注:”昵稱(chēng)-學(xué)校/公司-研究方向“,例如:”張小明-浙大-CV“。請(qǐng)按照格式備注,否則不予通過(guò)。添加成功后會(huì)根據(jù)研究方向邀請(qǐng)進(jìn)入相關(guān)微信群。請(qǐng)勿在群內(nèi)發(fā)送廣告,否則會(huì)請(qǐng)出群,謝謝理解~(也可以加入機(jī)器學(xué)習(xí)交流qq群772479961)
