『面壁智能』低調(diào)開(kāi)源「理科狀元」Eurux-8x22B,推理性能超越 Llama3-70B
共 2052字,需瀏覽 5分鐘
·
2024-05-09 07:00
兩周前,早在 Llama3 發(fā)布的前兩天,『面壁智能』低調(diào)開(kāi)源了大模型 Eurux-8x22B,包括 Eurux-8x22B-NCA 和 Eurux-8x22B-KTO。該模型主打更強(qiáng)大的推理性能——刷新開(kāi)源大模型推理性能 SOTA,堪稱(chēng)開(kāi)源大模型中「理科狀元」。
除了開(kāi)源時(shí)間早于 Llama3,Eurux-8x22B 的激活參數(shù)僅有 39B,推理速度更快,目前支持 64K 上下文,相比之下 Llama3-70B 的上下文大小為 8K。
圖注:面壁Eurux-8x22B 模型在 LeetCode 和 TheoremQA這兩個(gè)具有挑戰(zhàn)性的基準(zhǔn)測(cè)試中,刷新開(kāi)源大模型推理性能 SOTA。
此外,Eurux-8x22B 由 Mistral-8x22B 對(duì)齊而來(lái),在 UltraInteract 大規(guī)模、高質(zhì)量對(duì)齊數(shù)據(jù)集上訓(xùn)練而成,綜合性能不輸 Llama3-70B。
相比而言,Llama3-70B 模型則是使用了千萬(wàn)量級(jí)的對(duì)齊數(shù)據(jù),這從側(cè)面證明了 UltraInteract 數(shù)據(jù)集的優(yōu)質(zhì)性——數(shù)據(jù)質(zhì)量勝過(guò)數(shù)據(jù)數(shù)量。
UltraInteract 是一個(gè)專(zhuān)門(mén)用于提升大模型推理能力的大規(guī)模、高質(zhì)量對(duì)齊數(shù)據(jù)集,包含了涵蓋數(shù)學(xué)、代碼和邏輯推理問(wèn)題的 12 個(gè)開(kāi)源數(shù)據(jù)集的 86K 條指令和 220K 偏好對(duì),總共有五十萬(wàn)條左右數(shù)據(jù)可供使用。
UltraInteract 采用了樹(shù)狀結(jié)構(gòu)(tree-structured)來(lái)組織數(shù)據(jù),這種結(jié)構(gòu)有助于模型學(xué)習(xí)如何通過(guò)多輪交互來(lái)優(yōu)化其推理過(guò)程。如下圖所示:
圖注:UltraInteract(第三列)是當(dāng)前唯一一個(gè)樹(shù)狀結(jié)構(gòu)的對(duì)齊數(shù)據(jù)集
圖注:UltraInteract 兩輪交互的過(guò)程
UltraInteract 對(duì)齊數(shù)據(jù)集地址: https://github.com/OpenBMB/Eurus
圖注:面壁Eurux-8x22B 模型綜合性能比肩 Llama3-70B,超越開(kāi)源模型 WizardLM-2-8x22b,Mistral-8x22b-Instruct,DeepSeek-67b,以及閉源模型 GPT-3.5-turbo。
目前,Eurux-8x22B 模型和對(duì)齊數(shù)據(jù),全家桶開(kāi)源:
https://github.com/OpenBMB/Eurus
https://huggingface.co/openbmb/Eurux-8x22b-nca
根據(jù)測(cè)評(píng),Eurux-8x22B 在代碼和數(shù)學(xué)等復(fù)雜推理的綜合性能方面刷新開(kāi)源大模型 SOTA。
在官方測(cè)試中,Eurux-8x22B 在 LeetCode(包含180道編程真題)和 TheoremQA(美國(guó)大學(xué)水準(zhǔn)的STEM題目)兩項(xiàng)測(cè)試上超過(guò)了 Llama3-70B,并且在 LeetCode 測(cè)試中超越了閉源的GPT-3.5-Turbo。
既然 Eurux-8x22B 主打推理能力,那在實(shí)際應(yīng)用中表現(xiàn)如何呢?
面壁智能 Eurux-8x22B 參加了近期的一場(chǎng) LeetCode 周賽,結(jié)果顯示:Eurux-8x22B 的 Python 編程能力非常優(yōu)秀,成功解決了四道算法題中的三道,其綜合排名超越了 80% 的人類(lèi)參賽選手,可以初步通過(guò)互聯(lián)網(wǎng)大廠的程序員編程面試。
下面是本次周賽中 Eurux-8x22B 對(duì)一道中等難度的算法題的真實(shí)解答:
除了代碼題做的不錯(cuò),Eurux-8x22B 解答數(shù)學(xué)題也不在話下。
Eurux-8x22B 解答高考函數(shù)題,也能做到準(zhǔn)確無(wú)誤。
參考:
https://mp.weixin.qq.com/s/BAeFq-jXuyXiGMF7MMy5qw
