<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          『面壁智能』低調(diào)開(kāi)源「理科狀元」Eurux-8x22B,推理性能超越 Llama3-70B

          共 2052字,需瀏覽 5分鐘

           ·

          2024-05-09 07:00

          兩周前,早在 Llama3 發(fā)布的前兩天,『面壁智能』低調(diào)開(kāi)源了大模型 Eurux-8x22B,包括 Eurux-8x22B-NCAEurux-8x22B-KTO。該模型主打更強(qiáng)大的推理性能——刷新開(kāi)源大模型推理性能 SOTA,堪稱(chēng)開(kāi)源大模型中「理科狀元」。

          除了開(kāi)源時(shí)間早于 Llama3,Eurux-8x22B 的激活參數(shù)僅有 39B,推理速度更快,目前支持 64K 上下文,相比之下 Llama3-70B 的上下文大小為 8K。

          圖注:面壁Eurux-8x22B 模型在 LeetCode 和 TheoremQA這兩個(gè)具有挑戰(zhàn)性的基準(zhǔn)測(cè)試中,刷新開(kāi)源大模型推理性能 SOTA。

          此外,Eurux-8x22B 由 Mistral-8x22B 對(duì)齊而來(lái),在 UltraInteract 大規(guī)模、高質(zhì)量對(duì)齊數(shù)據(jù)集上訓(xùn)練而成,綜合性能不輸 Llama3-70B。

          相比而言,Llama3-70B 模型則是使用了千萬(wàn)量級(jí)的對(duì)齊數(shù)據(jù),這從側(cè)面證明了 UltraInteract 數(shù)據(jù)集的優(yōu)質(zhì)性——數(shù)據(jù)質(zhì)量勝過(guò)數(shù)據(jù)數(shù)量。


          UltraInteract

          UltraInteract 是一個(gè)專(zhuān)門(mén)用于提升大模型推理能力的大規(guī)模、高質(zhì)量對(duì)齊數(shù)據(jù)集,包含了涵蓋數(shù)學(xué)、代碼和邏輯推理問(wèn)題的 12 個(gè)開(kāi)源數(shù)據(jù)集的 86K 條指令和 220K 偏好對(duì),總共有五十萬(wàn)條左右數(shù)據(jù)可供使用。

          UltraInteract 采用了樹(shù)狀結(jié)構(gòu)(tree-structured)來(lái)組織數(shù)據(jù),這種結(jié)構(gòu)有助于模型學(xué)習(xí)如何通過(guò)多輪交互來(lái)優(yōu)化其推理過(guò)程。如下圖所示:

          圖注:UltraInteract(第三列)是當(dāng)前唯一一個(gè)樹(shù)狀結(jié)構(gòu)的對(duì)齊數(shù)據(jù)集

          具體來(lái)說(shuō),UltraInteract 數(shù)據(jù)集主要有以下三個(gè)特點(diǎn):多樣高質(zhì)量數(shù)據(jù),多輪交互(如下圖所示),偏好學(xué)習(xí)。

          圖注:UltraInteract 兩輪交互的過(guò)程

          UltraInteract 對(duì)齊數(shù)據(jù)集地址: https://github.com/OpenBMB/Eurus

          圖注:面壁Eurux-8x22B 模型綜合性能比肩 Llama3-70B,超越開(kāi)源模型 WizardLM-2-8x22b,Mistral-8x22b-Instruct,DeepSeek-67b,以及閉源模型 GPT-3.5-turbo。

          目前,Eurux-8x22B 模型和對(duì)齊數(shù)據(jù),全家桶開(kāi)源:
          https://github.com/OpenBMB/Eurus
          https://huggingface.co/openbmb/Eurux-8x22b-nca

          根據(jù)測(cè)評(píng),Eurux-8x22B 代碼和數(shù)學(xué)等復(fù)雜推理的綜合性能方面刷新開(kāi)源大模型 SOTA。

          在官方測(cè)試中,Eurux-8x22B 在 LeetCode(包含180道編程真題)和 TheoremQA(美國(guó)大學(xué)水準(zhǔn)的STEM題目)兩項(xiàng)測(cè)試上超過(guò)了 Llama3-70B,并且在 LeetCode 測(cè)試中超越了閉源的GPT-3.5-Turbo。

          既然 Eurux-8x22B 主打推理能力,那在實(shí)際應(yīng)用中表現(xiàn)如何呢?

          面壁智能 Eurux-8x22B 參加了近期的一場(chǎng) LeetCode 周賽,結(jié)果顯示:Eurux-8x22B 的 Python 編程能力非常優(yōu)秀,成功解決了四道算法題中的三道,其綜合排名超越了 80% 的人類(lèi)參賽選手,可以初步通過(guò)互聯(lián)網(wǎng)大廠的程序員編程面試。

          下面是本次周賽中 Eurux-8x22B 對(duì)一道中等難度的算法題的真實(shí)解答:

          除了代碼題做的不錯(cuò),Eurux-8x22B 解答數(shù)學(xué)題也不在話下。

          Eurux-8x22B 解答高考函數(shù)題,也能做到準(zhǔn)確無(wú)誤。



          參考:

          https://mp.weixin.qq.com/s/BAeFq-jXuyXiGMF7MMy5qw

          瀏覽 24
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  成人性爱免费在线观看 | 亚洲三级无码在线 | 在线视频中文字幕亚洲 | 亚洲艾薇在线观看 | 国产视频黄色精频大全 |