<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          陶哲軒聯(lián)手60多位數(shù)學(xué)家出題,世界頂尖模型通過率僅2%!專家級數(shù)學(xué)基準(zhǔn),讓AI再苦戰(zhàn)數(shù)年

          共 4432字,需瀏覽 9分鐘

           ·

          2024-11-11 13:05



            新智元報道  

          編輯:Hjh
          【新智元導(dǎo)讀】Epoch AI推出數(shù)學(xué)基準(zhǔn)FrontierMath,目前前沿模型測試成功率均低于2%!OpenAI研究科學(xué)家Noam Brown說道:「我喜歡看到新評估的前沿模型通過率如此之低。這種感覺就像一覺醒來,外面是一片嶄新的雪地,完全沒有人跡。」或許,F(xiàn)rontierMath測試成功率突破的那一天,會是AI發(fā)展過程中一個全新的里程碑。
          數(shù)學(xué)為評估復(fù)雜推理提供了一個獨(dú)特而合適的測試平臺。它需要一定的創(chuàng)造力和精確的邏輯鏈條——通常涉及復(fù)雜的證明,這些證明必須縝密地籌劃和執(zhí)行。同時,數(shù)學(xué)還允許對結(jié)果進(jìn)行客觀驗(yàn)證。

          在鋪天蓋地的宣傳中,LLM看起來已經(jīng)攻破了數(shù)學(xué)大關(guān)。但果真如此嗎?

          不久前,來自蘋果的研究院團(tuán)隊(duì)證明,就算是在數(shù)學(xué)這些基礎(chǔ)科學(xué)方面最先進(jìn)的o1模型,其卓越的表現(xiàn)也是來源于對特定數(shù)據(jù)集針對性的持續(xù)優(yōu)化。

          所以為了更好的檢驗(yàn)?zāi)P蛯τ跀?shù)學(xué)問題的理解與解決能力,我們需要一個更加全面而行之有效的數(shù)學(xué)測試基準(zhǔn)。

          近日,Epoch AI聯(lián)合六十余位全世界的數(shù)學(xué)家,其中包括教授、IMO命題人、菲爾茲獎獲得者,共同推出了全新的數(shù)學(xué)基準(zhǔn)FrontierMath。其包括數(shù)百個原創(chuàng)的、格外具有挑戰(zhàn)性的數(shù)學(xué)問題,旨在評估AI系統(tǒng)中的高級推理能力。

          研究團(tuán)隊(duì)基于這個測試基準(zhǔn)評估了六個前沿的模型,它們的成功率竟然都低于2%!

          論文地址:https://arxiv.org/abs/2411.04872

          論文特意致謝了陶哲軒為FrontierMath基準(zhǔn)貢獻(xiàn)了一些問題

          具體來說,這些數(shù)學(xué)問題從奧賽難度到當(dāng)今的數(shù)學(xué)前沿,包含了目前數(shù)學(xué)研究的所有主要分支——從數(shù)論和實(shí)數(shù)分析中的計(jì)算密集型問題到代數(shù)幾何和群論中的抽象問題,而它們也通常需要數(shù)小時或數(shù)天的時間才能被專業(yè)數(shù)學(xué)家解決。

          FrontierMath涉及的數(shù)學(xué)領(lǐng)域

          這一測試集的發(fā)布一下炸出了不少AI大佬。

          OpenAI研究員Clive Chan

          德?lián)渲福琌penAI研究科學(xué)家Noam Brown

          Anthropic聯(lián)創(chuàng)Jack Clark

          知名AI大牛Andrej Karpathy還發(fā)了一篇長帖「Moravec悖論在大語言模型評估中的體現(xiàn)」:

          我對這個新的前沿數(shù)學(xué)基準(zhǔn)測試感到驚訝,因?yàn)榇笳Z言模型在其中僅能解決2%的問題。引入這個基準(zhǔn)測試的原因是大語言模型在現(xiàn)有數(shù)學(xué)基準(zhǔn)測試中表現(xiàn)得越來越出色。有趣的問題在于,盡管從許多評估來看,大語言模型在數(shù)學(xué)和編程等領(lǐng)域已經(jīng)逐漸接近頂級專家的水平,但你還是不會選擇它們來完成對人類本身來講最容易的工作。它們可以解決復(fù)雜的封閉問題,只要你在提示詞中恰當(dāng)?shù)爻尸F(xiàn)問題描述,但它們在自主且連貫地解決長問題序列方面卻很艱難,而這對人類來說是非常容易的。


          這就是Moravec悖論的隱性體現(xiàn),他在30多年前觀察到,人類認(rèn)為簡單或困難的事情,對于計(jì)算機(jī)來說可能卻恰恰相反。例如,人類對計(jì)算機(jī)下棋感到非常驚訝,但下棋對計(jì)算機(jī)來說卻很簡單,因?yàn)檫@是一個封閉的、確定性的系統(tǒng),具有離散的動作空間、完全可觀測性等等。反過來,人類可以系鞋帶或折疊襯衫,并不覺得這有什么了不起,但這實(shí)際上是一個極其復(fù)雜的傳感運(yùn)動任務(wù),對硬件和軟件的最先進(jìn)技術(shù)也還是一個挑戰(zhàn)。這就像OpenAI前段時間發(fā)布的魔方項(xiàng)目,大多數(shù)人關(guān)注的是解魔方本身(這很簡單),卻不是讓機(jī)器人用手去扭合一面魔方這種其實(shí)極其困難的任務(wù)。


          所以我非常喜歡這個FrontierMath基準(zhǔn)測試,我們應(yīng)該多做一些這樣的測試。但我也認(rèn)為這是一個有趣的挑戰(zhàn),我們?nèi)绾螢樗心切负唵巍沟珜?shí)際上很難的事情創(chuàng)建評估。非常長的上下文窗口、連貫性、自主性、常識、有效的多模態(tài)輸入輸出……我們?nèi)绾螛?gòu)建好的「簡單工作」評估?這些是你期望團(tuán)隊(duì)中任何入門級實(shí)習(xí)生都能完成的事情。

          除了AI大佬們在紛紛討論,網(wǎng)友們也炸了鍋——

          網(wǎng)友「Chubby」表達(dá)了自己的興奮與期待!

          同時,Epoch AI也采訪了菲爾茲獎得主陶哲軒(2006年)、蒂莫西·高爾斯(1998年)、理查德·博赫茲(1998年)以及國際數(shù)學(xué)奧賽教練陳誼廷。

          他們一致認(rèn)為,F(xiàn)rontierMath的研究問題極具挑戰(zhàn)性,需要深厚的領(lǐng)域?qū)iL。

          左右滑動查看

          成功率低于2%

          FrontierMath支持模型在評估中擁有充足的思考時間以及實(shí)驗(yàn)和迭代能力。并且還可以在Python 環(huán)境中交互式地編寫和執(zhí)行代碼來測試假設(shè)、驗(yàn)證中間結(jié)果,并根據(jù)即時反饋改進(jìn)方法。

          FrontierMath的模型評估流程框架

          研究團(tuán)隊(duì)基于這個測試基準(zhǔn)評估了六個前沿的模型,包括Claude 3.5 Sonnet、o1-preview和Gemini 1.5 Pro。

          即便在延長思考時間(10000個token)、提供Python訪問權(quán)限以及允許運(yùn)行實(shí)驗(yàn)的條件下,它們的成功率仍然低于2%!

          這與GSM-8K和MATH等其他流行的數(shù)學(xué)基準(zhǔn)形成鮮明對比,在這些僅包含高中到本科數(shù)學(xué)難度的基準(zhǔn)測試中,頂級模型現(xiàn)在的準(zhǔn)確率都已經(jīng)超過 90%。

          當(dāng)然,這在一定程度上是由于數(shù)據(jù)污染——訓(xùn)練數(shù)據(jù)中無意或有意地包含了測試數(shù)據(jù)的內(nèi)容,或包含了與測試數(shù)據(jù)非常相似的數(shù)據(jù)。

          這種現(xiàn)象會導(dǎo)致模型在測試時表現(xiàn)優(yōu)異,但并非因?yàn)樗嬲龑W(xué)會了新知識或推理能力,而是因?yàn)樗谟?xùn)練中「見過」測試題或其相似題。

          以至于模型的測試分?jǐn)?shù)表現(xiàn)虛高,無法真實(shí)反映其在新數(shù)據(jù)上的表現(xiàn)能力。

          也就是說,原來的這些基準(zhǔn)測試達(dá)到高分已經(jīng)不值得吹噓了,大模型又有了新的數(shù)學(xué)大關(guān)需要攻破!

          FrontierMath:評估AI高級數(shù)學(xué)推理

          對于這個新的數(shù)學(xué)大關(guān),F(xiàn)rontierMath有三個關(guān)鍵設(shè)計(jì)原則:

          1. 所有問題都是全新且未公開的,防止數(shù)據(jù)污染。

          2. 模型的解答支持自動驗(yàn)證,從而實(shí)現(xiàn)高效評估。無論是精確的整數(shù),還是如矩陣或符號表達(dá)式(在SymPy中),一個驗(yàn)證腳本可以通過將模型確認(rèn)提交的答案與已知解決方案來精確匹配以對提交的答案進(jìn)行檢查驗(yàn)證。

          3. 問題具有「防猜測」特性,問題的答案是大數(shù)值或復(fù)雜的數(shù)學(xué)對象,若沒有數(shù)學(xué)推理,模型猜對的幾率低于1%。

          這些設(shè)計(jì)原則,每一條都非常具有針對性,彌補(bǔ)了現(xiàn)有基準(zhǔn)測試的不足。

          值得欣喜的是,模型在這個測試中幾乎沒辦法「作弊」了,這將有效杜絕一些「名不副實(shí)」的現(xiàn)象。

          具體案例

          由于FrontierMath中的問題是具有封閉形式答案(例如整數(shù))的,所以它們可以讓模型去自動進(jìn)行驗(yàn)證與評估。

          例如下圖中的構(gòu)造一個符合條件的19次多項(xiàng)式問題,問題給定的答案是非常大數(shù)值的整數(shù),所以幾乎不可能通過預(yù)測和精巧的模式匹配來解決這個問題。

          模型必須有涉及數(shù)論、群論、代數(shù)幾何這些方面的專業(yè)數(shù)學(xué)邏輯能力才可以得到正確的答案。

          涉及到阿廷原始根猜想則更為復(fù)雜,模型需要求解計(jì)算的甚至是

          而數(shù)百道題目皆為如此,所以FrontierMath足以作為一個標(biāo)桿性的數(shù)學(xué)基準(zhǔn),去檢驗(yàn)AI模型是否具備了真正的復(fù)雜邏輯推理能力。

          參考資料:

          https://x.com/EpochAIResearch/status/1854996368814936250

          https://x.com/karpathy/status/1855659091877937385

          https://epochai.org/frontiermath/the-benchmark

          https://epochai.org/frontiermath/benchmark-problems





          瀏覽 44
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  欧美成人在线免费观看视频 | 免费无码视频 | 国产内射ⅹxⅹx在线 | 成人淫色视频 | 国产生活片三级片免费看 |