<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          北大計(jì)算機(jī)博士生先于OpenAI發(fā)表預(yù)訓(xùn)練語(yǔ)言模型求解數(shù)學(xué)題論文,曾被頂會(huì)拒絕

          共 3706字,需瀏覽 8分鐘

           ·

          2021-11-27 09:38

          數(shù)學(xué)算法俱樂(lè)部

          日期?:?2021年11月25日?? ? ??

          正文共?2805字

          來(lái)源?:?新智元

          【導(dǎo)讀】北大博士生沈劍豪同學(xué)一篇關(guān)于「用語(yǔ)言模型來(lái)解決數(shù)學(xué)應(yīng)用題」的EMNLP投稿在綜合評(píng)審時(shí)被認(rèn)為不夠重要,收錄于Findings而沒(méi)有被主會(huì)接收。有趣的是,OpenAI的最新工作與該論文的方法不謀而合,并表示非常好用。

          最近,EMNLP 2021開(kāi)獎(jiǎng)了!華人作者包攬了最佳長(zhǎng)、短論文。
          ?
          然而,有人歡喜有人憂。
          ?
          北大博士生沈劍豪領(lǐng)銜的一篇關(guān)于「用語(yǔ)言模型來(lái)解決數(shù)學(xué)應(yīng)用題」(Generate & rank: A multi-task framework for math word problems)的EMNLP投稿在綜合評(píng)審時(shí)被認(rèn)為不夠重要,最終收錄于Findings而沒(méi)有被主會(huì)接收。
          ?

          「審稿人普遍喜歡這篇論文,但這看起來(lái)是一篇邊緣的論文。鑒于這是BART在數(shù)學(xué)問(wèn)題上的應(yīng)用,而數(shù)學(xué)問(wèn)題的解決對(duì)于NLP來(lái)說(shuō)并不是一個(gè)真正重要的任務(wù),我懷疑這個(gè)任務(wù)的高度工程化解決方案的價(jià)值?!?/span>
          ?
          ?
          根據(jù)官方的文件來(lái)看,一般被列為Findings的論文得分會(huì)更低一些,或者被認(rèn)為不怎么「新穎」。
          ?
          拓展了特定任務(wù)的SOTA,但是對(duì)EMNLP社區(qū)而言,沒(méi)有新的見(jiàn)解或更廣泛的適用性;
          有良好的、新穎的實(shí)驗(yàn),并提出了全面的分析和結(jié)論,但使用的方法不夠「新穎」。
          ?
          雖然,但是OpenAI覺(jué)得這個(gè)論文很重要

          有趣的是,就在10月29號(hào),OpenAI提出了一個(gè)新方法「驗(yàn)證」(verification),聲稱可以解決小學(xué)數(shù)學(xué)問(wèn)題。
          ?
          論文地址:https://arxiv.org/pdf/2110.14168.pdf
          GSM8K數(shù)據(jù)集地址:https://github.com/openai/grade-school-math
          ?
          OpenAI要解決的數(shù)學(xué)應(yīng)用題是長(zhǎng)這個(gè)樣子滴:
          ?
          OpenAI的GSM8K數(shù)據(jù)集中的三個(gè)問(wèn)題示例,紅色為計(jì)算的注釋
          ?
          而且,OpenAI發(fā)現(xiàn)「驗(yàn)證」可以讓60億參數(shù)的GPT-3,解數(shù)學(xué)應(yīng)用題的準(zhǔn)確率直接翻倍,甚至追平了1750億參數(shù),采用微調(diào)方法的GPT-3模型。
          ?
          ?
          更重要的是,一個(gè)9-12歲的小孩子在測(cè)試中得分為60分,而OpenAI的方法在同樣的問(wèn)題上可以拿到55分,已經(jīng)達(dá)到了人類小學(xué)生90%左右的水平!
          ?
          都是解決數(shù)學(xué)應(yīng)用題,那會(huì)不會(huì)這兩篇文章是「異曲同工」呢?
          ?
          巧了,還真是!
          ?
          不僅如此,OpenAI這個(gè)最新工作《Training Verifiers to Solve Math Word Problems》文中還引用了北大博士生沈劍豪在9月7號(hào)提交的《Generate & Rank: A Multi-task Framework for Math Word Problems》這篇論文。
          ?

          沈劍豪,尹伊淳,李琳,尚利峰,蔣欣,張銘, 劉群,《生成&排序:一種數(shù)學(xué)文字問(wèn)題的多任務(wù)框架》,EMNLP 2020 Findings。該工作由北大計(jì)算機(jī)學(xué)院和華為諾亞方舟實(shí)驗(yàn)室合作完成。
          論文地址:https://arxiv.org/abs/2109.03034
          ?
          再看看沈同學(xué)文中要解決的數(shù)學(xué)應(yīng)用題長(zhǎng)啥樣。
          ?
          ?
          兩者確實(shí)很像??!
          ?
          深入OpenAI的論文的Introduction部分,可以找到下面這句話。
          ?
          OpenAI在論文中表示其思路和沈劍豪的論文相似
          ?
          在Related Methods中,還可以看到下面這句。
          ?
          我們的工作與他們的方法有許多基本相似之處,盡管我們?cè)趲讉€(gè)關(guān)鍵方面有所不同。
          ?
          在文末,OpenAI也對(duì)沈博士的文章注明了引用。
          ?
          ?
          也就是說(shuō),OpenAI認(rèn)可了沈同學(xué)文中的方法的價(jià)值,而且沈劍豪的論文其實(shí)比OpenAI還要早發(fā)一個(gè)月!
          ?
          值得一說(shuō)的是,這篇論文的一作沈劍豪是2014年浙江省高考狀元,同時(shí)也曾是北大數(shù)學(xué)學(xué)院數(shù)據(jù)方向的第一名,目前是北大計(jì)算機(jī)學(xué)院在讀博士研究生,導(dǎo)師為張銘教授。
          ?
          ?
          語(yǔ)言模型能解數(shù)學(xué)題嗎?

          OpenAI的GPT-3「文采出眾」,上知天文,下知地理。模仿名家的寫(xiě)作風(fēng)格,展示一下廣博的知識(shí),這都不在話下。
          ?
          然而,GPT-3這種「語(yǔ)言」模型卻是典型的偏科生,擅長(zhǎng)文,但不擅理,沒(méi)法完成精確的多步推理,比如,解決小學(xué)數(shù)學(xué)應(yīng)用題。
          ?
          其問(wèn)題就在于,語(yǔ)言模型只能模仿正確解決方法的規(guī)律,但它卻并不理解「邏輯」。
          ?
          所以,人類要想教會(huì)大語(yǔ)言模型理解復(fù)雜的邏輯,就必須得讓模型學(xué)會(huì)識(shí)別它們的錯(cuò)誤,并仔細(xì)選擇他們的解題步驟。
          ?
          從這個(gè)角度出發(fā),OpenAI和博士生沈劍豪都提出了一種「先生成,后排序」的方法來(lái)幫助語(yǔ)言模型掌握數(shù)學(xué)推理能力,知道自己推理是否有誤。
          ?
          兩者內(nèi)容對(duì)比

          核心框架是:生成器+重排序/驗(yàn)證器。
          ?
          北大與華為諾亞的生成與重排序框架
          ?
          沈同學(xué)文中的模型由一個(gè)生成器和一個(gè)排序器組成,并通過(guò)生成任務(wù)和排序任務(wù)進(jìn)行聯(lián)合訓(xùn)練。
          ?
          生成器的目標(biāo)是生成給定數(shù)學(xué)應(yīng)用題的解答表達(dá)式。排序器則需要從一組候選者中選擇一個(gè)正確的表達(dá)式。
          ?
          兩者共享同一個(gè)的BART模型進(jìn)行編碼-解碼,排序器在此基礎(chǔ)上增加了一個(gè)評(píng)分函數(shù)為表達(dá)式打分。
          ?
          此外,他們還構(gòu)建了一個(gè)表達(dá)式庫(kù),為排序器提供訓(xùn)練實(shí)例。其中使用了兩種不同的策略:基于模型的生成和基于樹(shù)的干擾。
          ?
          基于模型的生成是利用生成器通過(guò)線束搜索方法,得到前K個(gè)表達(dá)式加入到表達(dá)式庫(kù)中。
          ?
          基于樹(shù)的干擾則首先將正確表達(dá)式轉(zhuǎn)化成一棵二叉樹(shù),然后采用擴(kuò)展、編輯、刪除、交換四種操作得到新的表達(dá)式,作為前一種方法的補(bǔ)充。

          基于樹(shù)的干擾

          訓(xùn)練過(guò)程包括多任務(wù)訓(xùn)練和表達(dá)式在線更新。首先為生成任務(wù)對(duì)預(yù)訓(xùn)練的BART進(jìn)行微調(diào)。之后,使用經(jīng)過(guò)微調(diào)的BART和基于樹(shù)的干擾來(lái)生成表達(dá)式,作為排序器的訓(xùn)練樣本。然后,進(jìn)行生成和排序的聯(lián)合訓(xùn)練。
          ?
          這個(gè)過(guò)程是以迭代的方式進(jìn)行的,兩個(gè)模塊(即生成器和排序器)繼續(xù)相互促進(jìn)。同時(shí),用于排序器的訓(xùn)練實(shí)例在每輪迭代后會(huì)被更新。

          Generate & Rank的訓(xùn)練過(guò)程
          ?
          而OpenAI的方法中是包含一個(gè)生成器和一個(gè)驗(yàn)證器。
          ?
          OpenAI的驗(yàn)證器
          ?
          驗(yàn)證器(verifier)可以判斷模型生成的解決方案正不正確,所以在測(cè)試時(shí),驗(yàn)證器會(huì)以問(wèn)題和候選解答為輸入,輸出每個(gè)解答正確的概率。驗(yàn)證器(verifier)訓(xùn)練時(shí),只訓(xùn)練解決方案是否達(dá)到正確的最終答案,將其標(biāo)記為正確或不正確。
          ?
          驗(yàn)證器具體訓(xùn)練方法分「三步」:
          ?
          1. 先把模型的「生成器」在訓(xùn)練集上進(jìn)行2個(gè)epoch的微調(diào)。
          2. 從生成器中為每個(gè)訓(xùn)練問(wèn)題抽取100個(gè)解答,并將每個(gè)解答標(biāo)記為正確或不正確。
          3. 在數(shù)據(jù)集上,驗(yàn)證器再訓(xùn)練單個(gè)epoch。
          ?
          測(cè)試時(shí),解決一個(gè)新問(wèn)題,首先要生成100個(gè)候選解決方案,然后由「驗(yàn)證器」打分,排名最高的解決方案會(huì)被最后選中。
          ?
          思路上確實(shí)是相近的,不過(guò)有幾處細(xì)節(jié)并不相同。
          ?
          一、OpenAI在文中表示他們的生成器和驗(yàn)證器是分開(kāi)單獨(dú)訓(xùn)練的,目的是限制生成器的訓(xùn)練并防止過(guò)度擬合,但原則上,他們認(rèn)為應(yīng)該可以組合這些模型進(jìn)行聯(lián)合訓(xùn)練,而沈同學(xué)則確實(shí)是使用了聯(lián)合訓(xùn)練方法,實(shí)驗(yàn)結(jié)果也表明聯(lián)合訓(xùn)練對(duì)最終的效果有提升。
          ?
          二、沈同學(xué)提出了一種幫助訓(xùn)練重排器的方法:Tree-based Disturbance,其實(shí)就是設(shè)計(jì)了一系列比較難的負(fù)樣本,在正確的表達(dá)式基礎(chǔ)上增加了一點(diǎn)小擾動(dòng)作為新的負(fù)樣本。而OpenAI并沒(méi)有提到類似的過(guò)程。
          ?
          三、OpenAI為了評(píng)估「驗(yàn)證器」的表現(xiàn),收集了全新的「GSM8K數(shù)據(jù)集」并將其開(kāi)源以方便研究。

          GSM8K由8500個(gè)高質(zhì)量、高多樣性、中等難度的小學(xué)數(shù)學(xué)問(wèn)題組成。數(shù)據(jù)集中的每個(gè)問(wèn)題都需要計(jì)算2到8個(gè)步驟來(lái)得出最終答案,涉及到「加減乘除」四則運(yùn)算。
          ?
          而沈同學(xué)最終是在兩個(gè)常用的數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn):Math23K和MAWPS。
          ?
          其中,Math23K是一個(gè)大規(guī)模的中文數(shù)據(jù)集,包含23162個(gè)數(shù)學(xué)應(yīng)用題及其對(duì)應(yīng)的表達(dá)式求解。MAWPS是一個(gè)包含2373個(gè)問(wèn)題的英語(yǔ)數(shù)據(jù)集,所有的問(wèn)題都是一個(gè)未知變量的線性問(wèn)題,可以用一個(gè)表達(dá)式來(lái)解決。
          ?
          當(dāng)然,最明顯的就是用的語(yǔ)言模型不同了。沈同學(xué)用的是預(yù)訓(xùn)練模型BART,而OpenAI用的則是60億和1750億參數(shù)的GPT-3。

          參考資料:
          https://arxiv.org/pdf/2109.03034.pdf
          https://arxiv.org/pdf/2110.14168.pdf
          https://2020.emnlp.org/blog/2020-04-19-findings-of-emnlp




          —?THE END —


          ?一位清華教授直言不諱:中國(guó)社會(huì)真的階層固化了嗎?
          ?浙大博士生和商家的聊天火了,“為國(guó)家出點(diǎn)力”
          ?10分鐘了解圖卷積神經(jīng)網(wǎng)絡(luò)的常用算法和發(fā)展方向
          ?985大學(xué)院士校長(zhǎng)!已就任科技部副部長(zhǎng)!
          ?法國(guó)學(xué)者29頁(yè)預(yù)印本論文「證明」黎曼猜想,這次的方向?qū)α藛幔?/a>
          ?他拿著菜刀走進(jìn)教室,把400個(gè)混混送進(jìn)了一流大學(xué)
          瀏覽 49
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  91啊啊啊| 无码色色| 国产熟女性爱视频 | 日本婷婷网 | 久久影院av |