<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          60億擊敗1750億、驗證勝過微調(diào):OpenAI發(fā)現(xiàn)GPT-3解決數(shù)學(xué)題,并非參數(shù)越大越好

          共 3248字,需瀏覽 7分鐘

           ·

          2021-11-04 09:19

          視學(xué)算法報道

          編輯:杜偉、陳

          現(xiàn)在,OpenAI 的模型也具備解決小學(xué)數(shù)學(xué)應(yīng)用題的能力了。

          簡單的小學(xué)數(shù)學(xué)應(yīng)用問題,對于人類來說不算什么,但對于模型來說,可能是有難度的。

          比如問題:安東尼有 50 支鉛筆。他把 1/2 的鉛筆給了布蘭登,剩下的 3/5 鉛筆給了查理。他保留了剩下的鉛筆。問安東尼保留了多少支鉛筆?


          像 GPT-3 這樣的大型語言模型雖然取得了許多令人印象深刻的技能,包括模仿人的多種寫作風(fēng)格、20 分鐘內(nèi)完成論文等等。然而,類似 GPT-3 這樣的模型很難執(zhí)行需要進行準(zhǔn)確多步推理的任務(wù)。就如上述問題讓模型給出準(zhǔn)確答案還是困難的。

          盡管類似 GPT-3 這樣的模型可以推導(dǎo)出正確解決方案大致內(nèi)容,但也經(jīng)常會產(chǎn)生嚴(yán)重的邏輯錯誤。

          為了在復(fù)雜邏輯領(lǐng)域可以達到與人類相媲美的性能,模型必須具有判別自身錯誤的能力,并謹(jǐn)慎地執(zhí)行之后的過程。但是,模型如何判別解決方案是否正確,來自 OpenAI 的研究者提出了一個訓(xùn)練驗證器(verifier)來判斷模型完成的正確性。

          在測試階段會生成許多候選解決方案并選擇排名最高的一個。證明驗證(verification)顯著提高了 GSM8K 的性能,此外也為這一觀點(隨著數(shù)據(jù)的增加,驗證比微調(diào)基線更有效)提供了強有力證據(jù)。

          具體來說,該研究訓(xùn)練了一個解決小學(xué)數(shù)學(xué)問題的系統(tǒng),其準(zhǔn)確率約是經(jīng)過微調(diào)的 GPT-3 模型的兩倍。它能像真正的學(xué)生一樣可以解決 90% 的數(shù)學(xué)應(yīng)用問題:在提供的數(shù)據(jù)集中進行了小樣本測試,結(jié)果表明 9-12 歲的學(xué)生測試得分為 60%,該研究所提系統(tǒng)在相同的問題上測試得分 55%。

          這一結(jié)果非常重要,因為今天的 AI 在常識性多步推理方面仍然很弱,即使對小學(xué)生來說也很容易,但 AI 還是存在很大的缺陷。該研究通過訓(xùn)練模型來識別其錯誤,以便它可以反復(fù)試錯,直到找到可行的解決方案。


          • 論文地址:https://arxiv.org/pdf/2110.14168.pdf

          • 數(shù)據(jù)集地址:https://github.com/openai/grade-school-math


          下面展示了該研究所提新方法生成的解決方案其中一個案例:

          Tim 種了 5 棵樹。他每年從每棵樹上收集 6 個檸檬。他十年能得到多少檸檬?


          175B Verification:正確?


          175B Fine-tuning:錯誤?


          6B Verification:正確?


          6B Fine-tuning:正確?


          GSM8K 數(shù)據(jù)集

          OpenAI 基于四個設(shè)計原則創(chuàng)建了 GSM8K 數(shù)據(jù)集:高質(zhì)量、高多樣性、中等難度和自然語言解決方案。

          GSM8K 數(shù)據(jù)集由 8.5K 個高質(zhì)量小學(xué)數(shù)學(xué)應(yīng)用題組成。每個問題需要 2 到 8 步解決,解決方案主要涉及使用加減乘除等基本算術(shù)運算執(zhí)行一系列基礎(chǔ)計算以獲得最終答案。微調(diào)后的 SOTA 模型在該數(shù)據(jù)集上表現(xiàn)不佳,主要是問題的高度多樣性導(dǎo)致的。與此同時,GSM8K 解決方案僅依賴于基本概念,因此實現(xiàn)高測試性能是一個容易實現(xiàn)的目標(biāo)。

          GSM8K 數(shù)據(jù)集中的三個示例問題。

          值得注意的是,GSM8K 中的解決方案是用自然語言而不是純數(shù)學(xué)表達式編寫的。通過堅持使用自然語言,模型生成的解決方案更容易被人類解釋。OpenAI 的方法保持相對領(lǐng)域不可知。

          ?方法

          OpenAI 研究了兩種解決 GSM8K 問題的方法:微調(diào)和驗證。微調(diào)是基線方法,它使用與 GPT-3 中生成式預(yù)訓(xùn)練相同的語言建模目標(biāo)(Brown 等人,2020 年)。在測試時,OpenAI 通過自回歸采樣單個低溫解決方案并檢查最終答案是否正確來判斷性能。相比之下,驗證包括對多個高溫解決方案進行采樣,為每個解決方案分配一個分?jǐn)?shù),并輸出排名最高的解決方案。驗證器被訓(xùn)練來判斷解決方案的正確性,其中訓(xùn)練信號完全取決于解決方案是否獲得了正確的最終答案。

          對于這兩種方法,OpenAI 使用 GPT-3 系列模型作為初始化,主要關(guān)注 175B 和 6B 大小的模型。175B 模型最大,產(chǎn)生的結(jié)果最令引人矚目,而 6B 模型更易于實現(xiàn)研究目。

          ?微調(diào)

          OpenAI 通過更新模型參數(shù)來進行微調(diào),以最小化所有訓(xùn)練 token 的交叉熵?fù)p失。下圖 2 顯示了對 20 個 epoch 時不同大小的訓(xùn)練集進行微調(diào)后的測試性能。

          結(jié)果不出所料,可以看到 175B 模型明顯優(yōu)于較小的模型。假設(shè)一個對數(shù)線性趨勢,我們可以簡單地推斷這些結(jié)果,以估計當(dāng)使用完整的 GSM8K 訓(xùn)練集時,需要具有 10^16 個參數(shù)的模型才能達到 80% 的求解率。盡管如此,175B 模型似乎需要至少兩個額外數(shù)量級的訓(xùn)練數(shù)據(jù)才能達到 80% 的求解率。


          在下圖 3 中,OpenAI 展示了 6B 模型測試性能在 100 個訓(xùn)練 epoch 的過程中如何變化。當(dāng)允許模型對每個問題進行 N 個單獨的猜測時,OpenAI 使用 test@N 表示至少一次正確解決的問題的百分比。盡管很快開始過擬合測試損失,但 Test@1 的性能幾乎單調(diào)地提高。并且,隨著 epoch 次數(shù)的增加,test@100 的性能比 test@1 下降得更快。


          選擇具有良好覆蓋性的模型對于成功訓(xùn)練驗證器至關(guān)重要。從實證角度來看,test@100 性能在前幾個 epoch 內(nèi)達到峰值。出于這個原因,OpenAI 使用訓(xùn)練了 2 個 epoch 的模型來生成用于訓(xùn)練驗證器的樣本。如果改為微調(diào) 6B 模型以直接輸出最終答案而無需任何中間步驟,則性能會從 20.6% 急劇下降至 5.2%。

          ?驗證

          為了改進微調(diào)基準(zhǔn),OpenAI 訓(xùn)練驗證器判斷模型生成的解決方案的正確性,并在測試時搜索這些驗證器。以問題和候選解決方案為條件,驗證器輸出解決方案正確的概率。僅根據(jù)它們是否達到正確的最終答案,將訓(xùn)練解決方案標(biāo)記為正確或不正確。不過,在實踐中,一些解決方案會使用有缺陷的推理得出正確的最終答案,從而導(dǎo)致誤報。

          如下圖 4 所示,OpenAI 按如下方式訓(xùn)練驗證器:?

          • 在訓(xùn)練集上對模型(生成器)進行 2 個 epoch 的微調(diào);

          • 從生成器中為每個訓(xùn)練問題抽取 100 個完成樣本,并將每個解決方案標(biāo)記為正確或不正確;

          • 在數(shù)據(jù)集上訓(xùn)練一個單一 epoch 的驗證器。



          在測試時,OpenAI 對每個測試問題采樣了 100 個完成情況,用驗證器對它們進行排名,然后返回得分最高的那個。下圖 5 展示了 6B 和 175B 模型的驗證和微調(diào)兩種方法之間的對比情況,結(jié)果發(fā)現(xiàn)在低數(shù)據(jù)集下使用驗證方法是沒有好處的。有趣的是,175B 驗證器比 6B 驗證器更早「起飛」,超越微調(diào)基線需要的時間更少。

          在完整的訓(xùn)練集上,隨著 epoch 的增加,使用驗證方法的 6B 模型最終略優(yōu)于微調(diào)的 175B 模型,性能提升大約相當(dāng)于模型大小增加 30 倍。


          訓(xùn)練驗證器既可以在全部的生成解決方案里進行單個標(biāo)量預(yù)測(single scalar prediction),也可以在解決方案的每個 token 后進行單個標(biāo)量預(yù)測,OpenAI 選擇后者,即訓(xùn)練驗證器在每個 token 之后進行預(yù)測。實驗結(jié)果如圖 6a 所示,它們分別標(biāo)記為「解決方案級別」和「token 級別」。

          在圖 6b 中,通過消融實驗驗證訓(xùn)練驗證器中使用目標(biāo)(objective)的作用, OpenAI 將使用兩個目標(biāo)與僅使用驗證目標(biāo)進行比較。

          在圖 6c 中,OpenAI 對生成器和驗證器的大小進行了實驗,研究發(fā)現(xiàn)使用大的生成器、小的驗證器組合性能顯著優(yōu)于小的生成器、大的驗證器組合。


          ??THE END?

          轉(zhuǎn)載請聯(lián)系原公眾號獲得授權(quán)

          投稿或?qū)で髨蟮溃篶[email protected]


          點個在看 paper不斷!

          瀏覽 47
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  青春草视频在线免费观看 | 99视频在线免费播放 | 人妻喷水在线 | 亚洲色图一区二区三区 | 影音先锋麻豆传媒 |