60億擊敗1750億、驗證勝過微調(diào):OpenAI發(fā)現(xiàn)GPT-3解決數(shù)學(xué)題,并非參數(shù)越大越好
視學(xué)算法報道
編輯:杜偉、陳
現(xiàn)在,OpenAI 的模型也具備解決小學(xué)數(shù)學(xué)應(yīng)用題的能力了。
比如問題:安東尼有 50 支鉛筆。他把 1/2 的鉛筆給了布蘭登,剩下的 3/5 鉛筆給了查理。他保留了剩下的鉛筆。問安東尼保留了多少支鉛筆?

論文地址:https://arxiv.org/pdf/2110.14168.pdf
數(shù)據(jù)集地址:https://github.com/openai/grade-school-math
Tim 種了 5 棵樹。他每年從每棵樹上收集 6 個檸檬。他十年能得到多少檸檬?







在訓(xùn)練集上對模型(生成器)進行 2 個 epoch 的微調(diào);
從生成器中為每個訓(xùn)練問題抽取 100 個完成樣本,并將每個解決方案標(biāo)記為正確或不正確;
在數(shù)據(jù)集上訓(xùn)練一個單一 epoch 的驗證器。



??THE END?
轉(zhuǎn)載請聯(lián)系原公眾號獲得授權(quán)
投稿或?qū)で髨蟮溃篶[email protected]

點個在看 paper不斷!
評論
圖片
表情
