視學(xué)算法報(bào)道

編輯：LRS

【新智元導(dǎo)讀】OpenAI的GPT-3已發(fā)布兩年，但還是只聽說過，沒見過。最近Meta復(fù)現(xiàn)了一遍GPT-3，改名OPT，把代碼、權(quán)重、部署都開源了出來，并且還更環(huán)保，碳足跡僅為原版七分之一。

2020年，OpenAI放出了具有1750億參數(shù)的預(yù)訓(xùn)練模型GPT-3，橫掃文本生成領(lǐng)域，不僅能問答、翻譯、寫文章，還能做數(shù)學(xué)計(jì)算。

唯一的「美中不足」就是沒開源，代碼和模型看著眼饞，卻到不了嘴邊。

并且與微軟簽訂了「獨(dú)占協(xié)議」，公眾只能通過付費(fèi)API與模型進(jìn)行交互，完整的研究訪問授權(quán)仍然僅限于少數(shù)資源豐富的實(shí)驗(yàn)室。

直到Meta AI發(fā)布了一篇論文，直接復(fù)現(xiàn)了一遍GPT-3，效果不輸原版，還全開源了出來，從代碼、模型到部署，服務(wù)一條龍，從此1750億參數(shù)全量GPT-3觸手可得。

論文鏈接：https://arxiv.org/abs/2205.01068

倉庫鏈接：https://github.com/facebookresearch/metaseq/tree/main/projects/OPT

Meta并且還給模型改了個(gè)名字OPT，也就是更open的預(yù)訓(xùn)練Transformer語言模型，簡直是照著OpenAI的臉打呀。

OPT包含了多個(gè)尺寸的模型，對于顯卡數(shù)量囊中羞澀的研究組來說，可以選擇最適合自己的模型大小進(jìn)行研究。

為了防止模型被濫用，Meta AI對于OPT-175B模型加了一個(gè)非商業(yè)許可，用戶需要填寫一個(gè)申請表，該模型的訪問權(quán)限將授予學(xué)術(shù)研究人員；隸屬于政府、民間社會(huì)和學(xué)術(shù)界組織的人員；以及世界各地的工業(yè)研究實(shí)驗(yàn)室。

除了開源外，Meta這次重新訓(xùn)練還很重視「環(huán)?！箚栴}。

人工智能的模型訓(xùn)練極其消耗電力，在開發(fā)OPT時(shí)，Meta表示充分考慮了能源效率，通過全分片數(shù)據(jù)并行（FSDP）和Nvidia的tensor并行抽象，使得OPT-175B的碳足跡僅為GPT-3的七分之一。

對于開源的原因，MetaAI的董事總經(jīng)理Joelle Pineau表示，雖然GPT-3現(xiàn)在可以用API訪問，但模型的代碼和訓(xùn)練參數(shù)對于整個(gè)研究社區(qū)來說顯然更重要，OPT-175B的發(fā)布也是業(yè)界首次開放如此大規(guī)模的AI模型，未來將會(huì)有更多論文基于可復(fù)現(xiàn)的結(jié)果發(fā)表出來。

不過也有網(wǎng)友指出，想看OpenAI笑話的可以停了，且不說GPT-3已經(jīng)不是當(dāng)下最大型的語言模型，OpenAI的GPT-4都快來了。

模型卡片

2018年，計(jì)算機(jī)科學(xué)家Margaret Mitchell提出「模型卡片」概念，通過對模型建立檔案，可以讓用戶了解模型開發(fā)的背景及適用條件，提高AI運(yùn)行的透明度，Meta AI也給OPT建立了一張模型卡片。

論文鏈接：https://arxiv.org/pdf/1810.03993.pdf

發(fā)布日期：2022年5月3日發(fā)布OPT-175B

模型版本：1.0.0

模型類型：大型解碼Transformer語言模型

不適用的用例：OPT-175B并非發(fā)布給生產(chǎn)使用或真實(shí)世界部署，OPT-175B和其他大型語言模型一樣有多種缺陷，對于商業(yè)應(yīng)用來說還為時(shí)過早。

評估數(shù)據(jù)的選擇：除了在公開語言模型標(biāo)準(zhǔn)下評估外，Meta AI還在Hate Speech Detection, CrowS-Pairs, StereoSet等任務(wù)上對模型的偏見進(jìn)行評估。

限制：與其他大型語言模型一樣，訓(xùn)練數(shù)據(jù)的缺乏多樣性會(huì)對模型的質(zhì)量產(chǎn)生下游影響，OPT-175B在偏見和安全性方面受到限制。OPT-175B在多樣性和幻覺（hallucination）方面也可能存在質(zhì)量問題。總的來說，OPT-175B對現(xiàn)代大型語言模型的問題并不免疫。通過發(fā)放非商業(yè)許可證，Meta希望以此提高溝通、透明度，并研究大型語言模型的問題，特別是在不符合商業(yè)利益的領(lǐng)域。

數(shù)據(jù)卡片

訓(xùn)練數(shù)據(jù)在機(jī)器學(xué)習(xí)中有時(shí)比模型更關(guān)鍵，也會(huì)從根本上影響模型的行為、產(chǎn)生偏見等，所以記錄模型的數(shù)據(jù)來源、使用方法就顯得很重要。2018年，Timnit Gebru在arxiv上提出通過問答形式，為數(shù)據(jù)集進(jìn)行建檔，最終論文于2021年12月發(fā)表。

論文鏈接：https://arxiv.org/abs/1803.09010

下面為一些相對關(guān)鍵的數(shù)據(jù)問題。

動(dòng)機(jī)：OPT-175B模型的預(yù)訓(xùn)練數(shù)據(jù)是由五個(gè)數(shù)據(jù)集（RoBERTa用到的三個(gè)數(shù)據(jù)集、Pile的子集以及Pushshift.io Reddit數(shù)據(jù)集）。創(chuàng)建這個(gè)數(shù)據(jù)庫的目的是在廣泛的文本語料庫上構(gòu)建預(yù)訓(xùn)練語言模型，重點(diǎn)是人工生成的文本。

數(shù)據(jù)集：

1. BookCorpus，由一萬本未發(fā)表書籍構(gòu)成

2. CC-Stories，包含CommonCrawl的一個(gè)子集，過濾條件為Winograd模式的story-like風(fēng)格

3. The Pile包括Pile-CC, OpenWebText2, USPTO, Project Gutenberg, OpenSubtitles, Wikipedia, DM Mathematics, HackerNew

4. Pushshiftio Reddit數(shù)據(jù)集

5. CCNews V2包含一個(gè)更新版本的CommonCrawl News數(shù)據(jù)集

數(shù)據(jù)集大?。喊?800億個(gè)Tokens，總計(jì)800GB的數(shù)據(jù)

樣例是否包含raw data：是

樣例是否包含label：否

數(shù)據(jù)切分：將200MB的預(yù)訓(xùn)練數(shù)據(jù)劃分為驗(yàn)證集

數(shù)據(jù)收集參與者：數(shù)據(jù)由機(jī)器全自動(dòng)挖掘、過濾和采樣

數(shù)據(jù)預(yù)處理/清洗/標(biāo)注流程：組件數(shù)據(jù)經(jīng)過標(biāo)準(zhǔn)的清理和格式化實(shí)踐，包括刪除重復(fù)/非信息性文本，如「Chapter One」或「This ebook by Project Gutenberg」

用愛發(fā)電

進(jìn)入預(yù)訓(xùn)練時(shí)代以后，AI模型的研發(fā)轉(zhuǎn)為基于大公司開源的大規(guī)模語言模型。

但能否用上預(yù)訓(xùn)練模型，主要取決于大公司是否想做「慈善」，畢竟大模型的訓(xùn)練動(dòng)輒就是成百上千個(gè)GPU，還得搜集海量的訓(xùn)練數(shù)據(jù)，還得給算法工程師開工資，曾經(jīng)有人估算，想訓(xùn)練一次5300億參數(shù)量模型的PaLM，光租卡就至少得花900萬美元。

而本次OpenAI沒有開放GPT-3，而是和微軟站隊(duì)，也是引起了大量從業(yè)者的不滿，馬斯克直言OpenAI跟open越走越遠(yuǎn)，網(wǎng)友也表示，還不如改名叫ClosedAI算了。

這種受限訪問限制了研究人員對大型語言模型的理解和研究，也阻礙了提升魯棒性、減輕模型偏見、毒性等已知問題的努力。

但如果都免費(fèi)開源給社區(qū)，瞬間就會(huì)讓大量的競爭對手占領(lǐng)相同的高地，所以開源大模型的行為實(shí)屬「用愛發(fā)電」。

而本次OPT的發(fā)布，就屬于用愛發(fā)電來打破壟斷，斯坦福大學(xué)基礎(chǔ)模型研究中心主任Percy Liang對此評價(jià)為：開啟了語言模型研究的新機(jī)會(huì)。

總的來說，開源得越深入，就越能促進(jìn)深層次問題的研究：

第一層：論文開放，證明一些想法的可行性，提供一些通用的思路；

第二層：API開放，研究人員能夠探測、評估模型的能力（如推理）和限制（如偏見）

第三層：模型權(quán)重開放，允許研究人員增量改進(jìn)模型，開發(fā)出可解釋更好的技術(shù)、更有效的微調(diào)方法等；訓(xùn)練數(shù)據(jù)的開放，允許研究人員更好地理解訓(xùn)練數(shù)據(jù)在模型行為中的作用。

第四層：計(jì)算能力開放，允許研究人員嘗試新框架，新的訓(xùn)練目標(biāo)和過程，數(shù)據(jù)集消融，在不同領(lǐng)域內(nèi)開發(fā)出全新的模型。這些嘗試極其消耗計(jì)算資源，但也會(huì)對模型的理解和提升具有潛在價(jià)值。

越高層次的開放，帶來的也是更多的風(fēng)險(xiǎn)和不確定性，所以不同的基礎(chǔ)模型開發(fā)者對于開放策略也有不同的理解。

不過就算Meta把OPT-175B發(fā)到手里了，還是得先看看自己有沒有16塊Nvidia V100顯卡。

參考資料：

https://github.com/facebookresearch/metaseq/tree/main/projects/OPT

點(diǎn)個(gè)在看 paper不斷！

Meta開源1750億參數(shù)GPT-3，打臉OpenAI？網(wǎng)友點(diǎn)評：GPT-4都要來了

視學(xué)算法報(bào)道

模型卡片

數(shù)據(jù)卡片

用愛發(fā)電

Meta開源1750億參數(shù)GPT-3，打臉OpenAI？網(wǎng)友點(diǎn)評：GPT-4都要來了