<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          Meta開源1750億參數(shù)GPT-3,打臉OpenAI?網(wǎng)友點(diǎn)評:GPT-4都要來了

          共 3528字,需瀏覽 8分鐘

           ·

          2022-05-10 17:55



            視學(xué)算法報(bào)道  

          編輯:LRS

          【新智元導(dǎo)讀】OpenAI的GPT-3已發(fā)布兩年,但還是只聽說過,沒見過。最近Meta復(fù)現(xiàn)了一遍GPT-3,改名OPT,把代碼、權(quán)重、部署都開源了出來,并且還更環(huán)保,碳足跡僅為原版七分之一。


          2020年,OpenAI放出了具有1750億參數(shù)的預(yù)訓(xùn)練模型GPT-3,橫掃文本生成領(lǐng)域,不僅能問答、翻譯、寫文章,還能做數(shù)學(xué)計(jì)算。

           

          唯一的「美中不足」就是沒開源,代碼和模型看著眼饞,卻到不了嘴邊。

           

          并且與微軟簽訂了「獨(dú)占協(xié)議」,公眾只能通過付費(fèi)API與模型進(jìn)行交互,完整的研究訪問授權(quán)仍然僅限于少數(shù)資源豐富的實(shí)驗(yàn)室。

           

           

          直到Meta AI發(fā)布了一篇論文,直接復(fù)現(xiàn)了一遍GPT-3,效果不輸原版,還全開源了出來,從代碼、模型到部署,服務(wù)一條龍,從此1750億參數(shù)全量GPT-3觸手可得。

           

          論文鏈接:https://arxiv.org/abs/2205.01068

          倉庫鏈接:https://github.com/facebookresearch/metaseq/tree/main/projects/OPT

           

          Meta并且還給模型改了個(gè)名字OPT,也就是更open的預(yù)訓(xùn)練Transformer語言模型,簡直是照著OpenAI的臉打呀。

           

           

          OPT包含了多個(gè)尺寸的模型,對于顯卡數(shù)量囊中羞澀的研究組來說,可以選擇最適合自己的模型大小進(jìn)行研究。

           

           

          為了防止模型被濫用,Meta AI對于OPT-175B模型加了一個(gè)非商業(yè)許可,用戶需要填寫一個(gè)申請表,該模型的訪問權(quán)限將授予學(xué)術(shù)研究人員;隸屬于政府、民間社會(huì)和學(xué)術(shù)界組織的人員;以及世界各地的工業(yè)研究實(shí)驗(yàn)室。

           

           

          除了開源外,Meta這次重新訓(xùn)練還很重視「環(huán)?!箚栴}。

           

          人工智能的模型訓(xùn)練極其消耗電力,在開發(fā)OPT時(shí),Meta表示充分考慮了能源效率,通過全分片數(shù)據(jù)并行(FSDP)和Nvidia的tensor并行抽象,使得OPT-175B的碳足跡僅為GPT-3的七分之一。

           

           

          對于開源的原因,MetaAI的董事總經(jīng)理Joelle Pineau表示,雖然GPT-3現(xiàn)在可以用API訪問,但模型的代碼和訓(xùn)練參數(shù)對于整個(gè)研究社區(qū)來說顯然更重要,OPT-175B的發(fā)布也是業(yè)界首次開放如此大規(guī)模的AI模型,未來將會(huì)有更多論文基于可復(fù)現(xiàn)的結(jié)果發(fā)表出來。

           

          不過也有網(wǎng)友指出,想看OpenAI笑話的可以停了,且不說GPT-3已經(jīng)不是當(dāng)下最大型的語言模型,OpenAI的GPT-4都快來了。

           

           

          模型卡片


          2018年,計(jì)算機(jī)科學(xué)家Margaret Mitchell提出「模型卡片」概念,通過對模型建立檔案,可以讓用戶了解模型開發(fā)的背景及適用條件,提高AI運(yùn)行的透明度,Meta AI也給OPT建立了一張模型卡片。

           

          論文鏈接:https://arxiv.org/pdf/1810.03993.pdf

           

          發(fā)布日期:2022年5月3日發(fā)布OPT-175B

           

          模型版本:1.0.0

           

          模型類型:大型解碼Transformer語言模型

           

          不適用的用例:OPT-175B并非發(fā)布給生產(chǎn)使用或真實(shí)世界部署,OPT-175B和其他大型語言模型一樣有多種缺陷,對于商業(yè)應(yīng)用來說還為時(shí)過早。

           

          評估數(shù)據(jù)的選擇:除了在公開語言模型標(biāo)準(zhǔn)下評估外,Meta AI還在Hate Speech Detection, CrowS-Pairs, StereoSet等任務(wù)上對模型的偏見進(jìn)行評估。

           

          限制:與其他大型語言模型一樣,訓(xùn)練數(shù)據(jù)的缺乏多樣性會(huì)對模型的質(zhì)量產(chǎn)生下游影響,OPT-175B在偏見和安全性方面受到限制。OPT-175B在多樣性和幻覺(hallucination)方面也可能存在質(zhì)量問題。總的來說,OPT-175B對現(xiàn)代大型語言模型的問題并不免疫。通過發(fā)放非商業(yè)許可證,Meta希望以此提高溝通、透明度,并研究大型語言模型的問題,特別是在不符合商業(yè)利益的領(lǐng)域。

           

          數(shù)據(jù)卡片


          訓(xùn)練數(shù)據(jù)在機(jī)器學(xué)習(xí)中有時(shí)比模型更關(guān)鍵,也會(huì)從根本上影響模型的行為、產(chǎn)生偏見等,所以記錄模型的數(shù)據(jù)來源、使用方法就顯得很重要。2018年,Timnit Gebru在arxiv上提出通過問答形式,為數(shù)據(jù)集進(jìn)行建檔,最終論文于2021年12月發(fā)表。

           

          論文鏈接:https://arxiv.org/abs/1803.09010

           

          下面為一些相對關(guān)鍵的數(shù)據(jù)問題。

           

          動(dòng)機(jī):OPT-175B模型的預(yù)訓(xùn)練數(shù)據(jù)是由五個(gè)數(shù)據(jù)集(RoBERTa用到的三個(gè)數(shù)據(jù)集、Pile的子集以及Pushshift.io Reddit數(shù)據(jù)集)。創(chuàng)建這個(gè)數(shù)據(jù)庫的目的是在廣泛的文本語料庫上構(gòu)建預(yù)訓(xùn)練語言模型,重點(diǎn)是人工生成的文本。

           

          數(shù)據(jù)集:

          1. BookCorpus,由一萬本未發(fā)表書籍構(gòu)成

          2. CC-Stories,包含CommonCrawl的一個(gè)子集,過濾條件為Winograd模式的story-like風(fēng)格

          3. The Pile包括Pile-CC, OpenWebText2, USPTO, Project Gutenberg, OpenSubtitles, Wikipedia, DM Mathematics, HackerNew

          4. Pushshiftio Reddit數(shù)據(jù)集

          5. CCNews V2包含一個(gè)更新版本的CommonCrawl News數(shù)據(jù)集

           

          數(shù)據(jù)集大?。喊?800億個(gè)Tokens,總計(jì)800GB的數(shù)據(jù)

           

          樣例是否包含raw data:是

           

          樣例是否包含label:否

           

          數(shù)據(jù)切分:將200MB的預(yù)訓(xùn)練數(shù)據(jù)劃分為驗(yàn)證集

           

          數(shù)據(jù)收集參與者:數(shù)據(jù)由機(jī)器全自動(dòng)挖掘、過濾和采樣

           

          數(shù)據(jù)預(yù)處理/清洗/標(biāo)注流程:組件數(shù)據(jù)經(jīng)過標(biāo)準(zhǔn)的清理和格式化實(shí)踐,包括刪除重復(fù)/非信息性文本,如「Chapter One」或「This ebook by Project Gutenberg」

           

          用愛發(fā)電


          進(jìn)入預(yù)訓(xùn)練時(shí)代以后,AI模型的研發(fā)轉(zhuǎn)為基于大公司開源的大規(guī)模語言模型。

           

          但能否用上預(yù)訓(xùn)練模型,主要取決于大公司是否想做「慈善」,畢竟大模型的訓(xùn)練動(dòng)輒就是成百上千個(gè)GPU,還得搜集海量的訓(xùn)練數(shù)據(jù),還得給算法工程師開工資,曾經(jīng)有人估算,想訓(xùn)練一次5300億參數(shù)量模型的PaLM,光租卡就至少得花900萬美元。

           

          而本次OpenAI沒有開放GPT-3,而是和微軟站隊(duì),也是引起了大量從業(yè)者的不滿,馬斯克直言OpenAI跟open越走越遠(yuǎn),網(wǎng)友也表示,還不如改名叫ClosedAI算了。

           

           

          這種受限訪問限制了研究人員對大型語言模型的理解和研究,也阻礙了提升魯棒性、減輕模型偏見、毒性等已知問題的努力。

           

          但如果都免費(fèi)開源給社區(qū),瞬間就會(huì)讓大量的競爭對手占領(lǐng)相同的高地,所以開源大模型的行為實(shí)屬「用愛發(fā)電」。

           

          而本次OPT的發(fā)布,就屬于用愛發(fā)電來打破壟斷,斯坦福大學(xué)基礎(chǔ)模型研究中心主任Percy Liang對此評價(jià)為:開啟了語言模型研究的新機(jī)會(huì)。

           

           

          總的來說,開源得越深入,就越能促進(jìn)深層次問題的研究:

           

          第一層:論文開放,證明一些想法的可行性,提供一些通用的思路;

           

          第二層:API開放,研究人員能夠探測、評估模型的能力(如推理)和限制(如偏見)

           

          第三層:模型權(quán)重開放,允許研究人員增量改進(jìn)模型,開發(fā)出可解釋更好的技術(shù)、更有效的微調(diào)方法等;訓(xùn)練數(shù)據(jù)的開放,允許研究人員更好地理解訓(xùn)練數(shù)據(jù)在模型行為中的作用。

           

          第四層:計(jì)算能力開放,允許研究人員嘗試新框架,新的訓(xùn)練目標(biāo)和過程,數(shù)據(jù)集消融,在不同領(lǐng)域內(nèi)開發(fā)出全新的模型。這些嘗試極其消耗計(jì)算資源,但也會(huì)對模型的理解和提升具有潛在價(jià)值。

           

          越高層次的開放,帶來的也是更多的風(fēng)險(xiǎn)和不確定性,所以不同的基礎(chǔ)模型開發(fā)者對于開放策略也有不同的理解。

           

          不過就算Meta把OPT-175B發(fā)到手里了,還是得先看看自己有沒有16塊Nvidia V100顯卡。


          參考資料:

          https://github.com/facebookresearch/metaseq/tree/main/projects/OPT


          點(diǎn)個(gè)在看 paper不斷!

          瀏覽 17
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評論
          圖片
          表情
          推薦
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  国产精品激情五月综合 | 国产一级二级三级精品毛片 | 人人妻人人躁人人DVD | 好屌日在线视频 | 日皮视频免费观看网站 |