<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          Meta開(kāi)源1750億參數(shù)GPT-3,打臉OpenAI?網(wǎng)友點(diǎn)評(píng):GPT-4都要來(lái)了

          共 3855字,需瀏覽 8分鐘

           ·

          2022-05-15 22:09

          點(diǎn)藍(lán)色字關(guān)注“機(jī)器學(xué)習(xí)算法工程師

          設(shè)為星標(biāo),干貨直達(dá)!

          轉(zhuǎn)自新智元





          OpenAI的GPT-3已發(fā)布兩年,但還是只聽(tīng)說(shuō)過(guò),沒(méi)見(jiàn)過(guò)。最近Meta復(fù)現(xiàn)了一遍GPT-3,改名OPT,把代碼、權(quán)重、部署都開(kāi)源了出來(lái),并且還更環(huán)保,碳足跡僅為原版七分之一。


          2020年,OpenAI放出了具有1750億參數(shù)的預(yù)訓(xùn)練模型GPT-3,橫掃文本生成領(lǐng)域,不僅能問(wèn)答、翻譯、寫(xiě)文章,還能做數(shù)學(xué)計(jì)算。

           

          唯一的「美中不足」就是沒(méi)開(kāi)源,代碼和模型看著眼饞,卻到不了嘴邊。

           

          并且與微軟簽訂了「獨(dú)占協(xié)議」,公眾只能通過(guò)付費(fèi)API與模型進(jìn)行交互,完整的研究訪問(wèn)授權(quán)仍然僅限于少數(shù)資源豐富的實(shí)驗(yàn)室。

           

           

          直到Meta AI發(fā)布了一篇論文,直接復(fù)現(xiàn)了一遍GPT-3,效果不輸原版,還全開(kāi)源了出來(lái),從代碼、模型到部署,服務(wù)一條龍,從此1750億參數(shù)全量GPT-3觸手可得。

           

          論文鏈接:https://arxiv.org/abs/2205.01068

          倉(cāng)庫(kù)鏈接:https://github.com/facebookresearch/metaseq/tree/main/projects/OPT

           

          Meta并且還給模型改了個(gè)名字OPT,也就是更open的預(yù)訓(xùn)練Transformer語(yǔ)言模型,簡(jiǎn)直是照著OpenAI的臉打呀。

           

           

          OPT包含了多個(gè)尺寸的模型,對(duì)于顯卡數(shù)量囊中羞澀的研究組來(lái)說(shuō),可以選擇最適合自己的模型大小進(jìn)行研究。

           

           

          為了防止模型被濫用,Meta AI對(duì)于OPT-175B模型加了一個(gè)非商業(yè)許可,用戶需要填寫(xiě)一個(gè)申請(qǐng)表,該模型的訪問(wèn)權(quán)限將授予學(xué)術(shù)研究人員;隸屬于政府、民間社會(huì)和學(xué)術(shù)界組織的人員;以及世界各地的工業(yè)研究實(shí)驗(yàn)室。

           

           

          除了開(kāi)源外,Meta這次重新訓(xùn)練還很重視「環(huán)保」問(wèn)題。

           

          人工智能的模型訓(xùn)練極其消耗電力,在開(kāi)發(fā)OPT時(shí),Meta表示充分考慮了能源效率,通過(guò)全分片數(shù)據(jù)并行(FSDP)和Nvidia的tensor并行抽象,使得OPT-175B的碳足跡僅為GPT-3的七分之一。

           

           

          對(duì)于開(kāi)源的原因,MetaAI的董事總經(jīng)理Joelle Pineau表示,雖然GPT-3現(xiàn)在可以用API訪問(wèn),但模型的代碼和訓(xùn)練參數(shù)對(duì)于整個(gè)研究社區(qū)來(lái)說(shuō)顯然更重要,OPT-175B的發(fā)布也是業(yè)界首次開(kāi)放如此大規(guī)模的AI模型,未來(lái)將會(huì)有更多論文基于可復(fù)現(xiàn)的結(jié)果發(fā)表出來(lái)。

           

          不過(guò)也有網(wǎng)友指出,想看OpenAI笑話的可以停了,且不說(shuō)GPT-3已經(jīng)不是當(dāng)下最大型的語(yǔ)言模型,OpenAI的GPT-4都快來(lái)了。

           

           

          模型卡片


          2018年,計(jì)算機(jī)科學(xué)家Margaret Mitchell提出「模型卡片」概念,通過(guò)對(duì)模型建立檔案,可以讓用戶了解模型開(kāi)發(fā)的背景及適用條件,提高AI運(yùn)行的透明度,Meta AI也給OPT建立了一張模型卡片。

           

          論文鏈接:https://arxiv.org/pdf/1810.03993.pdf

           

          發(fā)布日期:2022年5月3日發(fā)布OPT-175B

           

          模型版本:1.0.0

           

          模型類(lèi)型:大型解碼Transformer語(yǔ)言模型

           

          不適用的用例:OPT-175B并非發(fā)布給生產(chǎn)使用或真實(shí)世界部署,OPT-175B和其他大型語(yǔ)言模型一樣有多種缺陷,對(duì)于商業(yè)應(yīng)用來(lái)說(shuō)還為時(shí)過(guò)早。

           

          評(píng)估數(shù)據(jù)的選擇:除了在公開(kāi)語(yǔ)言模型標(biāo)準(zhǔn)下評(píng)估外,Meta AI還在Hate Speech Detection, CrowS-Pairs, StereoSet等任務(wù)上對(duì)模型的偏見(jiàn)進(jìn)行評(píng)估。

           

          限制:與其他大型語(yǔ)言模型一樣,訓(xùn)練數(shù)據(jù)的缺乏多樣性會(huì)對(duì)模型的質(zhì)量產(chǎn)生下游影響,OPT-175B在偏見(jiàn)和安全性方面受到限制。OPT-175B在多樣性和幻覺(jué)(hallucination)方面也可能存在質(zhì)量問(wèn)題??偟膩?lái)說(shuō),OPT-175B對(duì)現(xiàn)代大型語(yǔ)言模型的問(wèn)題并不免疫。通過(guò)發(fā)放非商業(yè)許可證,Meta希望以此提高溝通、透明度,并研究大型語(yǔ)言模型的問(wèn)題,特別是在不符合商業(yè)利益的領(lǐng)域。

           

          數(shù)據(jù)卡片


          訓(xùn)練數(shù)據(jù)在機(jī)器學(xué)習(xí)中有時(shí)比模型更關(guān)鍵,也會(huì)從根本上影響模型的行為、產(chǎn)生偏見(jiàn)等,所以記錄模型的數(shù)據(jù)來(lái)源、使用方法就顯得很重要。2018年,Timnit Gebru在arxiv上提出通過(guò)問(wèn)答形式,為數(shù)據(jù)集進(jìn)行建檔,最終論文于2021年12月發(fā)表。

           

          論文鏈接:https://arxiv.org/abs/1803.09010

           

          下面為一些相對(duì)關(guān)鍵的數(shù)據(jù)問(wèn)題。

           

          動(dòng)機(jī):OPT-175B模型的預(yù)訓(xùn)練數(shù)據(jù)是由五個(gè)數(shù)據(jù)集(RoBERTa用到的三個(gè)數(shù)據(jù)集、Pile的子集以及Pushshift.io Reddit數(shù)據(jù)集)。創(chuàng)建這個(gè)數(shù)據(jù)庫(kù)的目的是在廣泛的文本語(yǔ)料庫(kù)上構(gòu)建預(yù)訓(xùn)練語(yǔ)言模型,重點(diǎn)是人工生成的文本。

           

          數(shù)據(jù)集:

          1. BookCorpus,由一萬(wàn)本未發(fā)表書(shū)籍構(gòu)成

          2. CC-Stories,包含CommonCrawl的一個(gè)子集,過(guò)濾條件為Winograd模式的story-like風(fēng)格

          3. The Pile包括Pile-CC, OpenWebText2, USPTO, Project Gutenberg, OpenSubtitles, Wikipedia, DM Mathematics, HackerNew

          4. Pushshiftio Reddit數(shù)據(jù)集

          5. CCNews V2包含一個(gè)更新版本的CommonCrawl News數(shù)據(jù)集

           

          數(shù)據(jù)集大?。喊?800億個(gè)Tokens,總計(jì)800GB的數(shù)據(jù)

           

          樣例是否包含raw data:是

           

          樣例是否包含label:否

           

          數(shù)據(jù)切分:將200MB的預(yù)訓(xùn)練數(shù)據(jù)劃分為驗(yàn)證集

           

          數(shù)據(jù)收集參與者:數(shù)據(jù)由機(jī)器全自動(dòng)挖掘、過(guò)濾和采樣

           

          數(shù)據(jù)預(yù)處理/清洗/標(biāo)注流程:組件數(shù)據(jù)經(jīng)過(guò)標(biāo)準(zhǔn)的清理和格式化實(shí)踐,包括刪除重復(fù)/非信息性文本,如「Chapter One」或「This ebook by Project Gutenberg」

           

          用愛(ài)發(fā)電


          進(jìn)入預(yù)訓(xùn)練時(shí)代以后,AI模型的研發(fā)轉(zhuǎn)為基于大公司開(kāi)源的大規(guī)模語(yǔ)言模型。

           

          但能否用上預(yù)訓(xùn)練模型,主要取決于大公司是否想做「慈善」,畢竟大模型的訓(xùn)練動(dòng)輒就是成百上千個(gè)GPU,還得搜集海量的訓(xùn)練數(shù)據(jù),還得給算法工程師開(kāi)工資,曾經(jīng)有人估算,想訓(xùn)練一次5300億參數(shù)量模型的PaLM,光租卡就至少得花900萬(wàn)美元。

           

          而本次OpenAI沒(méi)有開(kāi)放GPT-3,而是和微軟站隊(duì),也是引起了大量從業(yè)者的不滿,馬斯克直言OpenAI跟open越走越遠(yuǎn),網(wǎng)友也表示,還不如改名叫ClosedAI算了。

           

           

          這種受限訪問(wèn)限制了研究人員對(duì)大型語(yǔ)言模型的理解和研究,也阻礙了提升魯棒性、減輕模型偏見(jiàn)、毒性等已知問(wèn)題的努力。

           

          但如果都免費(fèi)開(kāi)源給社區(qū),瞬間就會(huì)讓大量的競(jìng)爭(zhēng)對(duì)手占領(lǐng)相同的高地,所以開(kāi)源大模型的行為實(shí)屬「用愛(ài)發(fā)電」。

           

          而本次OPT的發(fā)布,就屬于用愛(ài)發(fā)電來(lái)打破壟斷,斯坦福大學(xué)基礎(chǔ)模型研究中心主任Percy Liang對(duì)此評(píng)價(jià)為:開(kāi)啟了語(yǔ)言模型研究的新機(jī)會(huì)。

           

           

          總的來(lái)說(shuō),開(kāi)源得越深入,就越能促進(jìn)深層次問(wèn)題的研究:

           

          第一層:論文開(kāi)放,證明一些想法的可行性,提供一些通用的思路;

           

          第二層:API開(kāi)放,研究人員能夠探測(cè)、評(píng)估模型的能力(如推理)和限制(如偏見(jiàn))

           

          第三層:模型權(quán)重開(kāi)放,允許研究人員增量改進(jìn)模型,開(kāi)發(fā)出可解釋更好的技術(shù)、更有效的微調(diào)方法等;訓(xùn)練數(shù)據(jù)的開(kāi)放,允許研究人員更好地理解訓(xùn)練數(shù)據(jù)在模型行為中的作用。

           

          第四層:計(jì)算能力開(kāi)放,允許研究人員嘗試新框架,新的訓(xùn)練目標(biāo)和過(guò)程,數(shù)據(jù)集消融,在不同領(lǐng)域內(nèi)開(kāi)發(fā)出全新的模型。這些嘗試極其消耗計(jì)算資源,但也會(huì)對(duì)模型的理解和提升具有潛在價(jià)值。

           

          越高層次的開(kāi)放,帶來(lái)的也是更多的風(fēng)險(xiǎn)和不確定性,所以不同的基礎(chǔ)模型開(kāi)發(fā)者對(duì)于開(kāi)放策略也有不同的理解。

           

          不過(guò)就算Meta把OPT-175B發(fā)到手里了,還是得先看看自己有沒(méi)有16塊Nvidia V100顯卡。



          參考資料:

          https://github.com/facebookresearch/metaseq/tree/main/projects/OPT




          推薦閱讀

          深入理解生成模型VAE

          DropBlock的原理和實(shí)現(xiàn)

          SOTA模型Swin Transformer是如何煉成的!

          有碼有顏!你要的生成模型VQ-VAE來(lái)了!

          集成YYDS!讓你的模型更快更準(zhǔn)!

          輔助模塊加速收斂,精度大幅提升!移動(dòng)端實(shí)時(shí)的NanoDet-Plus來(lái)了!

          SimMIM:一種更簡(jiǎn)單的MIM方法

          SSD的torchvision版本實(shí)現(xiàn)詳解


          機(jī)器學(xué)習(xí)算法工程師


                                              一個(gè)用心的公眾號(hào)


          瀏覽 18
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  中文字幕 欧美 日韩 | 亚洲中文字幕视频在线 | 日韩中文字幕免费在线观看 | 老司机一区二区三区 | 大香蕉在线啪啪 |