<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          ChatGPT數(shù)據(jù)集之謎

          共 15879字,需瀏覽 32分鐘

           ·

          2023-02-18 10:42

          半個月以來,ChatGPT這把火越燒越旺。國內(nèi)很多大廠相繼聲稱要做中文版ChatGPT,還公布了上線時間表,不少科技圈已功成名就的大佬也按捺不住,攜巨資下場,要創(chuàng)建“中國版OpenAI“。

          不過,看看過去半個月在群眾眼里稍顯窘迫的Meta的Galactica,以及Google緊急發(fā)布的Bard,就知道在短期內(nèi)打造一個比肩甚至超越ChatGPT效果的模型沒那么簡單。


          讓很多人不免感到詫異的是,ChatGPT的核心算法Transformer最初是由Google提出的,并且在大模型技術(shù)上的積累可以說不弱于OpenAI,當然他們也不缺算力和數(shù)據(jù),但為什么依然會被ChatGPT打的措手不及?


          Meta首席AI科學(xué)家Yann LeCun最近抨擊ChatGPT的名言實際上解釋了背后的門道。他說,ChatGPT“只是巧妙的組合而已”,這句話恰恰道出了一種無形的技術(shù)壁壘。


          簡單來說,即使其他團隊的算法、數(shù)據(jù)、算力都準備的與OpenAI相差無幾,但就是沒想到以一種精巧的方式把這些元素組裝起來,沒有OpenAI,全行業(yè)不知道還需要去趟多少坑。


          即使OpenAI給出了算法上的一條路徑,后來者想復(fù)現(xiàn)ChatGPT,算力、工程、數(shù)據(jù),每一個要素都需要非常深的積累。七龍珠之中,算力是自由流通的商品,花錢可以買到,工程上有OneFlow這樣的開源項目和團隊,因此,對互聯(lián)網(wǎng)大廠之外的團隊來說,剩下最大的挑戰(zhàn)在于高質(zhì)量訓(xùn)練數(shù)據(jù)集。


          至今,OpenAI并沒有公開訓(xùn)練ChatGPT的相關(guān)數(shù)據(jù)集來源和具體細節(jié),一定程度上也暫時卡了追趕者的脖子,更何況,業(yè)界公認中文互聯(lián)網(wǎng)數(shù)據(jù)質(zhì)量堪憂。

          好在,互聯(lián)網(wǎng)上總有熱心的牛人分析技術(shù)的細枝末節(jié),從雜亂的資料中串聯(lián)起蛛絲馬跡,從而歸納出非常有價值的信息。


          此前,OneFlow發(fā)布了《ChatGPT背后的經(jīng)濟賬,其作者從經(jīng)濟學(xué)視角推導(dǎo)了訓(xùn)練大型語言模型的成本。本文作者則整理分析了2018年到2022年初從GPT-1到Gopher的相關(guān)大型語言模型的所有數(shù)據(jù)集相關(guān)信息,希望幫助有志于開發(fā)“類ChatGPT”模型的團隊少走一步彎路。


          作者|Alan D. Thompson
          OneFlow編譯
          翻譯|楊婷、徐佳渝、賈川

          一些研究人員的報告稱,通用人工智能(AGI)可能是從我們當前的語言模型技術(shù)進行演進[1],預(yù)訓(xùn)練Transformer語言模型為AGI的發(fā)展鋪平了道路。雖然模型訓(xùn)練數(shù)據(jù)集日漸增大,但缺乏基本指標文檔,包括數(shù)據(jù)集大小、數(shù)據(jù)集token數(shù)量和具體的內(nèi)容細節(jié)。

          盡管業(yè)內(nèi)提出了數(shù)據(jù)集組成和整理文檔的標準[2],但幾乎所有重點研究實驗室在揭示模型訓(xùn)練數(shù)據(jù)集細節(jié)這方面都做得不夠。這里整合的研究涵蓋了2018年到2022年初從GPT-1到Gopher的精選語言模型的所有數(shù)據(jù)集(包括主要數(shù)據(jù)集:Wikipedia和Common Crawl)的綜合視圖。


          1
          概述

          圖 1. 主要數(shù)據(jù)集大小的可視化匯總。未加權(quán)大小,以GB為單位。
           
          2018年以來,大語言模型的開發(fā)和生產(chǎn)使用呈現(xiàn)出爆炸式增長。一些重點研究實驗室報告稱,公眾對大語言模型的使用率達到了驚人高度。2021年3月,OpenAI宣布[3]其GPT-3語言模型被“超過300個應(yīng)用程序使用,平均每天能夠生成45億個詞”,也就是說僅單個模型每分鐘就能生成310萬詞的新內(nèi)容。
           
          值得注意的是,這些語言模型甚至還沒有被完全理解,斯坦福大學(xué)的研究人員[4]最近坦言,“目前我們對這些模型還缺乏認知,還不太了解這些模型的運轉(zhuǎn)模式、不知道模型何時會失效,更不知道這些模型的突現(xiàn)性(emergent properties)能產(chǎn)生什么效果”。
           
          隨著新型AI技術(shù)的快速發(fā)展,模型訓(xùn)練數(shù)據(jù)集的相關(guān)文檔質(zhì)量有所下降。模型內(nèi)部到底有什么秘密?它們又是如何組建的?本文綜合整理并分析了現(xiàn)代大型語言模型的訓(xùn)練數(shù)據(jù)集。
           
          因為這方面的原始文獻并不對外公開,所以本文搜集整合了二、三級研究資料,在必要的時候本文會采用假設(shè)的方式來推算最終結(jié)果。
           
          在本文中,我們會將原始論文中已經(jīng)明確的特定細節(jié)(例如token數(shù)量或數(shù)據(jù)集大?。w類為“公開的(disclosed)”數(shù)據(jù),并作加粗處理。
           
          多數(shù)情況下,適當?shù)貐⒖级?、三級文獻,并采用假設(shè)的方式來確定最終結(jié)果是很有必要的。在這些情況下,token數(shù)量和數(shù)據(jù)集大小等細節(jié)是“確定的(determined)”,并以斜體標記。
           
          模型數(shù)據(jù)集可分為六類,分別是:維基百科、書籍、期刊、Reddit鏈接、Common Crawl和其他數(shù)據(jù)集。
          表1. 主要數(shù)據(jù)集大小匯總。以GB為單位。公開的數(shù)據(jù)以粗體表示。確定的數(shù)據(jù)以斜體表示。僅原始訓(xùn)練數(shù)據(jù)集大小。
           
          1.1. 維基百科
           
          維基百科是一個免費的多語言協(xié)作在線百科全書,由超過300,000名志愿者組成的社區(qū)編寫和維護。截至2022年4月,英文版維基百科中有超過640萬篇文章,包含超40億個詞[5]。維基百科中的文本很有價值,因為它被嚴格引用,以說明性文字形式寫成,并且跨越多種語言和領(lǐng)域。一般來說,重點研究實驗室會首先選取它的純英文過濾版作為數(shù)據(jù)集。
           
          1.2. 書籍
           
          故事型書籍由小說和非小說兩大類組成,主要用于訓(xùn)練模型的故事講述能力和反應(yīng)能力,數(shù)據(jù)集包括Project Gutenberg和Smashwords (Toronto BookCorpus/BookCorpus)等。
           
          1.3. 雜志期刊
           
          預(yù)印本和已發(fā)表期刊中的論文為數(shù)據(jù)集提供了堅實而嚴謹?shù)幕A(chǔ),因為學(xué)術(shù)寫作通常來說更有條理、理性和細致。這類數(shù)據(jù)集包括ArXiv和美國國家衛(wèi)生研究院等。
           
          1.4. Reddit鏈接
           
          WebText是一個大型數(shù)據(jù)集,它的數(shù)據(jù)是從社交媒體平臺Reddit所有出站鏈接網(wǎng)絡(luò)中爬取的,每個鏈接至少有三個贊,代表了流行內(nèi)容的風向標,對輸出優(yōu)質(zhì)鏈接和后續(xù)文本數(shù)據(jù)具有指導(dǎo)作用。


          1.5. Common Crawl


          Common Crawl是2008年至今的一個網(wǎng)站抓取的大型數(shù)據(jù)集,數(shù)據(jù)包含原始網(wǎng)頁、元數(shù)據(jù)和文本提取,它的文本來自不同語言、不同領(lǐng)域。重點研究實驗室一般會首先選取它的純英文過濾版(C4)作為數(shù)據(jù)集。

          1.6. 其他數(shù)據(jù)集
           
          不同于上述類別,這類數(shù)據(jù)集由GitHub等代碼數(shù)據(jù)集、StackExchange 等對話論壇和視頻字幕數(shù)據(jù)集組成。

           

          2
          常用數(shù)據(jù)集

           
          2019年以來,大多數(shù)基于Transformer的大型語言模型 (LLM) 都依賴于英文維基百科和Common Crawl的大型數(shù)據(jù)集。在本節(jié)中,我們參考了Jesse Dodge和AllenAI(AI2)[8]團隊的綜合分析,按類別對英文維基百科作了高級概述,并在Common Crawl數(shù)據(jù)集[7]的基礎(chǔ)上,用谷歌C4[6] (Colossal Clean Crawled Corpus)在Common Crawl中提供了頂級域(domains)。
           
          2.1. 維基百科(英文版)分析
           
          下面按類別[9]列出了維基百科的詳細信息,涵蓋了2015年抽樣的1001篇隨機文章,研究人員注意到隨時間推移文章傳播的穩(wěn)定性。假設(shè)一個11.4GB、經(jīng)過清理和過濾的維基百科英文版有30億token,我們就可以確定類別大小和token。
          表2. 英文維基百科數(shù)據(jù)集類別。公開的數(shù)據(jù)以粗體表示。確定的數(shù)據(jù)以斜體表示。
           
          2.2 Common Crawl分析
           
          基于AllenAI (AI2)的C4論文,我們可以確定,過濾后的英文C4數(shù)據(jù)集的每個域的token數(shù)和總體百分比,該數(shù)據(jù)集為305GB,其中token數(shù)為1560億。

          表3. C4:前23個域(不包括維基百科)。公開的數(shù)據(jù)以粗體表示,確定的數(shù)據(jù)以斜體表示。

           

          3

          GPT-1數(shù)據(jù)集

           
          2018年,OpenAI發(fā)布了1.17億參數(shù)的GPT-1。在論文中,OpenAI并沒有公布模型訓(xùn)練數(shù)據(jù)集的來源和內(nèi)容[10],另外,論文誤將‘BookCorpus’拼寫成了‘BooksCorpus’。BookCorpus以作家未出版的免費書籍為基礎(chǔ),這些書籍來自于Smashwords,這是一個自稱為“世界上最大的獨立電子書分銷商” 的電子書網(wǎng)站。這個數(shù)據(jù)集也被稱為Toronto BookCorpus。經(jīng)過幾次重構(gòu)之后,BookCorpus數(shù)據(jù)集的最終大小確定為4.6GB[11]。
           
          2021年,經(jīng)過全面的回顧性分析,BookCorpus數(shù)據(jù)集對按流派分組的書籍數(shù)量和各類書籍百分比進行了更正[12]。數(shù)據(jù)集中有關(guān)書籍類型的更多詳細信息如下:

          表4. BookCorpus書籍類型。公開的數(shù)據(jù)以粗體表示,確定的數(shù)據(jù)以斜體表示。
           
          在隨后的數(shù)據(jù)集重構(gòu)中,BookCorpus數(shù)據(jù)集進一步過濾掉了書籍中的“吸血鬼”類別、降低了言情類書籍的百分比、增加了“歷史”類書籍,增加了收集的書籍數(shù)量。

          3.1. GPT-1數(shù)據(jù)集總結(jié)
           
          GPT-1最終的數(shù)據(jù)集總結(jié)分析如下:
          表5.GPT-1數(shù)據(jù)集總結(jié)。以GB為單位。公開的數(shù)據(jù)以粗體表示,確定的數(shù)據(jù)以斜體表示。

          4

          GPT-2數(shù)據(jù)集
           
          2019年,OpenAI發(fā)布了擁有15億參數(shù)的語言模型GPT-2。GPT-2論文闡明了所用訓(xùn)練數(shù)據(jù)集的大小[13],不過并未說明其內(nèi)容。而GPT-2模型卡(model card)(在GPT-2 GitHub倉庫中)說明了模型內(nèi)容[14]。
           
          我們可以從GPT-3論文中得到token數(shù)量,該論文使用了WebText擴展版本來表示190億token。據(jù)推測,2020年推出的WebText擴展版本擁有12個月的額外數(shù)據(jù)(additional data),因此它可能比2019年推出的GPT-2版本大25%左右[15]。GPT-2最終的token數(shù)量確定為150億左右。
           
          如GPT-2論文所述,假設(shè)模型卡顯示鏈接數(shù)時,每個鏈接都可以被4500萬鏈接總數(shù)所除,那WebText的內(nèi)容在數(shù)據(jù)集中所占的百分比的詳細信息就可以確定。
           
          然后可以使用確定的150億token數(shù)量來查找每個域的token數(shù)量。請注意,在可用的前1,000個域中,此處僅顯示前50個域。
           

          表6. WebText: 前50個域。 公開的數(shù)據(jù)以粗體表示,確定的數(shù)據(jù)以斜體表示。

          4.1. GPT-2數(shù)據(jù)集總結(jié)
           
          GPT-2模型最終的數(shù)據(jù)集總結(jié)分析如下:

          表7. GPT-2數(shù)據(jù)集總結(jié)。 公開的數(shù)據(jù)以粗體表示,確定的數(shù)據(jù)以斜體表示。

          5

          GPT-3數(shù)據(jù)集
           
          GPT-3模型由OpenAI于2020年發(fā)布。論文闡明了所用訓(xùn)練數(shù)據(jù)集的token數(shù)量[16],但訓(xùn)練數(shù)據(jù)集的內(nèi)容和大小尚不清楚(Common Crawl的數(shù)據(jù)集大小除外[17])

          表8. GPT-3數(shù)據(jù)集。 公開的數(shù)據(jù)以粗體表示,確定的數(shù)據(jù)以斜體表示。
           
          5.1. GPT-3:關(guān)于Books1和Books2數(shù)據(jù)集的分析
           
          特別值得關(guān)注的是,在OpenAI的GPT-3論文中,并未公開Books1數(shù)據(jù)集(120億token)和Books2數(shù)據(jù)集(550億token)的大小和來源。關(guān)于這兩個數(shù)據(jù)集的來源人們提出了幾個假設(shè),包括來自LibGen18和Sci-Hub的類似數(shù)據(jù)集,不過這兩個數(shù)據(jù)集常以TB為計,大到無法匹配。

          5.2. GPT-3:Books1
           
          GPT-3使用的Books1數(shù)據(jù)集不可能與GPT-1使用的BookCorpus數(shù)據(jù)集相同,原因在于Books1的數(shù)據(jù)集更大,達120億token。在一篇引用的論文[19]中就提及GPT-1使用的BookCorpus數(shù)據(jù)集擁有9.848億個詞,但這可能只相當于13億token(984.8字x 1.3字的token乘數(shù))。
           
          通過標準化項目古騰堡語料庫(SPGC),Books1有可能與古騰堡項目保持一致性。SPGC是一種開放式科學(xué)方法,被用于古騰堡項目完整的PG數(shù)據(jù)的精選(curated)版本。SPGC包含120億個token[20],大約為21GB[21]。

          5.3. GPT-3:Books2
           
          Books2(550億token)可能與Bibliotik保持一致,并由EleutherA收集該來源的數(shù)據(jù),組成數(shù)據(jù)集,使其成為The Pile v1的一部分。Bibliotik版本為100.96GB[22],其確定的token數(shù)僅為250億,低于Books2公開的550億。然而,使用SPGC的‘每字節(jié)token數(shù)’比率(大約為1:1.75),Bibliotik的token數(shù)和大小將更接近于Books2。

          5.4. GPT-3數(shù)據(jù)集總結(jié)
           
          附錄A概述了使用Wikipedia + CommonCrawl + WebText數(shù)據(jù)集的頂級資源列表。GPT-3模型的最終數(shù)據(jù)集總結(jié)分析如下:

          表9.GPT-3數(shù)據(jù)集總結(jié)。公開的數(shù)據(jù)以粗體表示,確定的數(shù)據(jù)以斜體表示。

          6

          The Pile v1(GPT-J和GPT-NeoX-20B)數(shù)據(jù)集

          The Pile v1數(shù)據(jù)集由EleutherAI于2021年發(fā)布,該數(shù)據(jù)集已被用于訓(xùn)練包括GPT-J、GPT-NeoX-20B在內(nèi)的多種模型,并作為包括MT-NLG在內(nèi)的其他模型的部分數(shù)據(jù)集。The Pile v1論文闡明了所用訓(xùn)練數(shù)據(jù)集的來源和大小。隨著token數(shù)量的增加,The Pile v1論文應(yīng)被用作未來數(shù)據(jù)集文檔的黃金標準。
           
          有關(guān)token數(shù)量的更多詳情,可以使用本文提供的信息來確定,參見表1(大小以GB為單位)和表7(token/每字節(jié))[23]。

          表10. The Pile v1數(shù)據(jù)集。公開的數(shù)據(jù)以粗體表示,確定的數(shù)據(jù)以斜體表示。
           
          6.1. The Pile v1分組數(shù)據(jù)集(Grouped Datasets)
           
          為了確定如‘Books’、‘Journals’和‘CC’這類數(shù)據(jù)集的大小,筆者對數(shù)據(jù)集進行了分組,如下表所示。

          表11. The Pile v1分組數(shù)據(jù)集(不包括Wikipedia、CC 和 WebText)。公開的數(shù)據(jù)以粗體表示,確定的以斜體表示。

          6.2. The Pile v1數(shù)據(jù)集總結(jié)
           
          The Pile v1數(shù)據(jù)集與GPT-J和GPT-NeoX-20B模型的最終數(shù)據(jù)集總結(jié)分析如下:
          表 12. Pile v1 數(shù)據(jù)集總結(jié)。 公開的數(shù)據(jù)以粗體表示,確定的數(shù)據(jù)以斜體表示。

           

          7

          Megatron-11B和RoBERTa數(shù)據(jù)集

          2019年,Meta AI(當時稱之為Facebook AI)和華盛頓大學(xué)聯(lián)合發(fā)布了擁有1.25億參數(shù)的RoBERTa模型。次年,Meta AI發(fā)布了擁有110億參數(shù)的Megatron-11B模型。Megatron-11B使用的訓(xùn)練數(shù)據(jù)集與RoBERTa相同。RoBERTa[24]論文闡明了所用訓(xùn)練數(shù)據(jù)集的內(nèi)容,不過必須參考引用的論文(BERT[25]和toryes[26])來確定最終的數(shù)據(jù)集大小。
           
          BookCorpus: 確定的數(shù)據(jù)集為4.6GB,如上面的GPT-1部分所示。
           
          維基百科:公開的數(shù)據(jù)集為“16GB(BookCorpus加上英文維基百科)”。在減去BookCorpus數(shù)據(jù)集(4.6GB,如上面的GPT-1部分所述)后,維基百科數(shù)據(jù)集確定為11.4GB。
           
          CC-News:(經(jīng)過濾后)公開的數(shù)據(jù)集為76GB。
           
          OpenWebText: 公開的數(shù)據(jù)集為38GB。
           
          Stories: 公開的數(shù)據(jù)集為31GB。請注意,此數(shù)據(jù)集是“基于常識推理任務(wù)問題”的Common Crawl內(nèi)容,不屬于本文的‘Books’類別。相反,將Stories與CC-News數(shù)據(jù)集(76GB)相結(jié)合,Common Crawl的總數(shù)據(jù)集則為107GB。
           
          7.1. Megatron-11B和RoBERTa的數(shù)據(jù)集總結(jié)
           
          Megatron-11B和RoBERTa最終的數(shù)據(jù)集總結(jié)分析如下:

          表13. Megatron-11B和RoBERTa的數(shù)據(jù)集總結(jié)。 公示的數(shù)據(jù)以粗體表示,確定的數(shù)據(jù)以斜體表示。

          8

          MT-NLG數(shù)據(jù)集

           
          2021年,英偉達和微軟發(fā)布了擁有5300億參數(shù)的語言模型MT-NLG。MT-NLG是微軟Turing NLG(擁有170億參數(shù))和英偉達Megatron-LM(擁有83億參數(shù))的“繼任者”。MT-NLG論文闡明了所用訓(xùn)練數(shù)據(jù)集的來源和token數(shù)量,不過沒有明確指出數(shù)據(jù)集的大小。
           
          如前所述,有關(guān)數(shù)據(jù)集大小的更多詳情,可以使用The Pile v1論文中提供的信息來確定。雖然使用的組件相同,但注意的是,MT-NLG和The Pile v1中報告的組件大小卻各不相同,這是由于來自Eleuther AI (The Pile v1數(shù)據(jù)集)和Microsoft/NVIDIA (MT-NLG模型)的研究人員采用了不同的數(shù)據(jù)過濾和去重方法。
           
          8.1. MT-NLG中的Common Crawl數(shù)據(jù)集
           
          Pile-CC:公開的數(shù)據(jù)集為498億token,確定的數(shù)據(jù)為227.12GB左右,參見上述Pile v1部分。
           
          CC-2020-50: 公開的數(shù)據(jù)集為687億token,假設(shè)token的每字節(jié)率(per byte rate)為0.25 TpB=274.8GB。
           
          CC-2021-04:公開的數(shù)據(jù)集為826億token,假設(shè)token的每字節(jié)率為0.25 TpB=330.4GB
           
          RealNews(來自RoBERTa/Megatron-11B):顯示為219億token。根據(jù)RealNews論文[27],數(shù)據(jù)集確定為120GB。

          CC-Stories(來自RoBERTa/Megatron-11B):公開的數(shù)據(jù)集為53億token,如上述RoBERTa部分所示,數(shù)據(jù)集確定為31GB。
           
          根據(jù)以上來源,可確認Common Crawl的總數(shù)據(jù)量為983.32GB,共計2283億token。
           
          8.2. MT-NLG分組數(shù)據(jù)集(Grouped Datasets)

          表14. MT-NLG 分組數(shù)據(jù)集。公開的數(shù)據(jù)以粗體表示,確定的數(shù)據(jù)以斜體表示。

          8.3. MT-NLG數(shù)據(jù)集總結(jié)
           
          MT-NLG模型最終的數(shù)據(jù)集總結(jié)分析如下:
           
          表15. MT-NLG數(shù)據(jù)集總結(jié)。 公示的數(shù)據(jù)以粗體表示,確定的數(shù)據(jù)以斜體表示。

           

          9

          MT-NLG 數(shù)據(jù)集Gopher數(shù)據(jù)集
           
          Gopher模型由DeepMind于2021年發(fā)布,有2800億參數(shù)。該論文清楚地說明了所使用訓(xùn)練數(shù)據(jù)集所包含的高級token數(shù)量和大小[28],但沒有說明詳細內(nèi)容。

          表16. 公開的Gopher數(shù)據(jù)集 (MassiveText)。公開的數(shù)據(jù)以粗體表述,確定的數(shù)據(jù)以斜體表示。
           
          有趣的是,據(jù)Gopher論文披露:其Books數(shù)據(jù)集中包含一些超過500年歷史(1500-2008)的書籍。

          9.1. MassiveWeb數(shù)據(jù)集分析
           
          DeepMind于2014年被谷歌收購,并在創(chuàng)建MassiveText時獲得了海量數(shù)據(jù)。雖然Gopher論文中沒有進一步詳細描述MassiveWeb,但第44頁附錄中的表A3b注明了MassiveWeb中出現(xiàn)的前20個域[29]。根據(jù)披露的每個域所占的百分比,我們可以使用MassiveWeb的總token數(shù)(5060億token)和總原始大小(1900GB)來確定每個域的token數(shù)量和大小。

          表17. MassiveWeb:前20個域。公開的數(shù)據(jù)以粗體表示,確定的數(shù)據(jù)以斜體表示。
           
          9.2. Gopher:關(guān)于維基百科數(shù)據(jù)集的分析
           
          維基百科數(shù)據(jù)集的總規(guī)模很難確定。在Gopher論文中,研究人員指出維基百科沒有進行數(shù)據(jù)去重[30]。然而,論文中列出的不同大小數(shù)據(jù)集(12.5GB MassiveWeb Wikipedia與1GB MassiveText Wikipedia)可能是由于失誤而造成的,誤將“10GB”寫成了“1GB”。無論如何,本文僅使用MassiveWeb數(shù)據(jù)集版本 (12.5GB)。
           
          9.3. Gopher:不包括WebText
           
          Gopher數(shù)據(jù)集的組成部分不包括Reddit外鏈的WebText數(shù)據(jù)集。為了清楚起見,盡管Reddit是MassiveWeb中的頂級域,但該數(shù)據(jù)集僅抓取Reddit域內(nèi)的Reddit鏈接。根據(jù)定義,WebText[31]由“所有Reddit的外鏈”組成(即指向Reddit域外的鏈接)。

          9.4. Gopher分組數(shù)據(jù)集
           
          MassiveWeb被認為是MassiveText的子組件,并被集成到Gopher的數(shù)據(jù)集匯總中,其分組基于以下列出的可用信息:

          表18. Gopher分組數(shù)據(jù)集。公開的數(shù)據(jù)以粗體表示,確定的數(shù)據(jù)以斜體表示。
           
          9.5. Gopher數(shù)據(jù)集總結(jié)
           
          Gopher是本文中最大的數(shù)據(jù)集,大小為10.5TB。Gopher模型的最終數(shù)據(jù)集總結(jié)分析為:
          表19. Gopher數(shù)據(jù)集總結(jié)。公開的數(shù)據(jù)以粗體表示,確定的數(shù)據(jù)以斜體表示。

          10

          結(jié)論
           
          對于訓(xùn)練當代Transformer大型語言模型的數(shù)據(jù)集而言,這可能是最全面的整合分析內(nèi)容(截止2022年初)。在主要數(shù)據(jù)源不透明的情況下,本次研究主要從二級和三級來源收集數(shù)據(jù),并經(jīng)常需要假定來確定最終估計值。隨著研究人員要處理千萬億個token(1,000萬億)和數(shù)千TB的數(shù)據(jù)(1,000TB),確保詳細披露數(shù)據(jù)集組成的文檔變得越來越重要。
           
          特別值得關(guān)注的是,基于大型語言模型的強大AI系統(tǒng)產(chǎn)生的冗長而匿名的輸出正在迅速發(fā)展,其中許多數(shù)據(jù)集的細節(jié)內(nèi)容幾乎沒有文檔說明。
           
          強烈建議研究人員使用突出顯示的“數(shù)據(jù)集的數(shù)據(jù)表(Datasheet for Datasets)”論文中提供的模板,并在記錄數(shù)據(jù)集時使用最佳實踐論文(即Pile v1論文,包括token數(shù)量)。數(shù)據(jù)集大?。℅B)、token數(shù)量(B)、來源、分組和其他詳細信息指標均應(yīng)完整記錄和發(fā)布。
           
          隨著語言模型不斷發(fā)展并更廣泛地滲透到人們的生活中,確保數(shù)據(jù)集的詳細信息公開透明、所有人都可訪問且易于理解是有用、緊迫和必要的。

           
          擴展閱讀及腳注(請上下滑動) 
          考慮到簡潔和可讀性,本文使用了腳注而非文本/括弧式引文。主要參考文獻如下,或者參見http://lifearchitect.ai/papers/,獲取大語言模型領(lǐng)域的主要基礎(chǔ)論文。以下論文按本文順序顯示。

          1. Datasheets for Datasets Gebru, T., Morgenstern, J., Vecchione, B., Vaughan, J., Wallach, H., Daumé III, H., & Crawford, K. (2018). Datasheets for Datasets. https://arxiv.org/abs/1803.09010
          2. GPT-1 paper Radford, A., & Narasimhan, K. (2018). Improving Language Understanding by Generative Pre-Training. OpenAI. https://cdn.openai.com/research-covers/language-unsupervised/language_understan ding_paper.pdf
          3. GPT-2 paper Radford, A., Wu, J., Child, R., Luan, D., Amodei, D. & Sutskever, I. (2019). Language Models are Unsupervised Multitask Learners. OpenAI. https://cdn.openai.com/better-language-models/language_models_are_unsupervised _multitask_learners.pdf
          4. GPT-3 paper Brown, T., Mann, B., Ryder, N., Subbiah, M., Kaplan, J., & Dhariwal, P. et al. (2020). OpenAI. Language Models are Few-Shot Learners. https://arxiv.org/abs/2005.14165
          5. The Pile v1 paper Gao, L., Biderman, S., Black, S., Golding, L., Hoppe, T., & Foster, C. et al. (2021). The Pile: An 800GB Dataset of Diverse Text for Language Modeling.
          6. EleutherAI. https://arxiv.org/abs/2101.00027
          7. GPT-J announcement Komatsuzak, A., Wang, B. (2021). GPT-J-6B: 6B JAX-Based Transformer. https://arankomatsuzaki.wordpress.com/2021/06/04/gpt-j/
          8. GPT-NeoX-20B paper Black, S., Biderman, S., Hallahan, E. et al. (2022). EleutherAI. GPT-NeoX-20B: An Open-Source Autoregressive Language Model. http://eaidata.bmk.sh/data/GPT_NeoX_20B.pdf
          9. RoBERTa paper Liu, Y., Ott, M., Goyal, N., Du, J., Joshi, M., & Chen, D. et al. (2019). RoBERTa: A Robustly Optimized BERT Pretraining Approach. Meta AI. https://arxiv.org/abs/1907.11692
          10. MT-NLG paper Smith, S., Patwary, M., Norick, B., LeGresley, P., Rajbhandari, S., & Casper, J. et al. (2021). Using DeepSpeed and Megatron to Train Megatron-Turing NLG 530B, A Large-Scale Generative Language Model. Microsoft/NVIDIA. https://arxiv.org/abs/2201.11990
          11. Gopher paper Rae, J., Borgeaud, S., Cai, T., Millican, K., Hoffmann, J., & Song, F. et al. (2021). Scaling Language Models: Methods, Analysis & Insights from Training Gopher. DeepMind. https://arxiv.org/abs/2112.11446
          12. Appendix A: Top 50 Resources: Wikipedia + CC + WebText (i.e. GPT-3)


          附錄 A:前50個資源:Wikipedia + CC + WebText(即 GPT-3)
           
          基于本文內(nèi)容,尤其是每個數(shù)據(jù)集中每個資源的token數(shù)量,我們可以對將Wikipedia + Common Crawl + WebText數(shù)據(jù)集的組合,作為其整體訓(xùn)練數(shù)據(jù)集的一部分模型進行資源或域的排序。為清楚起見,這包括以下模型:OpenAI GPT-3、EleutherAI GPT-J、EleutherAI GPT-NeoX-20B、Meta AI Megatron-11B和RoBERTA,以及 Microsoft/NVIDIA MT-NLG等。
           
          請注意,展示的排名基于數(shù)據(jù)集中可用的未加權(quán)總token,每個數(shù)據(jù)集的主觀權(quán)重由研究人員在模型預(yù)訓(xùn)練之前計算得出。其中有一些重復(fù)(例如,《紐約時報》既出現(xiàn)在有1.11億token的WebText中,也出現(xiàn)在過濾后有1億token的Common Crawl中)。


          腳注
          1. GPT-NeoX-20B paper: pp11, section 6 http://eaidata.bmk.sh/data/GPT_NeoX_20B.pdf
          2. Datasheet for Datasets paper: https://arxiv.org/abs/1803.09010
          3. OpenAI blog: https://openai.com/blog/gpt-3-apps/
          4. On the Opportunities and Risks of Foundation Models: https://arxiv.org/abs/2108.07258
          5. Size of Wikipedia: https://en.wikipedia.org/wiki/Wikipedia:Size_of_Wikipedia
          6. C4 dataset: https://www.tensorflow.org/datasets/catalog/c4
          7. Common Crawl website: https://commoncrawl.org/
          8. C4 paper: https://arxiv.org/abs/2104.08758 pp2, Figure 1 right
          9. Wikipedia categories: https://en.wikipedia.org/wiki/User:Smallbones/1000_random_results: “維基百科涵蓋哪些主題?覆蓋范圍是否隨時間變化?使用2015年12月抽取的1001篇隨機文章對這些問題和類似問題進行了查驗...隨著時間推移,這些比例相當穩(wěn)定...傳記(27.8%),地理(17.7%),文化和藝術(shù)(15.8%),歷史(9.9%),生物學(xué)、健康和醫(yī)學(xué)(7.8%),體育(6.5%),商業(yè)(4.8%),其他社會(4.4%),科學(xué)與數(shù)學(xué)(3.5%),教育(1.8%)。”
          10. GPT-1 paper: pp4 “We use the BooksCorpus dataset for training the language model.”
          11. https://huggingface.co/datasets/bookcorpus: “Size of the generated dataset: 4629.00 MB”
          12. BookCorpus Retrospective Datasheet paper: pp9 https://arxiv.org/abs/2105.05241
          13. GPT-2 paper: pp3 “我們從社交媒體平臺Reddit中抓取了至少有3個karma的所有出站鏈接。這可以被認為是一個啟發(fā)式指標,用于判斷其他用戶是否覺得該鏈接有趣、有教育意義或只是有趣……WebText包含這4500萬個鏈接的文本子集……其中不包括2017年12月之后創(chuàng)建的鏈接。經(jīng)過去重和一些基于啟發(fā)式的清理后,其中包含大約超過800萬個文檔,總共40GB文本。我們從WebText中移除了所有維基百科文檔...”
          14. GPT-2 model card: https://github.com/openai/gpt-2/blob/master/model_card.md: “我們已經(jīng)發(fā)布了WebText中出現(xiàn)的前1,000個域及其頻率的列表。WebText中排名前15位的域是:Google、Archive、Blogspot、GitHub、紐約時報、Wordpress、華盛頓郵報、維基亞、BBC、衛(wèi)報、eBay、Pastebin、CNN、雅虎和赫芬頓郵報?!?/span>
          15. GPT-3 paper: “WebText2:190億token。[Alan:WebText2是從WebText稍微擴展而來,所以我們可以減去20%,得到150億token]”
          16. GPT-2 paper: pp3 “GPT-3: pp9, Table 2.2 “CC: 4100億token. WebText2: 190億token. Books1: 120億token. Books2: 550億token. Wiki: 30億token”
          17. GPT-3 paper: pp8
          18. BookCorpus repo: soskek/bookcorpus#27: “books3.tar.gz似乎類似于OpenAI在他們的論文中引用的神秘“books2”數(shù)據(jù)集。不幸的是,OpenAI不會提供細節(jié),所以我們對其差異知之甚少。人們懷疑它是“l(fā)ibgen的全部”,但這純粹是猜測。盡管如此,books3仍是“所有的bibliotik”......”
          19. BookCorpus paper: https://arxiv.org/abs/1506.06724: “# of words: 984,846,357 [Alan: BookCorpus有13億token。我們想要有120-550億token]”
          20. Gutenberg paper: https://arxiv.org/abs/1812.08092: “我們介紹了標準化項目古騰堡語料庫(SPGC),這是一種開放的科學(xué)方法,用于處理完整PG數(shù)據(jù)的精選版本,其中包含超過50,000本書和3×109word-token[Alan:相當于大約120億BPE token,見下文 ]”
          21. Gutenberg repo: https://zenodo.org/record/2422561 “未壓縮大?。?GB(count)+ 18GB(token)[總計21GB]”
          22. The Pile v1 paper: “Books3(Bibliotik tracker):100.96GB” [Alan:乘以每字節(jié)token數(shù)0.2477 = 250億token]
          23. The Pile v1 paper: pp3, Table 1 for datasets. pp28, Table 7 for Tokens per byte.
          24. RoBERTa paper: https://arxiv.org/abs/1907.11692 “BOOKCORPUS加上英文WIKIPEDIA。這是用來訓(xùn)練 BERT的原始數(shù)據(jù)。(16GB)?!?/span>
          25. BERT paper: https://arxiv.org/abs/1810.04805 “BERT在BooksCorpus(8億字)和維基百科(25億字)上進行訓(xùn)練?!?/span>
          26. Stories paper: https://arxiv.org/abs/1806.02847 pp5-6
          27. RealNews paper: https://arxiv.org/abs/1905.12616v3 “去重后,RealNews在沒有壓縮的情況下為120GB?!?/span>
          28. Gopher paper: https://arxiv.org/abs/2112.11446 pp 7: list of sizes and tokens.
          29. Gopher paper: https://arxiv.org/abs/2112.11446 pp 44, Figure A3b.
          30. Gopher paper: pp41n14 “請注意,我們將文檔去重應(yīng)用于除Wikipedia和GitHub之外的所有MassiveText子集“
          31. GPT-2 paper, pp3.

          關(guān)于作者

           

          Alan D. Thompson博士是人工智能專家、顧問。在2021年8月的世界人才大會(World Gifted Conference)上,Alan與Leta(由GPT-3提供支持的AI)共同舉辦了一場名為“The new irrelevance of intelligence”的研討會。他的應(yīng)用型人工智能研究和可視化成果受到了國際主要媒體的報道,同時還在2021年12月牛津大學(xué)有關(guān)AI倫理的辯論中被引用。他曾擔任門薩國際(Mensa International)主席、通用電氣(GE)和華納兄弟(Warner Bros)顧問,也曾是電氣與電子工程師協(xié)會(IEEE)和英國工程技術(shù)學(xué)會(IET)會員。

          (文章來源OneFlow,原文:
          https://lifearchitect.ai/whats-in-my-ai/)

          END

          分享

          收藏

          點贊

          在看

          瀏覽 36
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  国内自拍99 | 最新日韩免费在线 | 12321举报中心官网 | 久久久久久AV少妇 | 一区二区成人片18 |