亚洲美女片,中文字幕32页,欧美一区二区三区精品,欧美成人视频网网址,性色在线,色综合中文,青娱乐免费视频一二三,www.一级黄色视频

半個月以來，ChatGPT這把火越燒越旺。國內(nèi)很多大廠相繼聲稱要做中文版ChatGPT，還公布了上線時間表，不少科技圈已功成名就的大佬也按捺不住，攜巨資下場，要創(chuàng)建“中國版OpenAI“。

不過，看看過去半個月在群眾眼里稍顯窘迫的Meta的Galactica，以及Google緊急發(fā)布的Bard，就知道在短期內(nèi)打造一個比肩甚至超越ChatGPT效果的模型沒那么簡單。

讓很多人不免感到詫異的是，ChatGPT的核心算法Transformer最初是由Google提出的，并且在大模型技術(shù)上的積累可以說不弱于OpenAI，當然他們也不缺算力和數(shù)據(jù)，但為什么依然會被ChatGPT打的措手不及？

Meta首席AI科學(xué)家Yann LeCun最近抨擊ChatGPT的名言實際上解釋了背后的門道。他說，ChatGPT“只是巧妙的組合而已”，這句話恰恰道出了一種無形的技術(shù)壁壘。

簡單來說，即使其他團隊的算法、數(shù)據(jù)、算力都準備的與OpenAI相差無幾，但就是沒想到以一種精巧的方式把這些元素組裝起來，沒有OpenAI，全行業(yè)不知道還需要去趟多少坑。

即使OpenAI給出了算法上的一條路徑，后來者想復(fù)現(xiàn)ChatGPT，算力、工程、數(shù)據(jù)，每一個要素都需要非常深的積累。七龍珠之中，算力是自由流通的商品，花錢可以買到，工程上有OneFlow這樣的開源項目和團隊，因此，對互聯(lián)網(wǎng)大廠之外的團隊來說，剩下最大的挑戰(zhàn)在于高質(zhì)量訓(xùn)練數(shù)據(jù)集。

至今，OpenAI并沒有公開訓(xùn)練ChatGPT的相關(guān)數(shù)據(jù)集來源和具體細節(jié)，一定程度上也暫時卡了追趕者的脖子，更何況，業(yè)界公認中文互聯(lián)網(wǎng)數(shù)據(jù)質(zhì)量堪憂。

好在，互聯(lián)網(wǎng)上總有熱心的牛人分析技術(shù)的細枝末節(jié)，從雜亂的資料中串聯(lián)起蛛絲馬跡，從而歸納出非常有價值的信息。

此前，OneFlow發(fā)布了《ChatGPT背后的經(jīng)濟賬》，其作者從經(jīng)濟學(xué)視角推導(dǎo)了訓(xùn)練大型語言模型的成本。本文作者則整理分析了2018年到2022年初從GPT-1到Gopher的相關(guān)大型語言模型的所有數(shù)據(jù)集相關(guān)信息，希望幫助有志于開發(fā)“類ChatGPT”模型的團隊少走一步彎路。

作者｜Alan D. Thompson

OneFlow編譯

翻譯｜楊婷、徐佳渝、賈川

一些研究人員的報告稱，通用人工智能（AGI）可能是從我們當前的語言模型技術(shù)進行演進[1]，預(yù)訓(xùn)練Transformer語言模型為AGI的發(fā)展鋪平了道路。雖然模型訓(xùn)練數(shù)據(jù)集日漸增大，但缺乏基本指標文檔，包括數(shù)據(jù)集大小、數(shù)據(jù)集token數(shù)量和具體的內(nèi)容細節(jié)。

盡管業(yè)內(nèi)提出了數(shù)據(jù)集組成和整理文檔的標準[2]，但幾乎所有重點研究實驗室在揭示模型訓(xùn)練數(shù)據(jù)集細節(jié)這方面都做得不夠。這里整合的研究涵蓋了2018年到2022年初從GPT-1到Gopher的精選語言模型的所有數(shù)據(jù)集（包括主要數(shù)據(jù)集：Wikipedia和Common Crawl）的綜合視圖。

1
概述

圖 1. 主要數(shù)據(jù)集大小的可視化匯總。未加權(quán)大小，以GB為單位。

2018年以來，大語言模型的開發(fā)和生產(chǎn)使用呈現(xiàn)出爆炸式增長。一些重點研究實驗室報告稱，公眾對大語言模型的使用率達到了驚人高度。2021年3月，OpenAI宣布[3]其GPT-3語言模型被“超過300個應(yīng)用程序使用，平均每天能夠生成45億個詞”，也就是說僅單個模型每分鐘就能生成310萬詞的新內(nèi)容。

值得注意的是，這些語言模型甚至還沒有被完全理解，斯坦福大學(xué)的研究人員[4]最近坦言，“目前我們對這些模型還缺乏認知，還不太了解這些模型的運轉(zhuǎn)模式、不知道模型何時會失效，更不知道這些模型的突現(xiàn)性（emergent properties）能產(chǎn)生什么效果”。

隨著新型AI技術(shù)的快速發(fā)展，模型訓(xùn)練數(shù)據(jù)集的相關(guān)文檔質(zhì)量有所下降。模型內(nèi)部到底有什么秘密？它們又是如何組建的？本文綜合整理并分析了現(xiàn)代大型語言模型的訓(xùn)練數(shù)據(jù)集。

因為這方面的原始文獻并不對外公開，所以本文搜集整合了二、三級研究資料，在必要的時候本文會采用假設(shè)的方式來推算最終結(jié)果。

在本文中，我們會將原始論文中已經(jīng)明確的特定細節(jié)（例如token數(shù)量或數(shù)據(jù)集大?。w類為“公開的（disclosed）”數(shù)據(jù)，并作加粗處理。

多數(shù)情況下，適當?shù)貐⒖级?、三級文獻，并采用假設(shè)的方式來確定最終結(jié)果是很有必要的。在這些情況下，token數(shù)量和數(shù)據(jù)集大小等細節(jié)是“確定的（determined）”，并以斜體標記。

模型數(shù)據(jù)集可分為六類，分別是：維基百科、書籍、期刊、Reddit鏈接、Common Crawl和其他數(shù)據(jù)集。

表1. 主要數(shù)據(jù)集大小匯總。以GB為單位。公開的數(shù)據(jù)以粗體表示。確定的數(shù)據(jù)以斜體表示。僅原始訓(xùn)練數(shù)據(jù)集大小。

1.1. 維基百科

維基百科是一個免費的多語言協(xié)作在線百科全書，由超過300,000名志愿者組成的社區(qū)編寫和維護。截至2022年4月，英文版維基百科中有超過640萬篇文章，包含超40億個詞[5]。維基百科中的文本很有價值，因為它被嚴格引用，以說明性文字形式寫成，并且跨越多種語言和領(lǐng)域。一般來說，重點研究實驗室會首先選取它的純英文過濾版作為數(shù)據(jù)集。

1.2. 書籍

故事型書籍由小說和非小說兩大類組成，主要用于訓(xùn)練模型的故事講述能力和反應(yīng)能力，數(shù)據(jù)集包括Project Gutenberg和Smashwords (Toronto BookCorpus/BookCorpus)等。

1.3. 雜志期刊

預(yù)印本和已發(fā)表期刊中的論文為數(shù)據(jù)集提供了堅實而嚴謹?shù)幕A(chǔ)，因為學(xué)術(shù)寫作通常來說更有條理、理性和細致。這類數(shù)據(jù)集包括ArXiv和美國國家衛(wèi)生研究院等。

1.4. Reddit鏈接

WebText是一個大型數(shù)據(jù)集，它的數(shù)據(jù)是從社交媒體平臺Reddit所有出站鏈接網(wǎng)絡(luò)中爬取的，每個鏈接至少有三個贊，代表了流行內(nèi)容的風向標，對輸出優(yōu)質(zhì)鏈接和后續(xù)文本數(shù)據(jù)具有指導(dǎo)作用。

1.5. Common Crawl

Common Crawl是2008年至今的一個網(wǎng)站抓取的大型數(shù)據(jù)集，數(shù)據(jù)包含原始網(wǎng)頁、元數(shù)據(jù)和文本提取，它的文本來自不同語言、不同領(lǐng)域。重點研究實驗室一般會首先選取它的純英文過濾版（C4）作為數(shù)據(jù)集。

1.6. 其他數(shù)據(jù)集

不同于上述類別，這類數(shù)據(jù)集由GitHub等代碼數(shù)據(jù)集、StackExchange 等對話論壇和視頻字幕數(shù)據(jù)集組成。

2
常用數(shù)據(jù)集

2019年以來，大多數(shù)基于Transformer的大型語言模型 (LLM) 都依賴于英文維基百科和Common Crawl的大型數(shù)據(jù)集。在本節(jié)中，我們參考了Jesse Dodge和AllenAI（AI2）[8]團隊的綜合分析，按類別對英文維基百科作了高級概述，并在Common Crawl數(shù)據(jù)集[7]的基礎(chǔ)上，用谷歌C4[6] (Colossal Clean Crawled Corpus)在Common Crawl中提供了頂級域（domains）。

2.1. 維基百科（英文版）分析

下面按類別[9]列出了維基百科的詳細信息，涵蓋了2015年抽樣的1001篇隨機文章，研究人員注意到隨時間推移文章傳播的穩(wěn)定性。假設(shè)一個11.4GB、經(jīng)過清理和過濾的維基百科英文版有30億token，我們就可以確定類別大小和token。

表2. 英文維基百科數(shù)據(jù)集類別。公開的數(shù)據(jù)以粗體表示。確定的數(shù)據(jù)以斜體表示。

2.2 Common Crawl分析

基于AllenAI (AI2)的C4論文，我們可以確定，過濾后的英文C4數(shù)據(jù)集的每個域的token數(shù)和總體百分比，該數(shù)據(jù)集為305GB，其中token數(shù)為1560億。

表3. C4：前23個域（不包括維基百科）。公開的數(shù)據(jù)以粗體表示，確定的數(shù)據(jù)以斜體表示。

3 GPT-1數(shù)據(jù)集

2018年，OpenAI發(fā)布了1.17億參數(shù)的GPT-1。在論文中，OpenAI并沒有公布模型訓(xùn)練數(shù)據(jù)集的來源和內(nèi)容[10]，另外，論文誤將‘BookCorpus’拼寫成了‘BooksCorpus’。BookCorpus以作家未出版的免費書籍為基礎(chǔ)，這些書籍來自于Smashwords，這是一個自稱為“世界上最大的獨立電子書分銷商” 的電子書網(wǎng)站。這個數(shù)據(jù)集也被稱為Toronto BookCorpus。經(jīng)過幾次重構(gòu)之后，BookCorpus數(shù)據(jù)集的最終大小確定為4.6GB[11]。

2021年，經(jīng)過全面的回顧性分析，BookCorpus數(shù)據(jù)集對按流派分組的書籍數(shù)量和各類書籍百分比進行了更正[12]。數(shù)據(jù)集中有關(guān)書籍類型的更多詳細信息如下：

表4. BookCorpus書籍類型。公開的數(shù)據(jù)以粗體表示，確定的數(shù)據(jù)以斜體表示。

在隨后的數(shù)據(jù)集重構(gòu)中，BookCorpus數(shù)據(jù)集進一步過濾掉了書籍中的“吸血鬼”類別、降低了言情類書籍的百分比、增加了“歷史”類書籍，增加了收集的書籍數(shù)量。

3.1. GPT-1數(shù)據(jù)集總結(jié)

GPT-1最終的數(shù)據(jù)集總結(jié)分析如下：

表5.GPT-1數(shù)據(jù)集總結(jié)。以GB為單位。公開的數(shù)據(jù)以粗體表示，確定的數(shù)據(jù)以斜體表示。

4

GPT-2數(shù)據(jù)集

2019年，OpenAI發(fā)布了擁有15億參數(shù)的語言模型GPT-2。GPT-2論文闡明了所用訓(xùn)練數(shù)據(jù)集的大小[13]，不過并未說明其內(nèi)容。而GPT-2模型卡（model card）（在GPT-2 GitHub倉庫中）說明了模型內(nèi)容[14]。

我們可以從GPT-3論文中得到token數(shù)量，該論文使用了WebText擴展版本來表示190億token。據(jù)推測，2020年推出的WebText擴展版本擁有12個月的額外數(shù)據(jù)（additional data），因此它可能比2019年推出的GPT-2版本大25%左右[15]。GPT-2最終的token數(shù)量確定為150億左右。

如GPT-2論文所述，假設(shè)模型卡顯示鏈接數(shù)時，每個鏈接都可以被4500萬鏈接總數(shù)所除，那WebText的內(nèi)容在數(shù)據(jù)集中所占的百分比的詳細信息就可以確定。

然后可以使用確定的150億token數(shù)量來查找每個域的token數(shù)量。請注意，在可用的前1,000個域中，此處僅顯示前50個域。

表6. WebText: 前50個域。公開的數(shù)據(jù)以粗體表示，確定的數(shù)據(jù)以斜體表示。

4.1. GPT-2數(shù)據(jù)集總結(jié)

GPT-2模型最終的數(shù)據(jù)集總結(jié)分析如下：

表7. GPT-2數(shù)據(jù)集總結(jié)。公開的數(shù)據(jù)以粗體表示，確定的數(shù)據(jù)以斜體表示。

5

GPT-3數(shù)據(jù)集

GPT-3模型由OpenAI于2020年發(fā)布。論文闡明了所用訓(xùn)練數(shù)據(jù)集的token數(shù)量[16]，但訓(xùn)練數(shù)據(jù)集的內(nèi)容和大小尚不清楚（Common Crawl的數(shù)據(jù)集大小除外[17]）

表8. GPT-3數(shù)據(jù)集。公開的數(shù)據(jù)以粗體表示，確定的數(shù)據(jù)以斜體表示。

5.1. GPT-3：關(guān)于Books1和Books2數(shù)據(jù)集的分析

特別值得關(guān)注的是，在OpenAI的GPT-3論文中，并未公開Books1數(shù)據(jù)集（120億token）和Books2數(shù)據(jù)集（550億token）的大小和來源。關(guān)于這兩個數(shù)據(jù)集的來源人們提出了幾個假設(shè)，包括來自LibGen18和Sci-Hub的類似數(shù)據(jù)集，不過這兩個數(shù)據(jù)集常以TB為計，大到無法匹配。

5.2. GPT-3：Books1

GPT-3使用的Books1數(shù)據(jù)集不可能與GPT-1使用的BookCorpus數(shù)據(jù)集相同，原因在于Books1的數(shù)據(jù)集更大，達120億token。在一篇引用的論文[19]中就提及GPT-1使用的BookCorpus數(shù)據(jù)集擁有9.848億個詞，但這可能只相當于13億token（984.8字x 1.3字的token乘數(shù)）。

通過標準化項目古騰堡語料庫（SPGC），Books1有可能與古騰堡項目保持一致性。SPGC是一種開放式科學(xué)方法，被用于古騰堡項目完整的PG數(shù)據(jù)的精選（curated）版本。SPGC包含120億個token[20]，大約為21GB[21]。

5.3. GPT-3：Books2

Books2（550億token）可能與Bibliotik保持一致，并由EleutherA收集該來源的數(shù)據(jù)，組成數(shù)據(jù)集，使其成為The Pile v1的一部分。Bibliotik版本為100.96GB[22]，其確定的token數(shù)僅為250億，低于Books2公開的550億。然而，使用SPGC的‘每字節(jié)token數(shù)’比率（大約為1:1.75），Bibliotik的token數(shù)和大小將更接近于Books2。

5.4. GPT-3數(shù)據(jù)集總結(jié)

附錄A概述了使用Wikipedia + CommonCrawl + WebText數(shù)據(jù)集的頂級資源列表。GPT-3模型的最終數(shù)據(jù)集總結(jié)分析如下：

表9.GPT-3數(shù)據(jù)集總結(jié)。公開的數(shù)據(jù)以粗體表示，確定的數(shù)據(jù)以斜體表示。

6

The Pile v1（GPT-J和GPT-NeoX-20B）數(shù)據(jù)集

The Pile v1數(shù)據(jù)集由EleutherAI于2021年發(fā)布，該數(shù)據(jù)集已被用于訓(xùn)練包括GPT-J、GPT-NeoX-20B在內(nèi)的多種模型，并作為包括MT-NLG在內(nèi)的其他模型的部分數(shù)據(jù)集。The Pile v1論文闡明了所用訓(xùn)練數(shù)據(jù)集的來源和大小。隨著token數(shù)量的增加，The Pile v1論文應(yīng)被用作未來數(shù)據(jù)集文檔的黃金標準。

有關(guān)token數(shù)量的更多詳情，可以使用本文提供的信息來確定，參見表1（大小以GB為單位）和表7（token/每字節(jié)）[23]。

表10. The Pile v1數(shù)據(jù)集。公開的數(shù)據(jù)以粗體表示，確定的數(shù)據(jù)以斜體表示。

6.1. The Pile v1分組數(shù)據(jù)集（Grouped Datasets）

為了確定如‘Books’、‘Journals’和‘CC’這類數(shù)據(jù)集的大小，筆者對數(shù)據(jù)集進行了分組，如下表所示。

表11. The Pile v1分組數(shù)據(jù)集（不包括Wikipedia、CC 和 WebText）。公開的數(shù)據(jù)以粗體表示，確定的以斜體表示。

6.2. The Pile v1數(shù)據(jù)集總結(jié)

The Pile v1數(shù)據(jù)集與GPT-J和GPT-NeoX-20B模型的最終數(shù)據(jù)集總結(jié)分析如下：

表 12. Pile v1 數(shù)據(jù)集總結(jié)。公開的數(shù)據(jù)以粗體表示，確定的數(shù)據(jù)以斜體表示。

7

Megatron-11B和RoBERTa數(shù)據(jù)集

2019年，Meta AI(當時稱之為Facebook AI)和華盛頓大學(xué)聯(lián)合發(fā)布了擁有1.25億參數(shù)的RoBERTa模型。次年，Meta AI發(fā)布了擁有110億參數(shù)的Megatron-11B模型。Megatron-11B使用的訓(xùn)練數(shù)據(jù)集與RoBERTa相同。RoBERTa[24]論文闡明了所用訓(xùn)練數(shù)據(jù)集的內(nèi)容，不過必須參考引用的論文(BERT[25]和toryes[26])來確定最終的數(shù)據(jù)集大小。

BookCorpus：確定的數(shù)據(jù)集為4.6GB，如上面的GPT-1部分所示。

維基百科：公開的數(shù)據(jù)集為“16GB（BookCorpus加上英文維基百科）”。在減去BookCorpus數(shù)據(jù)集（4.6GB，如上面的GPT-1部分所述）后，維基百科數(shù)據(jù)集確定為11.4GB。

CC-News：（經(jīng)過濾后）公開的數(shù)據(jù)集為76GB。

OpenWebText: 公開的數(shù)據(jù)集為38GB。

Stories: 公開的數(shù)據(jù)集為31GB。請注意，此數(shù)據(jù)集是“基于常識推理任務(wù)問題”的Common Crawl內(nèi)容，不屬于本文的‘Books’類別。相反，將Stories與CC-News數(shù)據(jù)集（76GB）相結(jié)合，Common Crawl的總數(shù)據(jù)集則為107GB。

7.1. Megatron-11B和RoBERTa的數(shù)據(jù)集總結(jié)

Megatron-11B和RoBERTa最終的數(shù)據(jù)集總結(jié)分析如下：

表13. Megatron-11B和RoBERTa的數(shù)據(jù)集總結(jié)。公示的數(shù)據(jù)以粗體表示，確定的數(shù)據(jù)以斜體表示。

8

MT-NLG數(shù)據(jù)集

2021年，英偉達和微軟發(fā)布了擁有5300億參數(shù)的語言模型MT-NLG。MT-NLG是微軟Turing NLG（擁有170億參數(shù)）和英偉達Megatron-LM（擁有83億參數(shù)）的“繼任者”。MT-NLG論文闡明了所用訓(xùn)練數(shù)據(jù)集的來源和token數(shù)量，不過沒有明確指出數(shù)據(jù)集的大小。

如前所述，有關(guān)數(shù)據(jù)集大小的更多詳情，可以使用The Pile v1論文中提供的信息來確定。雖然使用的組件相同，但注意的是，MT-NLG和The Pile v1中報告的組件大小卻各不相同，這是由于來自Eleuther AI (The Pile v1數(shù)據(jù)集)和Microsoft/NVIDIA (MT-NLG模型)的研究人員采用了不同的數(shù)據(jù)過濾和去重方法。

8.1. MT-NLG中的Common Crawl數(shù)據(jù)集

Pile-CC：公開的數(shù)據(jù)集為498億token，確定的數(shù)據(jù)為227.12GB左右，參見上述Pile v1部分。

CC-2020-50: 公開的數(shù)據(jù)集為687億token，假設(shè)token的每字節(jié)率（per byte rate）為0.25 TpB=274.8GB。

CC-2021-04：公開的數(shù)據(jù)集為826億token，假設(shè)token的每字節(jié)率為0.25 TpB=330.4GB

RealNews（來自RoBERTa/Megatron-11B）：顯示為219億token。根據(jù)RealNews論文[27]，數(shù)據(jù)集確定為120GB。

CC-Stories(來自RoBERTa/Megatron-11B)：公開的數(shù)據(jù)集為53億token，如上述RoBERTa部分所示，數(shù)據(jù)集確定為31GB。

根據(jù)以上來源，可確認Common Crawl的總數(shù)據(jù)量為983.32GB，共計2283億token。

8.2. MT-NLG分組數(shù)據(jù)集（Grouped Datasets）

表14. MT-NLG 分組數(shù)據(jù)集。公開的數(shù)據(jù)以粗體表示，確定的數(shù)據(jù)以斜體表示。

8.3. MT-NLG數(shù)據(jù)集總結(jié)

MT-NLG模型最終的數(shù)據(jù)集總結(jié)分析如下：

表15. MT-NLG數(shù)據(jù)集總結(jié)。公示的數(shù)據(jù)以粗體表示，確定的數(shù)據(jù)以斜體表示。

9

MT-NLG 數(shù)據(jù)集Gopher數(shù)據(jù)集

Gopher模型由DeepMind于2021年發(fā)布，有2800億參數(shù)。該論文清楚地說明了所使用訓(xùn)練數(shù)據(jù)集所包含的高級token數(shù)量和大小[28]，但沒有說明詳細內(nèi)容。

表16. 公開的Gopher數(shù)據(jù)集 (MassiveText)。公開的數(shù)據(jù)以粗體表述，確定的數(shù)據(jù)以斜體表示。

有趣的是，據(jù)Gopher論文披露：其Books數(shù)據(jù)集中包含一些超過500年歷史（1500-2008）的書籍。

9.1. MassiveWeb數(shù)據(jù)集分析

DeepMind于2014年被谷歌收購，并在創(chuàng)建MassiveText時獲得了海量數(shù)據(jù)。雖然Gopher論文中沒有進一步詳細描述MassiveWeb，但第44頁附錄中的表A3b注明了MassiveWeb中出現(xiàn)的前20個域[29]。根據(jù)披露的每個域所占的百分比，我們可以使用MassiveWeb的總token數(shù)（5060億token）和總原始大小（1900GB）來確定每個域的token數(shù)量和大小。

表17. MassiveWeb：前20個域。公開的數(shù)據(jù)以粗體表示，確定的數(shù)據(jù)以斜體表示。

9.2. Gopher：關(guān)于維基百科數(shù)據(jù)集的分析

維基百科數(shù)據(jù)集的總規(guī)模很難確定。在Gopher論文中，研究人員指出維基百科沒有進行數(shù)據(jù)去重[30]。然而，論文中列出的不同大小數(shù)據(jù)集（12.5GB MassiveWeb Wikipedia與1GB MassiveText Wikipedia）可能是由于失誤而造成的，誤將“10GB”寫成了“1GB”。無論如何，本文僅使用MassiveWeb數(shù)據(jù)集版本 (12.5GB)。

9.3. Gopher:不包括WebText

Gopher數(shù)據(jù)集的組成部分不包括Reddit外鏈的WebText數(shù)據(jù)集。為了清楚起見，盡管Reddit是MassiveWeb中的頂級域，但該數(shù)據(jù)集僅抓取Reddit域內(nèi)的Reddit鏈接。根據(jù)定義，WebText[31]由“所有Reddit的外鏈”組成（即指向Reddit域外的鏈接）。

9.4. Gopher分組數(shù)據(jù)集

MassiveWeb被認為是MassiveText的子組件，并被集成到Gopher的數(shù)據(jù)集匯總中，其分組基于以下列出的可用信息：

表18. Gopher分組數(shù)據(jù)集。公開的數(shù)據(jù)以粗體表示，確定的數(shù)據(jù)以斜體表示。

9.5. Gopher數(shù)據(jù)集總結(jié)

Gopher是本文中最大的數(shù)據(jù)集，大小為10.5TB。Gopher模型的最終數(shù)據(jù)集總結(jié)分析為：

表19. Gopher數(shù)據(jù)集總結(jié)。公開的數(shù)據(jù)以粗體表示，確定的數(shù)據(jù)以斜體表示。

10

結(jié)論

對于訓(xùn)練當代Transformer大型語言模型的數(shù)據(jù)集而言，這可能是最全面的整合分析內(nèi)容（截止2022年初）。在主要數(shù)據(jù)源不透明的情況下，本次研究主要從二級和三級來源收集數(shù)據(jù)，并經(jīng)常需要假定來確定最終估計值。隨著研究人員要處理千萬億個token（1,000萬億）和數(shù)千TB的數(shù)據(jù)（1,000TB），確保詳細披露數(shù)據(jù)集組成的文檔變得越來越重要。

特別值得關(guān)注的是，基于大型語言模型的強大AI系統(tǒng)產(chǎn)生的冗長而匿名的輸出正在迅速發(fā)展，其中許多數(shù)據(jù)集的細節(jié)內(nèi)容幾乎沒有文檔說明。

強烈建議研究人員使用突出顯示的“數(shù)據(jù)集的數(shù)據(jù)表（Datasheet for Datasets）”論文中提供的模板，并在記錄數(shù)據(jù)集時使用最佳實踐論文（即Pile v1論文，包括token數(shù)量）。數(shù)據(jù)集大?。℅B）、token數(shù)量（B）、來源、分組和其他詳細信息指標均應(yīng)完整記錄和發(fā)布。

隨著語言模型不斷發(fā)展并更廣泛地滲透到人們的生活中，確保數(shù)據(jù)集的詳細信息公開透明、所有人都可訪問且易于理解是有用、緊迫和必要的。