ChatGPT數(shù)據(jù)集之謎

半個月以來,ChatGPT這把火越燒越旺。國內(nèi)很多大廠相繼聲稱要做中文版ChatGPT,還公布了上線時間表,不少科技圈已功成名就的大佬也按捺不住,攜巨資下場,要創(chuàng)建“中國版OpenAI“。
不過,看看過去半個月在群眾眼里稍顯窘迫的Meta的Galactica,以及Google緊急發(fā)布的Bard,就知道在短期內(nèi)打造一個比肩甚至超越ChatGPT效果的模型沒那么簡單。
讓很多人不免感到詫異的是,ChatGPT的核心算法Transformer最初是由Google提出的,并且在大模型技術(shù)上的積累可以說不弱于OpenAI,當然他們也不缺算力和數(shù)據(jù),但為什么依然會被ChatGPT打的措手不及?
Meta首席AI科學(xué)家Yann LeCun最近抨擊ChatGPT的名言實際上解釋了背后的門道。他說,ChatGPT“只是巧妙的組合而已”,這句話恰恰道出了一種無形的技術(shù)壁壘。
簡單來說,即使其他團隊的算法、數(shù)據(jù)、算力都準備的與OpenAI相差無幾,但就是沒想到以一種精巧的方式把這些元素組裝起來,沒有OpenAI,全行業(yè)不知道還需要去趟多少坑。
即使OpenAI給出了算法上的一條路徑,后來者想復(fù)現(xiàn)ChatGPT,算力、工程、數(shù)據(jù),每一個要素都需要非常深的積累。七龍珠之中,算力是自由流通的商品,花錢可以買到,工程上有OneFlow這樣的開源項目和團隊,因此,對互聯(lián)網(wǎng)大廠之外的團隊來說,剩下最大的挑戰(zhàn)在于高質(zhì)量訓(xùn)練數(shù)據(jù)集。
至今,OpenAI并沒有公開訓(xùn)練ChatGPT的相關(guān)數(shù)據(jù)集來源和具體細節(jié),一定程度上也暫時卡了追趕者的脖子,更何況,業(yè)界公認中文互聯(lián)網(wǎng)數(shù)據(jù)質(zhì)量堪憂。
好在,互聯(lián)網(wǎng)上總有熱心的牛人分析技術(shù)的細枝末節(jié),從雜亂的資料中串聯(lián)起蛛絲馬跡,從而歸納出非常有價值的信息。
此前,OneFlow發(fā)布了《ChatGPT背后的經(jīng)濟賬》,其作者從經(jīng)濟學(xué)視角推導(dǎo)了訓(xùn)練大型語言模型的成本。本文作者則整理分析了2018年到2022年初從GPT-1到Gopher的相關(guān)大型語言模型的所有數(shù)據(jù)集相關(guān)信息,希望幫助有志于開發(fā)“類ChatGPT”模型的團隊少走一步彎路。
1 概述


1.5. Common Crawl
2
常用數(shù)據(jù)集


表3. C4:前23個域(不包括維基百科)。公開的數(shù)據(jù)以粗體表示,確定的數(shù)據(jù)以斜體表示。
3
GPT-1數(shù)據(jù)集


4


5


6



7

8


9




10
擴展閱讀及腳注(請上下滑動)
關(guān)于作者
Alan D. Thompson博士是人工智能專家、顧問。在2021年8月的世界人才大會(World Gifted Conference)上,Alan與Leta(由GPT-3提供支持的AI)共同舉辦了一場名為“The new irrelevance of intelligence”的研討會。他的應(yīng)用型人工智能研究和可視化成果受到了國際主要媒體的報道,同時還在2021年12月牛津大學(xué)有關(guān)AI倫理的辯論中被引用。他曾擔任門薩國際(Mensa International)主席、通用電氣(GE)和華納兄弟(Warner Bros)顧問,也曾是電氣與電子工程師協(xié)會(IEEE)和英國工程技術(shù)學(xué)會(IET)會員。
(文章來源OneFlow,原文:https://lifearchitect.ai/whats-in-my-ai/)
END 
分享
收藏
點贊
在看

關(guān)于作者
Alan D. Thompson博士是人工智能專家、顧問。在2021年8月的世界人才大會(World Gifted Conference)上,Alan與Leta(由GPT-3提供支持的AI)共同舉辦了一場名為“The new irrelevance of intelligence”的研討會。他的應(yīng)用型人工智能研究和可視化成果受到了國際主要媒體的報道,同時還在2021年12月牛津大學(xué)有關(guān)AI倫理的辯論中被引用。他曾擔任門薩國際(Mensa International)主席、通用電氣(GE)和華納兄弟(Warner Bros)顧問,也曾是電氣與電子工程師協(xié)會(IEEE)和英國工程技術(shù)學(xué)會(IET)會員。

分享
收藏
點贊
在看


