<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          五道口大模型簡史

          共 21787字,需瀏覽 44分鐘

           ·

          2023-08-03 07:01


          謹以此文致敬 ChatGPT 史前的「悟道」大模型先驅者。

          作者 | 陳彩嫻
          編輯 | 岑   峰

           

          預見未來最好的方式就是親手創(chuàng)造未來。

          01

          「范式」革命

          故事的開頭發(fā)生在 2018 年的秋天,北京海淀區(qū)。
          那一天,10 月 11 日,一個尋常的周四,劉知遠像往常一樣習慣性地打開 arXiv 的網頁,瀏覽來自全球各地學者上傳的人工智能(AI)領域最新工作。大多時候,arXiv 上的論文質量參差不齊,劉知遠只粗略瀏覽來獲取大致信息;但這一天,他卻被谷歌語言小組所冠名的一篇論文所深深吸引了。
          原本只是點進去瞄一眼,結果越看越著迷、越看越吃驚,關上電腦后仍久久不能回神,為其中的思想所傾倒。果不其然,他很快發(fā)現(xiàn),這篇論文也引起了國內其他人工智能學者的廣泛關注,清華、北大、人大與復旦等高校的教師與學生也在熱烈討論該工作。
          大家都隱約覺得:「這可能是人工智能領域的又一次技術范式革命。」
          這個工作,就是后來大名鼎鼎、如今在谷歌學術上已被引用超過七萬次的 BERT 論文——「BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding」。

          論文鏈接:https://arxiv.org/pdf/1810.04805.pdf
          在中文的語境中,「范式」并不是一個常見詞匯。但在雷峰網走訪大模型的過程中,這個詞被反復多次提及,一次是形容 2012 年的深度學習,一次是 2018 年的 BERT,另一次則是 2022 年 ChatGPT 出來前的中國大模型創(chuàng)業(yè)方向:「那時大家沒有朝通用人工智能(AGI)的方向去想,但覺得可以將大模型做成一個通用的人工智能范式。」這是后話。
          回到 BERT。
          「范式」一詞源于英文單詞「paradigm」,意指一個領域的基礎體系與架構,如西服、漢服分別是服裝領域的兩個不同范式,在這兩個范式的基礎上,服裝師可以設計出各式各樣、款式不一的服裝。簡而言之,范式代表了底層思路的變革,劃分過去與未來。
          而 BERT 的「雙向預訓練」思路體現(xiàn)了這一潛力。
          AI 有三大方向:計算機視覺(CV)、自然語言處理(NLP)與機器學習(ML),其中 NLP 的終極目標是讓計算機理解人類語言。那么,如何判斷計算機已經理解人類語言?BERT 之前的很長一段時間里,NLP 的研究思路都是將語言理解拆分成細小的任務方向,如機器翻譯、文本對比、語義分析等等,再針對每項任務分別進行 AI 算法的設計與訓練。比如,劉知遠在讀博期間(2006-2011)的研究方向就是 NLP 的一項基礎任務,叫「關鍵詞抽取」。
          而 BERT 與傳統(tǒng)方法的區(qū)別在于:傳統(tǒng)的統(tǒng)計學習或深度學習是讓 AI 算法直接學習某個任務(如文本對比)的數(shù)據(jù),在學習這些數(shù)據(jù)前,AI 就像一張白紙,沒有任何基礎能力,訓練出來的算法也只能執(zhí)行一項任務;而 BERT 的預訓練方法是在學習任務數(shù)據(jù)前,先讓 AI 背誦海量的標注數(shù)據(jù),相當于考試前先做了一遍卷子,因此訓練出來的算法在之后的「考試」實戰(zhàn)中表現(xiàn)更加出色。
          BERT 不是第一個采用預訓練方法的語言模型;此前數(shù)月,OpenAI 發(fā)布的 GPT-1 也是預訓練語言模型。但 BERT 的革新之處在于,它用雙向訓練的思路打破了原先預訓練方法對指定任務框架的依賴。
          GPT-1 是單向結構,只能從左往右、或從右往左地來學習文本信息,因此訓練出來的算法只能執(zhí)行一項語言任務,如 GPT-1 擅長文本生成,但不擅長理解;而 BERT 是雙向結構,能夠同時從左邊和右邊學習語言表征,并在多個任務的海量未標注數(shù)據(jù)上學習,因此能同時執(zhí)行知識問答、上下文填空、文本理解等多種語言任務,且在各項任務上的表現(xiàn)都超越了當時的所有模型,很快在語言理解權威榜單 GLUE 上霸榜第一。
          大家都對 BERT 的效果感到震撼,就像回到了 2012 年深度學習初顯威力時:
          那一年,加拿大多倫多大學教授 Geoffrey Hinton 帶領兩個學生,Alex Krizhevsky 與 Ilya Sutskever(現(xiàn) OpenAI 首席科學家),用深度學習方法訓練出的 AlexNet 橫掃世界計算機視覺大賽 ImageNet,將第二名開外的所有統(tǒng)計學習算法遠遠甩在后面,「深度學習」一戰(zhàn)成名,連研究 NLP 的學者也在不斷討論。
          相比深度學習,BERT 當時的水花要小得多,但國內的一眾 NLP 學者也感到了時不我待的急迫。
          雖然沒有精確統(tǒng)計,但多位學者告訴雷峰網,2012 年深度學習崛起后,無論是研究還是落地,視覺都是國內 AI 圈中研究人數(shù)最多、研究熱度最高的方向;從 2012 年到 2018 年,語言領域的變化不如視覺領域那么大,在擁抱深度學習的浪潮中也不是特別突出。
          劉知遠隸屬于清華大學自然語言處理實驗室(THUNLP),孫茂松是該實驗室的主任。2012 年,孫茂松正好牽頭申請國家科技部的 973 計劃項目,為了更好地 NLP 的未來技術路線,組織了北大、哈工大、中科大自動化所、百度在內的幾個單位一起討論。大家一致看好深度學習,于是項目成功申請后,THUNLP 也從 2013 年開始轉向深度學習。后來,深度學習果然席卷全球。
          自此,「敢于自我革命」就成為 THUNLP 的研究精神。BERT 出來后,劉知遠也很快決定轉向預訓練方法。他們的思路是用知識圖譜的方法抽取出一條條抽象的知識,再注入預訓練語言模型中,以此讓模型變得更智能。他們與華為諾亞方舟實驗室的劉群、蔣欣合作,很快研發(fā)出一個預訓練語言模型,起名「ERNIE」,并投稿到 NLP 頂級學術會議 ACL 2019 上。

          孫茂松(左)、劉知遠(右)
          巧合的是,2018 年百度的 NLP 團隊也為 BERT 所震撼,并幾乎同時完成了一個預訓練語言模型,率先發(fā)表在 arXiv 上,且同樣起名「ERNIE」。兩個團隊都是按美國動漫片《芝麻街》的角色命名,因為此前的預訓練模型如 ELMO、BERT 都是《芝麻街》里的角色。谷歌用了 BERT,他們的目標都是對標谷歌,就想到了一塊去。
          兩個「ERNIE」在部分任務上的性能都超越了 BERT。百度在 arXiv 上的發(fā)布在先,THUNLP 與華為合作的論文被接收在后。為了與百度區(qū)分開,劉知遠等人便將模型的名字修改了,百度則一直沿用該稱謂。后來,百度煉大模型,中文名叫「文心」,英文名則一直叫「ERNIE」。
          不出所料,預訓練迅速成為 NLP 領域的主流方法。同期,部分國際團隊也有敏銳嗅覺,迅速跟上 BERT 的雙向預訓練方法。2019 年 2 月,OpenAI 發(fā)布了 GPT-2。雖然 GPT-2 比 GPT-1 的生成效果更好,但在許多語言任務上仍比不過 BERT,因此當時 OpenAI 的聲量完全被谷歌壓了下去。
          但一年半后,歷史再一次被刷新:
          2020 年 6 月,OpenAI 突然發(fā)布了一個超乎所有人想象的研究成果——參數(shù)規(guī)模高達 1750 億的 GPT-3。同是預訓練語言模型,但 GPT-3 的參數(shù)量是 BERT 的 500 倍,不僅能做語言生成,而且在各項語言理解類的任務上也超過了 BERT。
          所有人的研究世界觀都被顛覆了。

          02

          GPT-3 點火

          沒有人想到,預訓練語言模型的參數(shù)量被放大后會出現(xiàn)所謂的「智能涌現(xiàn)」。谷歌對于該現(xiàn)象的佐證論文也是一年后才發(fā)表。
          BERT 的參數(shù)量是 3.4 億,與 2018 年的所有語言模型相比都是當之無愧的「大模型」,但大家的關注點更多在它的預訓練方法上,根本沒有想過像 OpenAI 一樣直接「堆量」。GPT-3 堆量的行為就像讓 AI 模型將整個圖書館直接死記硬背下來一樣。
          結果,死記硬背的 GPT-3 不僅理解能力變得非常強,還具備一定的推理能力。乃至在一些未標注的數(shù)據(jù)與任務上,GPT-3 也能現(xiàn)學現(xiàn)賣,取得不錯的結果。
          之前的語言小模型在注入知識后,智能水平也會隨之提升,這是大家所能理解的。但 OpenAI 省略了從文本數(shù)據(jù)中抽取知識的環(huán)節(jié),而是完全靠堆參數(shù)、讓 GPT-3 硬學的「暴力美學」則讓所有人都大跌眼鏡。甚至有說法稱,GPT-3 實際上已經通過了圖靈測試。
          圖靈測試由「人工智能之父」艾倫·圖靈在 1950 年提出,全球的人工智能發(fā)展歷經 70 年才首次通過,因此對 AI 圈的沖擊非常大。GPT-3 不僅是自然語言處理領域的重大突破,更是 AI 領域的一個里程碑。一時間,語言智能的討論達到了空前高度。不止劉知遠等 NLP 學者,信息檢索方向的相關人員也在不斷討論。
          更夸張的是,OpenAI 號稱在訓練 GPT-3 時用了一萬張顯卡。
          通常來說,高校科研中,算力設備的成本大約只占一個老師整體科研經費的 20%,擁有超過 500 張卡就是學術界的土豪級玩家。先前,國內外的 AI 科學家在研究 NLP 時大多是用單卡,或單機多卡,但 GPT-3 的訓練一共用了一萬張卡,折算下來大約 1200 萬美金,超過 8000 萬人民幣。
          從工程搭建的角度看,訓練 GPT-3 的工程難度也是前無古人。以 BERT 為例,3.4 億參數(shù)的 BERT 訓練工程量與 1750 億參數(shù)的 GPT-3 訓練工程量相比,就像造玩具車與造飛機的區(qū)別。玩具車的工程量不適用于航空飛機,同樣,過去語言小模型的訓練知識也不適用于大模型。
          GPT-3 對 BERT 的碾壓,本質上是「大規(guī)模預訓練語言模型」對「預訓練語言模型」的碾壓。
          一方面,大家為 GPT-3 沸騰;另一方面,內心又感到極大的落差。在此之前,國內的一眾學者大多自我感覺良好,覺得國內團隊發(fā)表的論文水平與美國高校不相上下;GPT-3 出來后,他們才知道原來自己與國際頂尖水平還有如此大的差距。
          2020 年夏天的北京五道口,清華、北大、人大、中科院等高校的計算機與人工智能學者都在關注 GPT-3。盡管當時沒有人能說清 GPT-3 強大的機理,但直覺告訴大家,這是 AI 領域的一個重要分水嶺。GPT-3 產生的沖擊如此之大,以至于一些學者決定,無論如何都要研究大規(guī)模預訓練語言模型,簡稱「大模型」。
          劉知遠就是其中的一員。當時,研究大模型最突出的阻礙是算力,劉知遠就一邊去找清華高性能計算方向的陳文光、韓文弢等老師合作研究,想用分布式加速計算來降低大模型的訓練成本,同時也將目光投向 THUNLP 之外,尋求外界的幫助。
          那時,孫茂松在距離清華東門不到一百米的一家新型人工智能研發(fā)機構里擔任自然語言處理方向的首席科學家,劉知遠也在其中擔任青年科學家。很自然地,劉知遠便想到了去該機構談合作。
          這個機構,就是如今大名鼎鼎的北京智源人工智能研究院(BAAI)。

          智源大樓外觀
          但當時,智源只是一個成立不過一年半、正在發(fā)展建設中的研究單位。
          智源的成立是北京國際創(chuàng)新中心建設藍圖中的一角,由科技部與北京市共同指導成立,肩負人工智能前沿探索的使命。通過「智源學者」、「智源大會」與「青源會」等項目,智源鏈接了北京地區(qū)約一百位出色的 AI 科學家,與大家建立了緊密聯(lián)系的同時,也注重與智源學者共同尋找 AI 領域的「下一個大事件」。
          智源研究院院長黃鐵軍告訴雷峰網,智源學者的評選本身就很嚴格,所以在評選出對應的學者后,智源會向智源學者提供對應的經費支持,且不要求提交研究成果;相反,智源更在意大家能一起探索出值得投入的重大 AI 方向。
          2019 年 4 月,智源確立了幾個重大方向,包括自然語言處理、機器學習、信息檢索等,每個方向都有 5 到 10 位知名學者聚集討論。自然語言處理方向有孫茂松、何曉冬、劉知遠等等,智能信息檢索方向有文繼榮、唐杰等等。GPT-3 出來后,幾大方向的學者都在討論 GPT-3,討論要如何研究中國的大模型。
          在最終達成共識之前,智源內部經過了幾輪重要討論。
          前兩次在北京的雁棲湖:2020 年 7 月是機器學習方向的會,該方向的智源學者認為 GPT-3 是一個大方向,如今語言大模型已經出來,應該研究視覺大模型,但討論后覺得視覺大模型消耗的算力更大,所以沒有付諸行動;8月是信息檢索與挖掘方向,文繼榮與唐杰等人在會上討論語言大模型。到 9 月,在智源的院辦公會上,劉知遠提出想研究通用語言模型。
          國慶結束后,10 月 10 日,智源在雁棲湖又召開了一次討論,邀請不同方向的學者參會,最終在會上達成共識,要組成一個攻關團隊,在大模型方向上開展合作。
          立項后,智源在各個渠道發(fā)出「英雄帖」,邀請對大模型感興趣的學者一同研究,并稱「英雄不問出處」。召集令一出,與眾學者的想法不謀而合,大家紛紛報名。
          最先舉手的是清華與人大的老師,有劉知遠、文繼榮、唐杰、黃民烈等人。隨后,北大與中科院等高校的學者也表示感興趣,一些智源外部的成員也參與了進來,如當時在阿里巴巴達摩院任職的楊紅霞。到最后,智源的大模型項目聚集了約一百人,時任智源副院長的唐杰被委任為項目總負責人。

          唐杰
          那年 10 月,智源研究院向時任北京市市長陳吉寧報告了這個「百人大模型計劃」,陳市長很興奮地表示:「這(大模型)是人工智能未來的核爆點,會帶來整個產生生態(tài)的蓬勃發(fā)展。」北京市決定大力支持,并為智源批準專項經費購買算力。
          事實上,當時很多人還看不清大模型是什么,且大模型的研發(fā)需要高昂經費。但在 2020 年 10 月,從學者到智源,從北京市到科技部,大家都達成了一個共識,就是全力推進中國大模型的研發(fā)。事后,多位學者都向雷峰網表達驚嘆:「很奇怪,當時大家都沒有猶豫。」
          大家認為,大模型可以做成一件更大的事情。除了語言大模型,「數(shù)量引起質變」的思想或許也能在其他領域產生突破,于是,經過討論,大家決定「兵分四路」,從四個方向開拓中國的大模型:中文大模型、多模態(tài)大模型、認知大模型與蛋白質大模型,依次由劉知遠、文繼榮與唐杰帶領,其中唐杰負責后兩塊,相當于「三個團隊做四件事」。

          文繼榮
          2020 年 11 月,小組討論命名。在順義春暉園的自然語言處理年會上,孫茂松說,大家都是研究語言相關的,建議統(tǒng)一用「文」字開頭。討論后,四個小組共同以清代珍藏《四庫全書》的七座皇家藏書樓中的四座進行了命名,依次為「文源」、「文瀾」、「文匯」與「文溯」。
          為了表示大家是一個整體,智源建議起一個統(tǒng)一代號,就邀請大家到智源當時位于五道口的賽爾大廈開會。會上,唐杰提議命名與五道口有關,因為大家都在五道口、對五道口都有很深的感情,于是眾人一起想了幾個名字。一場頭腦風暴后,人大的宋睿華提議叫「悟道」,與「五道」諧音,大家都說好。
          「悟道」就是這樣來的。

          03

          悟道群星閃耀時

          悟道的初衷很純粹:追趕 GPT-3,研究中國的大模型。
          那么,什么是「中國的大模型」?
          如今國內的大模型數(shù)量眾多、種類紛繁,以至于大模型的定義被模糊化。但在 2020 年,悟道成員的認知很聚焦:歸根結底,GPT-3 是一個以英文為主的語言大模型,而當時中國沒有,因此,「中國的大模型」首先應該是一個參數(shù)量達到 1750 億或以上、以中文為主的大規(guī)模預訓練語言模型。
          盡管后來有研究表明,單一語種的語言大模型也具備一定的其他語種能力,但在中文的語境上,大家發(fā)現(xiàn),用 GPT-3 來解決許多中文的語言任務時常會出現(xiàn)語義分歧、邏輯錯誤等等問題。一是因為 GPT-3 的訓練語料以英文為主,二是中國的研究團隊無從獲知 GPT-3 的詳細訓練參數(shù)來精調。所以,無論是出于主觀還是客觀,2020 年,自研國產大模型都是一個無從推拒的選項。
          智源立項是在 2020 年 10 月,由于大模型需要大算力,智源也從 10 月份開始大力投入算力等資源。智源一開始是計劃用既有的科研經費購買 300P,陳吉寧市長拍板要大力支持,又決定從專項經費中再撥款購買 700P,所以總共是 1000P。但審批與購買算力的流程持續(xù)了一年多,所以悟道啟動初期主要靠租算力。
          大家相信大模型是未來的重大方向,相關學者也自帶部分干糧來參加智源的大模型項目:人力上,各個老師帶著各自團隊的碩博生加入;資源上,智源算力還未完全到位時,學者們也通過各自的途徑獲取部分算力。例如,文繼榮小組一開始是在人大的機器上訓練多模態(tài)大模型,唐杰小組是在阿里云的機器上跑。
          雖然 GPT-3 的雷聲很大,但在當時,像智源這樣全力投入大模型的中國團隊卻不多美,悟道甚至一度被唱衰。唱衰的理由主要有兩類:一是大模型的研發(fā)十分燒錢,計算成本動輒上千萬;二是大模型非原始創(chuàng)新,只靠堆參數(shù),技術含量不高。但智源還是「一意孤行」,堅決要探索。
          而等他們真正開始研究后,才發(fā)現(xiàn):OpenAI 并非招搖過市的江湖騙子,大模型的技術門檻也并非只有「堆算力」、「堆參數(shù)」。以中文大模型與多模態(tài)大模型為例,悟道之前,全球 AI 在這兩塊的探索都是一片空白。加上他們是中國第一批訓練大模型的人,相當于一切從頭開始,過程十分挑戰(zhàn)。
          但也正是憑借這股一往無前的勇氣,半年后,悟道大模型便取得了飛躍的進展。
          悟道立項兩個月后,2020 年 12 月,劉知遠、黃民烈與韓文弢帶領的文源團隊便發(fā)布了全球第一個中文開源大模型「CPM」。CPM 的參數(shù)量只有 26 億,與 GPT-3 相比微不足道,但勝在以中文語料為主。此外,與 2019 年的「ERNIE」相比,CPM 的參數(shù)量已經擴大了幾百倍,這不僅是工程量的勝利,也驗證了文源團隊訓練中文大模型的思路可行。

          黃民烈
          文瀾與文匯也幾乎與 CPM 同一時間找到解法。文瀾算法核心成員盧志武的「雙塔」路線在 2020 年 12 月得到驗證,文匯的百億參數(shù)大模型在 2021 年 1 月完成。2021 年 3 月,智源將文源的 CPM、文瀾基于 3000 萬圖文數(shù)據(jù)對訓練的多模態(tài)模型 BriVL 1.0、文匯的百億參數(shù)中英雙語大模型 GLM-10B 與多模態(tài)模型 CogView 1.0 等成果匯在一起,統(tǒng)稱「悟道 1.0」在 2021 年 3 月進行了發(fā)布。
          客觀來說。「悟道 1.0」并沒有引起太大的轟動,但在中國普遍對大模型還沒有認知的時候,悟道告訴了大家「大模型是什么」,可以寫詩、可以問答、可以圖文對齊……比之前所有的 NLP 算法都強大。
          在「悟道 1.0」的發(fā)布會上,智源也首次提出「大模型」的概念。智源研究院院長黃鐵軍創(chuàng)造了一個金句,他稱,近年來,人工智能的發(fā)展已經從「大煉模型」逐步邁向「煉大模型」,即:2012 年深度學習起來后,全球出現(xiàn)大量的 AI 小模型,而「煉大模型」是集約化訓練大模型,設計更先進的算法、整合更多的數(shù)據(jù)、匯聚大量算力,一個模型能供大量企業(yè)使用。
          換言之,大模型不僅參數(shù)規(guī)模大,而且智商要高。這次發(fā)布會掃清了外界對智源的質疑,悟道大模型初露頭角。

          黃鐵軍
          在唐杰領導的文匯小組中,達摩院工程師楊紅霞與循環(huán)智能聯(lián)合創(chuàng)始人楊植麟是核心成員。智源沒有限制悟道成員的研究自由,楊紅霞參與阿里大模型,楊植麟帶隊循環(huán)智能與華為合作,2021 年 4 月,阿里也發(fā)布了 270 億參數(shù)的大模型「PLUG」,華為發(fā)布盤古。悟道不僅成為學者之間的橋梁,也加強了學術界與工業(yè)界的合作。
          與文源一樣,文匯團隊也聚集了一批來自高性能計算方向的青年科研人才,如陳文光、翟季冬,他們與韓文弢均屬于鄭緯民院士的團隊。對于大模型來說,高性能計算領域的分布式加速計算方法對于提高大模型的訓練速度、降低其訓練成本有著至關重要的意義。在悟道項目中,高計算人才也被委以重任。
          但對中國的大模型來說,高性能計算更大的影響力是催生了中國的第一個萬億大模型:「悟道 2.0」。
          2020 年年底,在推進悟道的同時,唐杰、陳文光與楊紅霞三個人也在計劃另一件事,就是申請?zhí)柗Q「超級計算應用領域諾貝爾獎」的戈登貝爾獎。
          申請戈登貝爾獎的超級計算機需要滿足幾個要求:一是申請的超級計算機必須是世界上最大的;二,在該機器上研究的項目必須把機器跑滿;第三,跑出來的項目結果必須有影響力。2021 年 1 月 GLM-10B 完成后,他們就決定在超算上跑大模型。
          于是,他們派了 30 多個人去山東青島海洋實驗室的「神威·海洋之光」上跑大模型。去的人中,唐杰與翟季冬的學生是主力,翟季冬因為其在底層算子上做并行訓練的能力突出而被唐杰與陳文光拉來結伙,此外還有幾個在線上提供支持的阿里工程師。(阿里也是國內最早研發(fā)大模型的團隊之一,有關阿里大模型的發(fā)展歷史,歡迎添加作者微信 Fiona190913 進行交流)

          翟季冬(左一)、韓文弢(右一)
          他們將手上收集的所有數(shù)據(jù)都帶去了青島,包括中文、英文與圖片等等,混在一起訓練。因為戈登貝爾獎的要求是將機器跑滿,所以他們將模型的參數(shù)量擴大到了 174 萬億,沒有對數(shù)據(jù)進行任何收斂。在超算上跑了十天后,他們訓練出幾個版本的大模型,每個模型的參數(shù)量都達到了百萬億級別。
          雖然規(guī)模大,但運行的成本也極高,超出了幾乎所有人的承擔范圍,于是他們就訓練了一個較為收斂的基于 MoE 的模型,參數(shù)量 1.75 萬億,比 GPT-3 還大十倍,超越了谷歌 2021 年 4 月發(fā)布的 1.6 萬億參數(shù)大模型 Switch Transformer,成為當時全球最大的大模型,最終在 2021 年 6 月的智源大會上發(fā)布時成為全場焦點,直接被視為「悟道 2.0」的全部,受到了國內外頂尖科技團隊的廣泛好評。
          智源一時風光無兩,躋身國際大模型頂尖行列。
          除了這個萬億大模型,「悟道 2.0」實際上還包含了文源團隊的兩個百億模型(110 億參數(shù)的中文模型、110 億參數(shù)的中英雙語模型)與一個千億模型(1980 億參數(shù)的中英雙語 MoE 模型),統(tǒng)稱為「CPM 2.0」;文瀾團隊的 50 億參數(shù)圖文檢索大模型 BriVL 2.0——這是中國的第一個多模態(tài)大模型,也是當時世界上參數(shù)量最大、訓練數(shù)據(jù)最多的多模態(tài)大模型。
          文瀾之前,學術界研究多模態(tài)的主流路線是「單塔」,即 Transformer 有 12 層,看上去像一座塔,同時輸入文字與圖片的 token 進行交互,然后根據(jù)文字與圖片的相似度打分。但在參數(shù)量極大的情況下,在線逐一比對的效率會非常低。盧志武于是提出「雙塔」路線:
          圖像先用圖像編碼器處理,文字也先用文字編碼器處理,兩者先不交互,等各自理解了更高層次的含義后再進行對比學習。如果圖文的意思相近,則雙塔的距離近,反之則遠。因為他們事先用多機并行的方式將圖像編碼,變成一個個高維向量儲存起來,所以在用文字檢索時,只需將文字進行編碼,不到一秒就能在高維向量中找到匹配的結果。文瀾在 2020 年 11 月驗證了「雙塔」路線的可行性,兩個月后 OpenAI 發(fā)布的 CLIP 架構(DALL·E 的幕后功臣)也是同樣思路。

          盧志武
          事后,盧志武等人向雷峰網表示,他們并不認為自己是「跟在別人的屁股后面做研究」;無論是中文大模型、多模態(tài)大模型還是萬億大模型等等,悟道的三個小組都是深入無人區(qū)才開辟了一番新天地。
          為了研究多模態(tài)大模型,盧志武將自己的所有學生都投入到了文瀾中,團隊整整一年沒有發(fā)表任何學術論文。在高校中,無論對教師還是學生來說,這都是極大的冒險。
          同樣,在研究中文大模型時,由于缺乏高質量的中文數(shù)據(jù),劉知遠與黃民烈的許多學生被派去做數(shù)據(jù)標注與清洗。CPM 2.0 的研究中,文源團隊搜集的原始數(shù)據(jù)高達 50TB,清洗后也有 2.6TB,學生在其中投入了大量的時間與精力。
          總的來說,智源與悟道的一百號人都是背水一戰(zhàn),「拿自己的職業(yè)生涯在賭」,只是大家沒想到自己居然賭贏了:2021 年 6 月「悟道 2.0」發(fā)布后,智源悟道成為了中國大模型一面鮮明的旗幟,悟道成員成為中國大模型的第一批開拓者。

          04

          ChatGPT 前夜

          實際上,2021 年被稱為中國的「大模型元年」:悟道 2.0 發(fā)布后,2021 年 9 月,百度發(fā)布了百億參數(shù)模型 PLATO-X;10 月,阿里達摩院發(fā)布參數(shù)量高達 10 萬億的大模型「M6」……
          隨著各大團隊的先后驗證,盡管大模型的訓練成本居高不下,但在 2021 年就出現(xiàn)了一批忠實的大模型追隨者。不僅國內,海外也出現(xiàn)權威的聲音:
          悟道 2.0 發(fā)布兩周后,谷歌就發(fā)表了論文,稱語言模型的參數(shù)從百億擴大到千億后會出現(xiàn)所謂的「智能涌現(xiàn)」;2021 年 8 月,斯坦福大學的李飛飛、Percy Liang 等百位學者更是聯(lián)名發(fā)表了一篇「基礎模型」(即大模型)的論文綜述,在國際上引起很大轟動。
          但許多悟道成員知道,事實上,在 2021 年,真正的國產千億大模型還未出現(xiàn)。
          悟道 2.0 的千億模型與萬億模型上層都是一個稀疏架構。雖然模型的參數(shù)量通過稀疏化擴大,但底座仍然是百億模型的能力。萬億大模型最終用硬盤拷下來的文件大小約為 20T,需要超過 500 張 A100 才能做推理,所以悟道團隊將文件從山東拷回北京后自己也用不起,只能向工業(yè)界開放。有幾家公司拷走了文件,「但估計拷回去也用不了」。
          此外,萬億模型包含中英雙語與圖片數(shù)據(jù),與 GPT-4 的訓練思路一樣,理論上是一個「多模態(tài)大模型」。但當時,文匯團隊沒有解決一個技術上的問題,即 AI 模型的「災難性遺忘」。他們發(fā)現(xiàn),加入圖片數(shù)據(jù)后,萬億大模型會出現(xiàn)「災難性遺忘」,文本的能力被削弱,以至于萬億大模型的文本能力還比不上百億模型 GLM-10B。近期關于 GPT-4 的泄漏信息也顯示,GPT-4 與悟道 2.0 的萬億模型一樣,是一個基于 MoE 的模型,參數(shù)量大約為 1.8 萬億。
          相比模型能力的突破,萬億模型的更大貢獻是培養(yǎng)了一批真正懂得如何訓練大模型的青年人才。那時,大模型對超算也是新鮮課題,海洋之光上只有簡單的操作系統(tǒng),為了訓練大模型,當初被派去青島的 30 多個人經歷了從零到一的開拓過程,從底層算子改起,重寫了上層的訓練框架與算法等。
          所以,悟道 2.0 發(fā)布后,悟道的成員更加執(zhí)著地要訓練千億大模型。
          2021 年年底,在悟道的內部會上,唐杰提了幾個建議:一是訓練一個千億模型,二是開發(fā)一個文本-視頻模型和一個代碼生成模型。但每個模型的參數(shù)規(guī)模都很大,他們算了一筆賬,發(fā)現(xiàn)完成這些目標要 1000 張卡不出錯地連續(xù)跑兩個月,訓練成本極高。
          當時,智源只有 480 塊 A100,把 400 塊給了唐杰團隊。在這 400 張卡上,唐杰小組研發(fā)了 10 億參數(shù)的視頻大模型(后升級到 60 億),還向外界借資源訓練了代碼大模型。
          悟道 2.0 受到廣泛關注,智源算力不足,鵬城實驗室高文院士便邀請?zhí)平軋F隊在鵬城實驗室的 910A 機器上跑,陳文光也向唐杰支援了將近 2000 張華為的 920 顯卡。那時,在大模型的訓練上,華為 920 的算子效率只有 A100 的 18%,唐杰團隊幫忙修改后將算子的效率提升到了 40% 左右,并訓練出一個 130 億參數(shù)的 CodeGeeX 代碼模型,之后華為與唐杰團隊的關系十分緊密。
          這期間,唐杰小組適配了市面上的各種卡,發(fā)現(xiàn) 2000 張 910A 卡不可能短時間跑出收斂的千億大模型,而 DCU 也需要上萬張卡跑兩個月才能跑完。最后,唐杰以其創(chuàng)立的智譜 AI 的名義從濟南超算上租了 1000 張卡,從底層重構算子,投入 20 多人訓練了 8 個月,才終于在 2022 年 7 月訓練出了千億大模型——GLM-130B 橫空出世。
          在唐杰煉千億模型與代碼生成模型時,黃民烈轉去煉對話大模型,后來發(fā)布的 EVA 與百度 PLATO 是國內最早的對話大模型;劉知遠在中文大模型的基礎上探索可控生成的語言模型,搭建大模型開源框架 OpenBMB……
          而在唐杰完成從實驗室到大模型創(chuàng)業(yè)的同時,中國第一批大模型公司陸續(xù)誕生:
          2021 年6 月,盧志武成立了「智子引擎」,探索多模態(tài)大模型的落地;2021 年 11 月,黃民烈創(chuàng)立了「聆心智能」,做有情感的超擬人大模型;2022 年 3 月,孫茂松的博士生、文源核心成員豈凡超創(chuàng)立了深言科技;2022 年 8 月,劉知遠創(chuàng)立了「面壁智能」,探索高效訓練的「平民版大模型」……
          2023 年,悟道的影響力越來越大:楊植麟離開循環(huán)智能,創(chuàng)立了「月之暗面」;楊紅霞離開阿里達摩院,加入字節(jié)跳動帶隊大模型,是字節(jié)大模型的核心成員……

          楊紅霞(左)、楊植麟(右)
          可以說,智源是當之無愧的「中國大模型黃埔軍校」。
          智源的成立背景是北京 2018 年開始建設新型研究機構,推動科研機制體制改革,用靈活的科研方式促進北京人工智能的創(chuàng)新。此前,科研管理流程復雜,從立項建議到指南發(fā)布再到經費申請、評審通過,周期漫長,難以適應強競爭環(huán)境下日新月異的科研需求。按照這種體制,2020 年 10 月提出立項建議,最快也要 2022 年才能正式展開大模型研究。
          但在智源的平臺上,悟道團隊當即立項,只用了不到五個月就推出了 1.0 版,八個月就完成了 2.0,取得了卓越成果,這無疑得益于其靈活創(chuàng)新的科研體系。在大模型的推進過程中,智源立項迅速,學者一邊建議,智源一邊支持。多位學者告訴雷峰網,他們向智源匯報需要多少機器后,通常幾天就能拿到資源,所以項目推進地很快。
          大模型的技術特質決定了其訓練需要海量的計算資源,而實際資源總是有限的,多個團隊競爭資源,智源算力已經捉襟見肘。在悟道 1.0 與 2.0 的過程中,各小組都需要不同程度地向外「討」資源、「借」算力。與此同時,大模型也讓大家看到新一代 AI 的商用落地前景。為了更好地探索大模型,一些學者就選擇了離開智源,自主創(chuàng)業(yè)。
          悟道各團隊基于大模型開發(fā)了許多前所未有的應用。比如,劉知遠的學生秦禹嘉寫了一套程序,用中文大模型調用 Bing 的搜索引擎來回答知乎問題,累計收獲了數(shù)千個贊;盧志武團隊用多模態(tài)大模型剪輯短視頻,用宮崎駿的電影給歌曲配 MV 畫面,在抖音上收獲了 150 萬的觀看量……
          那時候,盡管大眾對大模型的關注度不高,但悟道的成員都對這項新的技術感到無比興奮。宋睿華每次出去演講,給大家介紹多模態(tài)大模型,都十分高興,稱大模型是一只強壯的大象,「不要把大象關在冰箱里」。
          但可惜,2022 年之前,中國的市場并不愿意為大模型買單。
          2022 年,中國的 AI 全面進入資本寒冬。成立大模型公司后,他們都曾信心滿滿地出去融資,結果沒有一個投資人愿意掏錢。
          智源悟道的所有大模型成果都是開源的。但據(jù)宋睿華透露,即使文瀾發(fā)布后有上千萬次的調用,一些感興趣的大企業(yè)也不愿意付費使用。
          2022 年,國內對大模型的認知仍普遍不足。GLM-130B 完成后,智譜 AI 將其放到 GitHub 上開源,結果許多開發(fā)者都不會用,提出各種各樣的問題,以至于他們開源幾個月才積累了 1000 顆星。
          所有人都知道大模型很強,所有人也都知道需要一個「爆款產品」來呈現(xiàn)大模型的能力,但所有人都沒有解法。技術上,他們成為了巨人;但在產品上,他們仍然是矮子。
          直到 ChatGPT 的出現(xiàn)。

          05

          什么是語言智能?

          宋睿華在 2020 年 9 月入職人大,10 月參與悟道文瀾研究。此前,她在微軟小冰擔任首席科學家,研究文本生成,是「小冰寫詩」的項目負責人。
          2018 年從微軟到小冰后,宋睿華開始對認知智能產生興趣,想探索 AI 是如何理解人類語言的。那年夏天,她讀了美國加州大學圣地亞哥分校認知科學教授本杰明·伯根寫的一本書,Louder Than Words: The Science of How The Mind Makes Meaning(后譯作《我們賴以生存的意義》),深受啟發(fā)。

          宋睿華
          該書指出,當人類在閱讀一本好的作品時,常常會讀到停不下來,腦海中浮現(xiàn)出與文字相對應的畫面;而如果一段文字塑造地好,圖畫還會在讀者的腦海里活靈活現(xiàn)。所以,當人類真正理解一段文字時,一個重要的表現(xiàn)應該是可以想象出一個場景,甚至補充文字里沒有的內容。
          此外,理解語言不是為了用文字來做任務,正如很多時候看書不是為了第二天要考試一樣。但在過去,計算機領域的科學家往往是通過設定一個個細分的任務來考量 AI 是否理解了人類語言,如將體育類的文章與財經類的文章放在一起進行對比,看 AI 是否能正確分辨。
          ChatGPT 之前,國內研究 AI 對話的技術人員多來自論壇時代。他們的研究思路主要是源于論壇時代的聊天「對」,如論壇上 A 發(fā)一個帖子、B 與 C 在下面回復,一樓一樓地疊起來。在這樣的模式下,模型進行開放式對話時,就會暴露缺少知識的短板,因為知識不會在這些「對」中。宋睿華的一個同事在拜訪客戶的過程中,客戶問是否能做一個美妝類的對話機器人,但大家發(fā)現(xiàn)當時的 AI 對話做不好,因為它們輸出的內容以閑聊為主。
          那時,宋睿華就不斷思考問題的所在。她想來想去,想到了當時 AI 對話缺少知識的癥結所在:聊天「對」缺乏世界知識,要是能利用互聯(lián)網上的所有文本就好了。在小冰時,她想到的解法是利用公眾號的文章,因為公眾號的博主會有意識地追熱點,并從各個角度分析,信息都藏在文字里了,問題只在于如何將公眾號的文章變成對話能用的文字。
          但棋差一招。宋睿華想得很復雜,認為要先把文字抽象成圖譜,然后再影響對話。比如,輸入「鹿晗」,圖譜中會出現(xiàn)一個郵筒成為提示 AI 的線索,因為 2016 年鹿晗在上海外灘的一只郵筒旁拍了張照片,之后他的粉絲都到那個郵筒旁邊打卡,該事件一度成為新聞。但這個方法有弊端:當時檢索出文章中的原句做答復,有時候太過書面語,有時候帶入多余的信息,并不是合適的回復。
          看到 OpenAI 推出的 ChatGPT 后,宋睿華才恍然大悟,內心既激動又震撼:
          「Bingo!就應該是這樣解的!」
          ChatGPT 一出來,宋睿華就第一時間進行了試用,用完后感到十分驚訝。雖然都是對話機器人,但「小冰與 ChatGPT 就像兩個物種」。ChatGPT 沒有圍繞某項任務來積累知識,而是先將知識學到模型里。就像人類在日常閱讀中積累知識,讀得越多、知識存量也會越多,遇到某個「線索」(prompt)再調用積累的知識,組合應用,而不是復述原文。
          宋睿華告訴雷峰網,她當時洞察到閑聊對話機器人缺少廣泛的世界知識,也想到要用互聯(lián)網上所有的文章去彌補不足,但就是沒有 Ilya Sutskever(ChatGPT 的技術負責人)那樣深厚的功力去解。
          在 Ilya 的認知里,所有語言任務的能力都可以簡化為單一的「 AI 推理」能力。而 Ilya 又認為,所有的推理都可以通過預測下一個字來完成。例如,讓 AI 看完一本偵探小說,掌握了小說里的所有人物關系與線索,然后在小說的最后一句,偵探站起來對大家說:「這個兇手就是 ____ !」這時,填空的內容就很考驗模型的能力。有的 AI 模型邏輯能力強,能夠填對人名;有的模型會填一個錯的人名,但也表現(xiàn)出了一定的邏輯能力;而有的模型填的根本不是人名。
          Ilya 認為,推理就是預測下一個字的精度有沒有提高。語言的理解很難定義,但可以用「預測」來代替理解。當 AI 不斷地學習如何預測下一個字時,就已經學會了理解與推理。因此,IIya 解釋 GPT-4 比 GPT-3.5 更強的地方時會強調「(GPT-4)預測下一個字的精度又提高了」。北師大、劍橋和微軟的學者將 GPT-3.5 與 GPT-4 在智商與心理測試題上分別實驗后也發(fā)現(xiàn),GPT-4 的水平有明顯的提升。
          這是國內的第一批大模型學者所沒有想過的。在此之前,國內的學者普遍認為,人類很擅長數(shù)學推理,所以要將信息符號化、知識數(shù)學化。在這樣的思路下,模型架構往往被設計得十分復雜,能力局限。但 ChatGPT 體現(xiàn)出了「簡單至上」的美學,采用簡單的框架再結合豐富的知識,同時有創(chuàng)新的交互形態(tài),產品效果頓時煥然一新。
          自然語言的強大首次被重視。今年 5 月,在 MIT 的一個演講中,Geoffrey Hinton 也指出,AI 不需要將信息符號化就能從文字中獲得知識,因為人類也是靠語言來推理的。他舉了一個例子,讓宋睿華印象特別深刻:Hinton 曾問 ChatGPT「我們家有一些房間,分別是白色、藍色與黃色,黃色油漆在一年內會褪成白色,如果我希望兩年后我的墻都是白色,應該怎么辦?」然后 ChatGPT 回答他說,「可以把藍色的房間刷成黃色。」Hinton 大吃一驚,因為 ChatGPT 也許沒有理解數(shù)字,但似乎理解了「褪色」是什么意思。
          盡管有用戶向 ChatGPT 提問數(shù)學題來考驗它的能力瓶頸,但在悟道的多位早期成員看來,ChatGPT 已經解決了一些當前 NLP 方向最難的技術問題,如長文本的道理連貫與內在邏輯。在一些專業(yè)的場景下,ChatGPT 生成的答案也許不如人意,「但這些問題都是可以被改進的」。
          ChatGPT 出來后,大模型一下子火了,原先不受關注的大模型公司,智譜、面壁、聆心、智子、深言……也成為了中國資本的明日之星。智子引擎原先融不到錢,ChatGPT 出來后天使輪估值一個億,投資人甚至會問盧志武與其學生、智子引擎 CEO 高一釗「一個億夠不夠」。

          高一釗
          他們堅信大模型是 AI 的一大未來,但沒想到未來會來得如此之快。
          但拂去資本的浮華,對于求索語言智能的科學家來說,ChatGPT 更大的啟示在于其對語言大模型的本質理解與產品想象力,而后者與 OpenAI 想實現(xiàn)的宏大目標——AGI 不無關系。
          ChatGPT 的產品幾乎是完美的:它能讀懂用戶的意圖,回答各種各樣的問題,且每個問題都能給出一個不離譜的答案,,甚至在多數(shù)回答中展示了「知識」水平,由此在問答中轉化為實際的生產力。這誠然離不開 Ilya 等人對神經網絡與語言特征的深刻理解;但更重要的是,OpenAI 對未來有大膽的預測。
          所以,從 2016 年成立以來,所有人都說 AGI 是天方夜譚時,OpenAI 的團隊就敢堅信這是人工智能的未來;所有人都選擇 BERT 時,他們就能堅定選擇 GPT。而智源悟道在探索大模型時,并沒有這么大的野心;即使文繼榮等人提出研究多模態(tài)大模型,也只是因為「人也是這樣學習的」,并沒有往 AGI 的方向想。
          ChatGPT 出來后,五道口的各大模型團隊由于有先前的技術積累,所以也很快推出了相似的大模型產品。例如,智譜 AI 不到兩個月就推出了 ChatGLM;智子引擎也在 3 月 8 日發(fā)布了 ChatImg……但他們更知道,自己距離語言智能的輸出、乃至 AGI 還有很長距離。
          大家深知,ChatGPT 是一個啟示,但絕非終點。

          06

          中國大模型的未來

          回到智源。
          2021年6月發(fā)布悟道2.0后,智源一直在思考,投入巨大的大模型,未來以什么樣的方式賦能經濟社會發(fā)展。悟道 2.0 發(fā)布時,黃鐵軍提出:大模型是「智力」的載體,以 AI 為中心的浪潮應該是智力運營,最底層是技術軟硬件系統(tǒng),最上層是 AI 應用,而大模型則處于兩者中間,扮演「樹干」的角色,大模型的意義是將「智力」變成像水、電、網一樣的公共服務,通過云向大量企業(yè)或個人提供 AI 服務。「Model as Servive」(MaaS)也最早源于悟道。
          悟道走到 2.0 版,智源算力也只有 480 塊 A100 卡,支持多個團隊早已捉襟見肘,而新采購的 960 塊 A100 還在路上,遠水解不了近渴。在資源有限條件下,智源決定暫時不再追求擴大模型規(guī)模,而是把重心放在大模型算法創(chuàng)新上,悟道 1.0 與 2.0 所取得的所有大模型成果都開源開放,支持產學研各界協(xié)同創(chuàng)新。
          開源開放項目要最終成功,既要團結最廣泛的研究開發(fā)者群體,更要有穩(wěn)定的核心技術隊伍。在與高校學者展開合作的同時,智源也開始對外招聘人才,建立智源獨立的大模型團隊。2022 年 1 月,前 IBM 中國研究院院長林詠華加入智源擔任總工程師,2022 年 6 月領導建成大模型訓練平臺「九鼎」,總算力達到了1000P,同時專職大模型團隊也逐步到位,悟道大模型研發(fā)進入一個新階段,林詠華主管語言大模型方向,黃鐵軍主管視覺大模型方向。
          2023 年 4 月,智源被微軟總裁 Brad Smith「點名」為「(全球)絕對領先的三家機構(three at the absolute forefront)之一」,與 OpenAI、谷歌齊名。
          2023 年 6 月,在第五屆智源大會上,「悟道 3.0」發(fā)布,包括「悟道-天鷹」系列語言模型、「悟道-視界」系列視覺及多模態(tài)模型。與「悟道 1.0」、「悟道 2.0」不同的是,悟道3.0不僅僅是大模型,而是一套大模型技術體系,還包括「天秤(FlagEval)」大語言評測體系及開放平臺與 FlagOpen飛智大模型技術開源體系,體現(xiàn)了更為宏觀的大模型發(fā)展視野。
          另外,「悟道 3.0」已經超出了智源的范圍,它是新一代人工智能旗艦項目「人工智能基礎模型支撐平臺與評測技術」第一階段成果。
          2021 年悟道 1.0 和 2.0 發(fā)布時,「新一代人工智能重大科技項目」專家組就開始在討論國家應該以什么樣的方式支持大模型。智源的悟道是一次大膽的探索,但在這個過程中也存在各自為戰(zhàn)的問題。于是專家組就提出,要探索一種開放的機制,加強「有組織科研」, 引導「大煉大模型」從「蠻力」競爭回歸理性創(chuàng)新的軌道,推動中國 AI 學者一起開發(fā)大模型,通過布局一批關聯(lián)項目,打造系統(tǒng)級成果,機制簡稱為「1+X+Y」體制。
          其中,「1」即「人工智能基礎模型支撐平臺與評測技術」旗艦項目,是引領大模型技術和產業(yè)發(fā)展的「航母」。「X」是一批關鍵技術項目,支持大模型核心算法和技術研發(fā),采用「賽馬制」動態(tài)遴選,由「1」對這些項目及所有愿意參加協(xié)同創(chuàng)新的技術和算法組織公開公平的評測,遴選出的優(yōu)秀算法和技術進入大模型開源體系,得到國家項目支持但貢獻小的團隊將被淘汰,未得到國家項目支持但貢獻大的團隊來年優(yōu)先得到支持。「Y」是一批應用示范項目,針對重大應用場景,采用旗艦項目構建的技術體系,推進人工智能的深度應用。
          大模型旗艦項目建議得到了科技部相關領導和部門的大力支持,列入國家「科技創(chuàng)新 2030」新一代人工智能重大科技項目 2022 年度指南,經過評審程序,2022 年 12 月「1+8」共 9 個項目立項成功,2023 年 1 月 1 日開始執(zhí)行。
          而也就在中國大模型旗艦項目群成功立項啟航時,ChatGPT 橫空出世。
          在黃鐵軍看來,「我國在大模型方向是有前瞻性的, ChatGPT 出來前一年半,就已經布局航母艦隊去主攻大模型。」

          OpenAI 另一個為人稱道的特點是出色的組織能力。回顧悟道的發(fā)展,某種程度上,智源也是將一群關系松散、沒有利益共同體的 AI 研究員組織在了一起,但與 OpenAI 相比,凝聚力仍不夠。三個團隊各自為戰(zhàn),好處是開辟了多個大模型方向,短板也很明顯,就是「沒有集中力量辦一件大事」。

          縱觀當前的中國大模型,也是許多人都看到了大模型方向的價值,但選擇各自為戰(zhàn)。而黃鐵軍認為,從有利于未來發(fā)展的角度看,不僅需要大膽,是否團隊作戰(zhàn)也很重要。在科技迅速發(fā)展、日新月異的國際競爭環(huán)境中,只有集中力量,相互協(xié)調,才能產生重大的成果。

          以數(shù)據(jù)標注為例。即使這是一塊基礎工作,OpenAI 也給予了高度重視,給數(shù)據(jù)標注崗的員工開出數(shù)十萬美元的年薪。據(jù)雷峰網了解,目前國內的許多大廠并沒有全鏈條思維,數(shù)據(jù)標注被劃為邊緣職能,要么選擇外包,要么不計入工作考核的 KPI,數(shù)據(jù)質量難以保障,大模型的底座能力也難免受到影響。

          圍繞 AGI,OpenAI 也并非只有 ChatGPT 一張牌;兩代 DALL·E 在文字控制圖像生成上也體現(xiàn)出 AI 推理能力的進化。此外,OpenAI 還投資機器人智能等。在思考 AGI 這個終極目標時,OpenAI 的布局是一體的、系統(tǒng)的,而非單點的、局面的。(關于大模型嵌入式智能,歡迎添加作者微信 Fiona190913 討論)

          ChatGPT 出來后,宋睿華與孫茂松等人探討技術之余,也開始思考如何能讓中國的學生更自信,擁有喬布斯的精神,在產品上敢于「Think Different」,多思考自己「想」做什么、而不是「能」做什么。有一個龐大的目標后,再倒回來思考實現(xiàn)的手段,將大的目標拆解成無數(shù)個小的目標,通過各種途徑將事情做成,不拘一格。

          值得注意的是,智源悟道不只催生了中國第一批大模型公司,也影響了一批 90 后的 AI 碩博生:楊植麟、豈凡超、曾國洋、高一釗、霍宇琦……悟道 1.0 與 2.0 的團隊中,超過 85% 的成員為 90 后青年學生。在經歷大模型的墾荒后,他們又在過去的一年目睹了 Midjourney、ChatGPT 等產品的爆發(fā),對于大模型時代的 AI 商用也有了許多不同的思考。

          他們中的許多人,都有解決語言智能、乃至通用人工智能,將 AI 轉化為社會新生產力的遠大志向。隨著經濟發(fā)展的頹勢漸顯,科技興國已成共識;過去十年,無論是視覺 AI ,還是自動駕駛,抑或今天的大模型,都是人們對新生產力構造的活躍社會的渴望。

          一個時代有一個時代的困境;一個時代也需要一個時代的自救。唯有走不同的路,才能構造新的生存方式,而世界永遠掌握在年輕人的手中。

          本文作者自 2020 年開始關注大模型,歡迎對大模型、AGI、AIGC 感興趣的讀者添加作者微信(Fiona190913)交流、互通有無,添加請備注姓名、職位與單位。

          參考鏈接:

          https://www.youtube.com/watch?v=sitHS6UDMJc


           

          福利票上線,免費搶3000元/張的大會通票

          為答謝忠實讀者,我們提供20張GAIR SUMMIT 2023免費門票,掃碼下方二維碼,或點擊文末【閱讀原文】注冊,即可有機會獲取,先到先得。

          //

          近期熱門文章

          港中文「1026實驗室」往事:賈佳亞與他的學生們


          獨家對話黃學東:我在微軟30年的風風雨雨


          硅谷NEC Lab往事:將中國企業(yè)拽進AI時代的人

          瀏覽 46608
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  无码人妻 一区二区三区 | 欧美成人免费一级人片100 | 天天狠狠干| 欧美大鸡吧在线 | www.一级黄色视频 |