人人都能懂的ChatGPT解讀

本文將用淺顯且不嚴(yán)謹(jǐn)?shù)恼Z言解惑以下問題:ChatGPT 為什么能火起來?
ChatGPT 背后的關(guān)鍵技術(shù)是什么?我能弄個自己的 ChatGPT 嗎?我怎么用它來賺錢?
對話機(jī)器人不是個新技術(shù),以往的機(jī)器人產(chǎn)品很多,為什么這次 OpenAI 公司推出的 ChatGPT 能這么火?因?yàn)橐郧暗臋C(jī)器人只能做簡單且有限的事,問天氣、放音樂還行,問個復(fù)雜一些的事就有點(diǎn)“人工智障”了。ChatGPT 可以說是技術(shù)上的量變引起了效果上的質(zhì)變,在三個方面讓我感覺很驚艷:
有上下文記憶能力,多輪對話銜接地很好,很難看出是機(jī)器生成的;
有學(xué)習(xí)糾錯能力,在它回答錯誤之后,如果你糾正了它,第二次就不會再答錯。
有思維鏈推理能力,具備一些常識知識,能做復(fù)雜一些的算數(shù)題;
在 ChatGPT 背后起關(guān)鍵作用的是一種被稱為大規(guī)模語言模型(Large Language Model,LLM)的東西,ChatGPT 用的這款語言模型命名為 GPT-3.5,GPT 是生成式預(yù)訓(xùn)練(Generative Pre-Training)的縮寫,目前的版本號是 3.5 版。此外,在 GPT-3.5 之上,ChatGPT 還通過基于人類反饋的強(qiáng)化學(xué)習(xí)(Reinforcement Learning from Human Feedback,RLHF),使 GPT 能夠記住之前的對話、承認(rèn)錯誤、在連續(xù)的多輪對話中給人很順暢的感覺。
顧名思義,大規(guī)模語言模型就是非常大的語言模型。什么是語言模型呢?
簡單說來,語言模型的作用就是根據(jù)已知句子的一部分,來預(yù)測下一個單詞或者空缺部分的單詞是什么。比如,給你前半句:“國慶前夕,天安門廣場前佇立起一個 ____”,你會預(yù)測出空白部分大概率會是“大花籃”。
其實(shí),你天天都在用語言模型,當(dāng)你使用手機(jī)或電腦里的輸入法回復(fù)消息時,它就在推薦你下一個單詞。ChatGPT 使用的 GPT-3.5 可比輸入法中的語言模型要大很多。輸入法語言模型占用的存儲空間可能只有 50MB,而 GPT-3.5 有 800GB。
GPT 為什么會那么大?因?yàn)樗鼉?nèi)部是神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)。大規(guī)模語言模型的基礎(chǔ)單元叫做感知機(jī),它模擬了人腦中神經(jīng)元的結(jié)構(gòu)。這些感知機(jī)組織成龐大的網(wǎng)絡(luò)結(jié)構(gòu),用來“山寨”人腦的神經(jīng)網(wǎng)絡(luò)。
一般情況下,一個正常人的大腦約有 800~1000 億個神經(jīng)元,以及約 100 萬億個突觸。神經(jīng)科學(xué)家 Paul Maclean 提出的三元腦(triune brain) 模型,將大腦結(jié)構(gòu)分為三類:爬行腦、哺乳腦、人類腦。爬行腦最早進(jìn)化出來,負(fù)責(zé)呼吸、心跳、血壓等,完全自動運(yùn)作。哺乳腦負(fù)責(zé)情感、記憶、習(xí)慣形成等,能夠做出非常快的決策。人類腦最晚形成,負(fù)責(zé)一些復(fù)雜的分析推理,是做慢決策,即所有需要深思熟慮的事物。
GPT-3.5 的參數(shù)總量達(dá)到 1750 億,雖然距離人腦突觸的量級還有差距,但也已經(jīng)顯現(xiàn)出之前小規(guī)模模型所不具備的推理能力。要想足夠智能,網(wǎng)絡(luò)規(guī)模足夠大是個必要條件。
大模型的核心是一個叫 Transformer 的組件,Transformer 在這里可不是"變形金剛"的意思,也許翻譯成"變壓器"意思更接近些。
想想我們國家的西電東輸工程,西部利用水力、風(fēng)力、日光所轉(zhuǎn)化的電能,經(jīng)過變壓器壓縮成高壓甚至特高壓,再在電網(wǎng)上傳輸,到了東部之后再逐級降壓,然后才能使用。變壓器在其中先升壓再降壓,有效降低了能量在傳輸過程中的損耗。
我們?nèi)祟愒诮涣鬟^程中也有類似的過程,同事 A 跟你說了一件事,你并沒有逐字逐句的記在腦子里,而是理解了其中的語義,在腦子里形成一種意識流,這是一種壓縮編碼的過程。你腦子里保留的意識流具體是什么,你也說不清楚 --- 也不需要說清楚。當(dāng)你向同事 B 復(fù)述這件事的時候,你重新把它組織成語言,保留了其中的各項(xiàng)重點(diǎn)內(nèi)容,通過一系列的發(fā)音或文字表達(dá)給對方,這是解碼的過程。這種先編碼再解碼的過程,就是 Transformer 的工作原理。另外,在實(shí)際當(dāng)中,有些語言模型只用到堆疊多層的編碼器,有些只用到堆疊多層的解碼器;堆疊的層數(shù)也多有不同,少的有 6 層、12 層,多的有 48 層。
如果你有一些計(jì)算機(jī)基礎(chǔ),聽說過詞袋模型(Bag of Words,BOW)、循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN),那么對 Transformer 就更容易理解了。
BOW 完全丟棄了詞的位置信息,沒有把文本當(dāng)作有順序的序列,因此語義理解能力較差。例如,“不,我很好”和“我很不好”,兩句話雖然用詞一樣,但詞的位置不同,語義上差別巨大。
RNN 能較好的保留詞的位置信息,可以考慮到詞的先后順序?qū)︻A(yù)測的影響,但是,如果處理的文本長度很長,關(guān)鍵的詞之間距離較遠(yuǎn)時,效果會顯著下降。
Transformer 中引入“注意力”機(jī)制,多個組件分別關(guān)注句子中不同方面的重點(diǎn),而且隨著網(wǎng)絡(luò)層次的增加,能夠提取出更高級更抽象的語義信息,理解能力更強(qiáng)。Transformer 除了語義提取能力強(qiáng),還能從無標(biāo)注的數(shù)據(jù)中學(xué)習(xí),而且場景遷移能力好。
此外,大規(guī)模語言模型還帶給人們的一項(xiàng)意外的驚喜,那就是讓人細(xì)思極恐的思維鏈(Chain-of-Thought,CoT)能力。
簡單地說,思維鏈就是讓 LLM 將一個問題拆解為多個步驟,最后給出答案,而不是讓 LLM 直接給出答案。直接給答案的出錯率更高。比如,你給 LLM 出了一個題目:“張三養(yǎng)了 10 條狗,每天照顧每條狗都要花半小時,請問他照顧這些狗要花費(fèi)多長時間?”LLM 直接給答案的話可能會出錯,當(dāng)你提示 LLM 要“一步步地回答”時,它會告訴你:“張三養(yǎng)了 10 條狗,每天照顧每條狗都要花半小時,那就是 10 x 0.5 = 5 小時 / 天。5 小時 / 天 x 7 天 / 周 = 35 小時 / 周。答案是每周 35 小時。”
這項(xiàng)能力并不是設(shè)計(jì)者的初衷(初衷只是學(xué)習(xí)如何說人話),而是在隨后的代碼訓(xùn)練、提示學(xué)習(xí)中挖掘出來的,這些能力原本就已經(jīng)存在于大模型之中,它從代碼、書籍、網(wǎng)頁中學(xué)到了一些常識知識并具備了一定的推理能力。
人類問問題的方式對于 LLM 而言不是最自然的理解方式,為了讓 ChatGPT 給出的答案更貼近人類的問題、更符合公序良俗,它在發(fā)布前采取了一種叫做“基于人類反饋的強(qiáng)化學(xué)習(xí)”(Reinforcement Learning by Human Feedback,RLHF)的訓(xùn)練策略。簡單來說,就是花錢找人給模型提出各種可能的問題,并對模型反饋的錯誤答案進(jìn)行懲罰、對正確的答案進(jìn)行獎勵,從而實(shí)現(xiàn)提升 ChatGPT 回復(fù)質(zhì)量的目的。
光有海量的、無標(biāo)注的數(shù)據(jù)還不夠,還要有少量的、高質(zhì)量的標(biāo)注數(shù)據(jù)才行。前者用來訓(xùn)練語言模型,讓它學(xué)會說人話,后者用來訓(xùn)練對話模型,讓它別啥都瞎說,比如:回答中不能含有種族歧視和性別歧視的內(nèi)容,拒絕回答不當(dāng)問題和知識范圍之外的問題。
簡單地回答:極大概率是不能的。起碼在現(xiàn)階段,這不是招幾個人、花些錢就能做成的事,能訓(xùn)出 ChatGPT 的人可能比做出 4 納米芯片的人還要少。
這其中的原因是什么?咱先來捋捋 ChatGPT 超能力的來源,再對比看看自己手中的家底。
算力,也就是數(shù)據(jù)的處理能力,與數(shù)據(jù)、算法,并稱為 AI 三要素。據(jù)估計(jì),僅僅訓(xùn)練一次 GPT-3,Open AI 可是花費(fèi)了 460 萬美元。對于 ChatGPT 而言,支撐其算力基礎(chǔ)設(shè)施至少需要上萬顆英偉達(dá) A100 的 GPU,一次模型訓(xùn)練成本超過 1200 萬美元。
然而,在這些必要非充分條件中,算力是最容易解決的。
模型要足夠深、足夠大,才能解決遠(yuǎn)距離的語義理解能力、才能產(chǎn)生抽象的推理能力,這些高級的基礎(chǔ)的能力具有很好的通用性。因此,高級的能力可能只存在于大型模型中,而訓(xùn)練大模型,需要足夠的數(shù)據(jù)量。
全球高質(zhì)量文本數(shù)據(jù)的總存量在 4.6 萬億到 17.2 萬億個字符之間。這包括了世界上所有的書籍、科學(xué)論文、新聞文章、維基百科、公開代碼以及網(wǎng)絡(luò)上經(jīng)過篩選的達(dá)標(biāo)數(shù)據(jù),例如網(wǎng)頁、博客和社交媒體。最近的一項(xiàng)研究數(shù)據(jù)顯示,數(shù)據(jù)總數(shù)大約為 3.2 萬億個字符。DeepMind 的 Chinchilla 模型是在 1.4 萬億個字符上訓(xùn)練的。也就是說,在這個數(shù)量級內(nèi),我們很有可能耗盡世界上所有有用的語言訓(xùn)練數(shù)據(jù)。
此外,反觀中文網(wǎng)站的數(shù)據(jù)資源,大致占全世界總資源的 1.3%。中文內(nèi)容相比英文有四五十倍的差距,人工智能脫離不了人類知識的土壤,這方面的先天條件不是短期內(nèi)花錢或憑一己之力就能解決的。
ChatGPT 公開出來的少量材料中,披露出了一系列訓(xùn)練技巧,比如:代碼訓(xùn)練、指令微調(diào)、上下文學(xué)習(xí)等。更多的細(xì)節(jié)目前還沒有公開,即便公開了也不見得是全部,即便全部公開也未必能重現(xiàn)。因?yàn)檎麄€過程鏈條非常長,有大量的工程技巧在里邊。俗話說魔鬼藏在細(xì)節(jié)里,具體的實(shí)現(xiàn)和工程技巧才是重頭戲,好比剛學(xué)做菜的人,即便有足夠的食材,照著菜譜也不可能做出一套滿漢全席。
今年 2 月初,谷歌已向人工智能初創(chuàng)公司 Anthropic 投資約 3 億美元,并獲得該公司 10% 股份。該公司 2021 年創(chuàng)立,目前團(tuán)隊(duì)規(guī)模僅在 40 人左右,初創(chuàng)期的 11 位核心成員都曾經(jīng)參與過 GPT-2、GPT-3 模型的研發(fā)。可見,業(yè)界對于人才的重視程度以及人才的奇缺性。
ChatGPT 似乎打破了人們關(guān)于 AI 模型的一項(xiàng)固有認(rèn)知:“通用的不好用,好用的不通用。”
大模型革命的一個關(guān)鍵趨勢就是,通用大模型比專用小模型表現(xiàn)地更好。對于定位在垂直細(xì)分領(lǐng)域里的初創(chuàng)公司來說,既不能自研出大模型,效果上又失去了競爭力,因此是不是就沒有活路了?
我覺得不是,ChatGPT 的能力可以分成 chat 和 GPT 兩部分來看,即上層的對話和圖片的生成能力、底層的語言和推理能力。
在 ToC 類內(nèi)容消費(fèi)市場,未來可能會出現(xiàn)大量的、碎片化的 AIGC 應(yīng)用,比如生成頭像、詩文、甚至短視頻等,重點(diǎn)是在有趣的細(xì)分場景里發(fā)揮創(chuàng)造性和想象力。在消費(fèi)電子市場里,有對話能力的智能音箱、智能家電在去年的出貨量有所下滑,借助更強(qiáng)的對話能力,也許還能挽回一些頹勢。
在 ToB 類企業(yè)服務(wù)市場,AI 不再只是替代簡單重復(fù)性的體力勞動,還將替代簡單規(guī)律性的腦力勞動,并在邏輯復(fù)雜的腦力勞動中輔助員工提升工作效率。簡單的腦力勞動,比如營銷文案撰寫、初級程序員和插畫師等。復(fù)雜的腦力勞動,可能會圍繞具體業(yè)務(wù)的推理能力,以虛擬工作助手的形式出現(xiàn)。
對于處于 ToB 賽道的科技公司而言,中間層可能會越來越薄,對于行業(yè) KnowHow 的積累會成為越來越重要的競爭門檻。這其中可能會遇到很多挑戰(zhàn),比如:如何在使用強(qiáng)大的通用模型和構(gòu)建自己的垂直模型之間進(jìn)行迭代,如何將通用無標(biāo)注的大規(guī)模數(shù)據(jù)和領(lǐng)域小規(guī)模知識相結(jié)合,如何將領(lǐng)域事實(shí)知識注入到 LLM 中使得 LLM 的輸出內(nèi)容可控。在目前的研究范式下,領(lǐng)域內(nèi)高質(zhì)量的標(biāo)注數(shù)據(jù) + 領(lǐng)域推理能力,兩者如何形成“飛輪效應(yīng)”是非常重要的問題。
說了這么多,總結(jié)一下重點(diǎn),不管你能記住多少,起碼下次在電梯里遇到老板或者在飯局上遇到同學(xué)時,在聊起 ChatGPT 的時候,你能插上幾句話。
關(guān)于大規(guī)模語言模型:訓(xùn)練時要用到萬億級的數(shù)據(jù)、花費(fèi)百萬美元的算力,才能使它能說人話,并具有一定的“思維鏈”推理能力。
大模型的超能力:模型要足夠深、足夠大,才能產(chǎn)生抽象的推理能力,這些高級的基礎(chǔ)能力具有很好的通用性。大模型革命的一個關(guān)鍵趨勢就是,通用大模型比專用小模型表現(xiàn)地更好,打破了人們一項(xiàng)固有認(rèn)知:“通用的不好用,好用的不通用。”
應(yīng)用場景:ToC 類應(yīng)用要找準(zhǔn)細(xì)分的內(nèi)容生成場景,ToB 類應(yīng)用要圍繞推理能力去發(fā)揮,讓它成為腦力工作者的輔助,替代一部分簡單的腦力工作,輔助員工的做創(chuàng)造性工作。
最后,對于想進(jìn)一步深入了解技術(shù)細(xì)節(jié)的同學(xué),推薦一下延展閱讀材料:
OpenAI 官網(wǎng)上關(guān)于 ChatGPT 的介紹:ChatGPT: Optimizing Language Models for Dialogue
關(guān)于大規(guī)模預(yù)訓(xùn)練語言模型:《預(yù)訓(xùn)練語言模型》
基于語言模型提示學(xué)習(xí)的推理:論文列表
關(guān)于 GPT 技術(shù)演進(jìn)過程:GPT1 到 ChatGPT 的技術(shù)演進(jìn)
關(guān)于大模型的涌現(xiàn)能力:大模型的突現(xiàn)能力和 ChatGPT 引爆的范式轉(zhuǎn)變
關(guān)于 InstructGPT:Training language models to follow instructions with human feedback
對話式 AI 需要具備領(lǐng)域知識時,可以參考這本書:《知識中臺》
對話式 AI 需要處理視頻或語音時,可以參考:《深度學(xué)習(xí)視頻理解》《語音識別服務(wù)實(shí)戰(zhàn)》
張杰,中關(guān)村科金技術(shù)副總裁
天津大學(xué)計(jì)算機(jī)專業(yè)博士。榮獲第十屆吳文俊人工智能技術(shù)發(fā)明一等獎。著有《知識中臺:數(shù)字化轉(zhuǎn)型中的認(rèn)知技術(shù)》、《“新一代人工智能創(chuàng)新平臺建設(shè)及其關(guān)鍵技術(shù)叢書”— 知識圖譜》兩部技術(shù)專著。研究領(lǐng)域:知識工程、自然語言處理等技術(shù)領(lǐng)域擁有豐富的理論和實(shí)踐經(jīng)驗(yàn)。主持或參與國家級課題八項(xiàng),并發(fā)表學(xué)術(shù)論文十余篇、擁有專利一百余項(xiàng)。主導(dǎo)開發(fā)了推薦引擎、知識問答系統(tǒng)、客服機(jī)器人、大數(shù)據(jù)風(fēng)控平臺、行業(yè)知識圖譜等多項(xiàng)商業(yè)化系統(tǒng),累計(jì)產(chǎn)值數(shù)億元。
推薦閱讀:
世界的真實(shí)格局分析,地球人類社會底層運(yùn)行原理
不是你需要中臺,而是一名合格的架構(gòu)師(附各大廠中臺建設(shè)PPT)
企業(yè)IT技術(shù)架構(gòu)規(guī)劃方案
論數(shù)字化轉(zhuǎn)型——轉(zhuǎn)什么,如何轉(zhuǎn)?
企業(yè)10大管理流程圖,數(shù)字化轉(zhuǎn)型從業(yè)者必備!
【中臺實(shí)踐】華為大數(shù)據(jù)中臺架構(gòu)分享.pdf
華為如何實(shí)施數(shù)字化轉(zhuǎn)型(附PPT)
