<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          AI新視界:揭開(kāi)AI大模型的黑魔法面紗

          共 11978字,需瀏覽 24分鐘

           ·

          2023-09-18 14:08

          全文字?jǐn)?shù):8600字,閱讀時(shí)間:30分鐘

          本文來(lái)自智次方直播:AI新視界:揭開(kāi)AI大模型的黑魔法面紗


          點(diǎn)擊上方藍(lán)色文字

          關(guān)注我們


          金秋9月,智次方與智用人工智能應(yīng)用研究院攜手推出AI大模型系列公開(kāi)課,從認(rèn)知、應(yīng)用、商業(yè)、安全等不同方向,帶您領(lǐng)略AI大模型的魅力與應(yīng)用前景。

          96日晚,智用研究院首席數(shù)字規(guī)劃師 趙銘老師以“AI新視界:揭開(kāi)AI大模型的黑魔法面紗為主題進(jìn)行了一次深度內(nèi)容分享。

          以下根據(jù)直播內(nèi)容整理:

          01

            “大模型”的進(jìn)化歷程




          人工智能的領(lǐng)域非常廣泛,基本上在計(jì)算機(jī)科學(xué)領(lǐng)域中,能夠模仿人類(lèi)思維和決策的都被稱(chēng)為人工智能。這個(gè)領(lǐng)域非常龐大,其中有許多不同的方法,但最終都可以實(shí)現(xiàn)類(lèi)似的功能。


          在上世紀(jì)90年代左右,出現(xiàn)了一種叫做機(jī)器學(xué)習(xí)的流派。其思想是如果我們把好多歷史數(shù)據(jù)輸入到模型中,它就可以幫我們生成一條趨勢(shì)線,類(lèi)似于股票的K線圖,我們可以用它來(lái)預(yù)測(cè)未來(lái)可能發(fā)生的事情。


          到了大約2010年前后,在機(jī)器學(xué)習(xí)領(lǐng)域中出現(xiàn)了一個(gè)小流派——深度學(xué)習(xí)。人們開(kāi)始使用一種新的架構(gòu)來(lái)實(shí)現(xiàn)趨勢(shì)的發(fā)現(xiàn),這個(gè)架構(gòu)叫做深層神經(jīng)網(wǎng)絡(luò)。這個(gè)架構(gòu)是從模擬人類(lèi)思維方式、模擬人類(lèi)大腦中得來(lái)的。隨著大家對(duì)大腦的了解越來(lái)越多,發(fā)現(xiàn)大腦皮層中有很多神經(jīng)元,雖然不知道這些神經(jīng)元如何工作,但是我們可以模仿神經(jīng)元來(lái)構(gòu)建多層神經(jīng)網(wǎng)絡(luò),一層一層地將一個(gè)大任務(wù)分解成許多小任務(wù),讓許多神經(jīng)元一起工作?;谶@個(gè)理念,人們開(kāi)始研究生成神經(jīng)網(wǎng)絡(luò)算法和框架,這就是深度學(xué)習(xí)的起源。


          深度學(xué)習(xí)強(qiáng)調(diào)“遷移學(xué)習(xí)”的概念。不要被這些聽(tīng)起來(lái)很高大上的名詞迷惑,遷移學(xué)習(xí)的原理也很簡(jiǎn)單。以前的機(jī)器學(xué)習(xí)想法是,如果我研究了過(guò)去的股票價(jià)格,我就能預(yù)測(cè)未來(lái)的股市會(huì)漲還是跌。遷移學(xué)習(xí)的思想類(lèi)似于如果我研究了股票市場(chǎng)的漲跌,我是否也可以用這個(gè)模型去預(yù)測(cè)期貨市場(chǎng),或者用這個(gè)模型去預(yù)測(cè)貨幣市場(chǎng)。目的是用一個(gè)任務(wù)學(xué)習(xí)知識(shí),然后將這個(gè)知識(shí)應(yīng)用到另一個(gè)任務(wù)中,就像學(xué)習(xí)可以遷移一樣。


          隨著深度學(xué)習(xí)的繼續(xù)發(fā)展,大家慢慢發(fā)現(xiàn)無(wú)論如何研究下去,最基礎(chǔ)的模型的共性是一樣的。我們稱(chēng)這一類(lèi)非?;A(chǔ)的、有共性的模型為基礎(chǔ)模型。實(shí)際上,基礎(chǔ)模型并不新穎,已經(jīng)出現(xiàn)很多年了。其實(shí)大家每天都在接觸基礎(chǔ)模型,比如,有人在開(kāi)新款的新能源的車(chē)型,它有L2級(jí)別的自動(dòng)駕駛,這一功能是靠車(chē)?yán)锩娴臄z像頭或傳感器,來(lái)探測(cè)前方是否有障礙物,探測(cè)車(chē)道的位置,然后使得車(chē)輛行駛在道路中間。這是視覺(jué)探測(cè)。視覺(jué)探測(cè)就是生成神經(jīng)網(wǎng)絡(luò)里面的基礎(chǔ)模型在運(yùn)作,也是Resnet做的事情,或者說(shuō)基于Resnet衍生出來(lái)的大量圖像識(shí)別技術(shù)、視頻識(shí)別技術(shù),都是在基礎(chǔ)模型之上做出來(lái)的。


          在基礎(chǔ)模型的發(fā)展中,就開(kāi)始出現(xiàn)了大模型。實(shí)際上大模型就是基礎(chǔ)模型里面的一個(gè)分類(lèi)。那么為什么叫它呢?是因?yàn)橐郧暗幕A(chǔ)模型沒(méi)有用到那么多的數(shù)據(jù)和參數(shù)。而大模型里面用到的模型非常特別,它用到了大量的數(shù)據(jù)、大量的計(jì)算,而且具有大范圍的通用性。


          為了讓大家對(duì)“數(shù)據(jù)到底有多大”有一個(gè)感性的認(rèn)識(shí),我來(lái)舉個(gè)例子。支撐你每天完成L2級(jí)別自動(dòng)駕駛的Resnet這種圖像識(shí)別技術(shù)一般用到多少參數(shù)?它的參數(shù)級(jí)別大概是個(gè)位數(shù)的億,比如說(shuō)2億到5億這樣一個(gè)級(jí)別。當(dāng)然,現(xiàn)在的視覺(jué)引擎,比如說(shuō)有一些攝像頭可以識(shí)別到人有沒(méi)有在笑,這個(gè)人的年齡到底是50歲還是30歲,這都是基于Resnet類(lèi)似的技術(shù)發(fā)展出來(lái)的。它的參數(shù)也會(huì)越來(lái)越多,但再怎么多其實(shí)也就是在幾億到幾十億這樣一個(gè)參數(shù)。到達(dá)十幾二十億參數(shù)的,說(shuō)明這個(gè)圖像模型已經(jīng)非常強(qiáng)大了。


          但是我們今天講的大模型,是一個(gè)叫Transformer的模型。這個(gè)模型非常強(qiáng)大,它的參數(shù)可以達(dá)到多少呢?它是以幾十億為起步的。我們經(jīng)常聽(tīng)到的是65億個(gè)參數(shù)。但這只是它的起步值,而我們現(xiàn)在主流使用的大模型,能夠完成一些繪畫(huà)任務(wù)的,基本上都在百億甚至千億級(jí)別。當(dāng)然,今天很多人使用的ChatGPT模型,一般達(dá)到什么參數(shù)級(jí)別呢?至少是百億起步,而百億只是起步點(diǎn)。作為一個(gè)玩家,如果你想要做得更好,你需要有大幾百億的參數(shù)量,甚至到千億級(jí)、萬(wàn)億級(jí)。


          實(shí)際上,業(yè)界已經(jīng)開(kāi)始探討萬(wàn)億級(jí)參數(shù)的某些大模型要大到什么程度,既然參數(shù)量如此之大,計(jì)算量也非常驚人,以前我們的那些視覺(jué)訓(xùn)練,可能只需要一臺(tái)電腦和一張好一點(diǎn)的顯卡就可以運(yùn)行。但如今我們發(fā)現(xiàn)英偉達(dá)公司非常厲害,只有他們的機(jī)器才能運(yùn)行Transformer模型,而且不是一臺(tái)機(jī)器,是一個(gè)由多臺(tái)機(jī)器組成的集群來(lái)運(yùn)行。這是因?yàn)樗臄?shù)據(jù)量和參數(shù)量太大了,只有這樣龐大的機(jī)器才能承受。但一旦運(yùn)行起來(lái),你會(huì)發(fā)現(xiàn)它非常強(qiáng)大,可以支持很多東西,這也完美的詮釋了我們剛才提到的遷移學(xué)習(xí)的任務(wù)。你讓它訓(xùn)練中文,然后你會(huì)發(fā)現(xiàn)它也能用英文完成任務(wù)。你讓它訓(xùn)練古詩(shī)詞,然后你會(huì)發(fā)現(xiàn)它也可以用于寫(xiě)其他古代文學(xué)。你讓它來(lái)訓(xùn)練醫(yī)學(xué),你會(huì)發(fā)現(xiàn)它也能稍微懂一點(diǎn)法律。只要給它足夠的語(yǔ)料來(lái)訓(xùn)練,它的遷移學(xué)習(xí)就能做得非常好。


          這就是從機(jī)器學(xué)習(xí)發(fā)展到現(xiàn)在大模型的發(fā)展歷程。


          02

            人工智能發(fā)展的3要素





          接下來(lái),我們將時(shí)間軸拉開(kāi),可以在這張圖中看到人工智能發(fā)展過(guò)程中每一個(gè)技術(shù)出現(xiàn)的時(shí)間點(diǎn)。我剛才有講到一些,大家有沒(méi)有注意到2017年就開(kāi)始出現(xiàn)了Transformer,所以并不是今天有了ChatGPT才有了Transformer。也就是說(shuō),它已經(jīng)發(fā)展了五六年,才最終從理論變成了我們今天可以使用的應(yīng)用。


          而剛才講到的大模型,或者說(shuō)基于大模型基于的基礎(chǔ)模型最厲害的地方在于它的遷移學(xué)習(xí)能力,但是遷移學(xué)習(xí)能力最關(guān)鍵的來(lái)自于人工智能發(fā)展的三個(gè)要素:數(shù)據(jù)、算法和算力。這三個(gè)要素就像一個(gè)三角形,它們互相制約、互相支持,共同發(fā)展


          以數(shù)據(jù)為例,很多年前,當(dāng)我們談到數(shù)據(jù)時(shí),大家通常想到的是數(shù)據(jù)庫(kù),里面存放個(gè)表。即使你不從事IT行業(yè),每天使用 Excel 表格也是在使用數(shù)據(jù)。后來(lái),我們發(fā)現(xiàn)除了數(shù)據(jù)庫(kù)或者 Excel 表格之外的其他東西也可以被視為數(shù)據(jù)。比如說(shuō),你提供給我一個(gè)文件,員工手冊(cè)或產(chǎn)品說(shuō)明書(shū),這些PDF文件也可以被視為數(shù)據(jù)。我現(xiàn)在說(shuō)話的語(yǔ)音也是數(shù)據(jù),大家拍照的面部特征也是數(shù)據(jù)。我們將這些數(shù)據(jù)匯總到一起,就可以形成一個(gè)數(shù)據(jù)湖。從數(shù)據(jù)庫(kù)到數(shù)據(jù)倉(cāng)庫(kù)再到數(shù)據(jù)湖,業(yè)界的發(fā)展趨勢(shì)是慢慢的海納百川,逐漸涵蓋一切類(lèi)型的數(shù)據(jù)。


          那這些數(shù)據(jù)一定有方法去處理它,這就是我們要講到的算法。算法的發(fā)展也十分有趣。早期,我們使用數(shù)學(xué)的方式來(lái)教計(jì)算機(jī)如何處理數(shù)據(jù)。例如,我們用數(shù)學(xué)告訴計(jì)算機(jī)什么是加法,一加一等于二就是加法。我們以前使用的所有算法,無(wú)論是最簡(jiǎn)單的歸納總結(jié)還是最復(fù)雜的預(yù)測(cè),其實(shí)都是有數(shù)學(xué)理論作為基礎(chǔ)支撐的。一定是數(shù)學(xué)家先提出數(shù)學(xué)公式,然后我們計(jì)算機(jī)工程師才能寫(xiě)出算法。因此,實(shí)際上整個(gè)行業(yè)在過(guò)去30年是數(shù)學(xué)引領(lǐng)了計(jì)算機(jī)的發(fā)展。


          大約從2010年開(kāi)始,情況已經(jīng)不同了,因?yàn)橛?jì)算機(jī)中出現(xiàn)了一些新的算法,這些算法是數(shù)學(xué)解釋不了或無(wú)法解釋的。由于深層神經(jīng)網(wǎng)絡(luò)的出現(xiàn),就像我們?nèi)祟?lèi)一樣,盡管我們的神經(jīng)學(xué)或生物學(xué)再怎么發(fā)達(dá),我們?nèi)匀粺o(wú)法解釋它們是如何運(yùn)作的?,F(xiàn)在的生成神經(jīng)網(wǎng)絡(luò)到底是如何運(yùn)作的?一旦規(guī)模擴(kuò)大,以我們?nèi)祟?lèi)目前的理解能力和數(shù)學(xué)建模能力,就很難提供一個(gè)清晰的解釋。這也是為什么當(dāng)2017年Transformer模型出現(xiàn)時(shí),業(yè)界一開(kāi)始并不了解它的潛力。


          但大約在2019年和2020年,當(dāng)Transformer模型的規(guī)模達(dá)到一定程度時(shí),以GPT 3為代表,達(dá)到了千億級(jí)別的參數(shù)量,GPT 3的參數(shù)級(jí)別大約在1700多億。人們發(fā)現(xiàn),你以為你知道這個(gè)Transformer模型的工作原理,但實(shí)際上你不知道,你發(fā)現(xiàn)它好像可以推理,好像能做許多你沒(méi)有教過(guò)它的事情。從這個(gè)時(shí)候開(kāi)始,人們慢慢發(fā)現(xiàn)數(shù)學(xué)不再那么容易解釋了。如果再過(guò)十年、二十年,我不知道未來(lái)的世界會(huì)是什么樣子,但當(dāng)我們回顧2020年到2023年時(shí),人們會(huì)發(fā)現(xiàn)這是一個(gè)分水嶺,人工智能、科學(xué)、數(shù)學(xué)這樣一個(gè)分水嶺。


          但是有了這么奇妙的算法,你需要有地方能夠計(jì)算它,對(duì)不對(duì)?《三體》里面講過(guò),我們最早的可以用人來(lái)代替計(jì)算機(jī)里面的計(jì)算單元,用人來(lái)代替晶體管好像也能干完一些事情,但是對(duì)于像神經(jīng)網(wǎng)絡(luò)算法,就不能再用簡(jiǎn)單的晶體管來(lái)計(jì)算了。


          在這種情況下,提高算力必須通過(guò)提高三角形中的“數(shù)據(jù)”和”算法”。GPU以前我們主要用來(lái)做游戲,對(duì)不對(duì)?后來(lái)發(fā)現(xiàn)算法特別是神經(jīng)網(wǎng)絡(luò)算法,它不像CPU那樣依賴于執(zhí)行,我們可以把一張圖切成幾千個(gè)、幾萬(wàn)個(gè),然后讓每個(gè)處理器獨(dú)立處理,這樣會(huì)更快。當(dāng)GPU有幾十個(gè)核時(shí),CPU可能只有兩個(gè)或四個(gè)核。這就是為什么在20世紀(jì)90年代和本世紀(jì)初,越來(lái)越多的人開(kāi)始使用GPU。除了GPU之外,現(xiàn)在還有一些專(zhuān)用芯片,專(zhuān)門(mén)用于人工智能,它不需要干其他事情,只需要處理人工智能。這是特殊芯片的算力的發(fā)展。


          隨著云計(jì)算、邊緣計(jì)算等技術(shù)的發(fā)展,有時(shí)候是數(shù)據(jù)跑得多快一點(diǎn),有時(shí)候是算法跑得快一點(diǎn),但這個(gè)三角形中的三個(gè)要素永遠(yuǎn)都在相互發(fā)展。


          今天我主要分享的是中間的一環(huán)算法,特別是其中的Transformer。


          03

            OpenAI的脫穎而出




          GPT中的T其實(shí)就是Transformer,是ChatGPT把它帶火的。ChatGPT可以在兩個(gè)月把用戶量突破到1億,基本上已經(jīng)沒(méi)有其他的應(yīng)用能夠跟它比肩的了。



          讓我們來(lái)看看開(kāi)發(fā)ChatGPT背后的公司OpenAI,其中比較重要的時(shí)間點(diǎn)是它的成立,包括被微軟投資。實(shí)際上它并不是唯一一家,也不是第一家做大模型的公司。同時(shí),還有其他幾家公司在這個(gè)領(lǐng)域有影響力的包括谷歌、Facebook(現(xiàn)在叫Meta)等公司都在做大模型。


          你們可能會(huì)好奇為什么OpenAI會(huì)脫穎而出。我個(gè)人的看法是,首先,他們的工程化讓大模型往前邁進(jìn)了很大很大的一步。什么是工程化模型?你可以把這個(gè)模型看成是一個(gè)天賦異稟的小孩子,他可能一出生就有180的智商,你讓他學(xué)什么,他就學(xué)什么。這個(gè)過(guò)程就像是在公開(kāi)教育這個(gè)小孩子,但是如果你教得慢,他在9歲時(shí)可能就被其他人甩在了后面。雖然他天賦異稟,但如果教得不好,他的思維年齡可能現(xiàn)在還停留在6歲或7歲,這樣一來(lái)就會(huì)落后了。也許大家最初的思路都是基于同一份論文,就是誰(shuí)家教的好的問(wèn)題,也是工程化做得好的問(wèn)題。


          04

            傳統(tǒng)機(jī)器學(xué)習(xí)的套路




          在講Transformer之前,我想先介紹一下機(jī)器學(xué)習(xí)是如何完成這些工作的,以及如何將一個(gè)算法轉(zhuǎn)化為可用的。大家千萬(wàn)不要認(rèn)為機(jī)器學(xué)習(xí)聽(tīng)起來(lái)很高端,實(shí)際上它很簡(jiǎn)單。

          首先,你需要提出你的問(wèn)題,比如說(shuō)我要預(yù)測(cè)股票的價(jià)格從哪個(gè)期貨市場(chǎng)賺錢(qián),這就是我的問(wèn)題。將其抽象成一個(gè)數(shù)學(xué)模型,比如說(shuō)我使用數(shù)學(xué)中的歸納算法模型,如果我能夠歸納得足夠豐富、足夠準(zhǔn)確,我就能夠猜出明天的股票價(jià)格。


          第一步是問(wèn)題抽象,第二步是選擇算法。算法有很多種,選出來(lái)之后,你需要準(zhǔn)備數(shù)據(jù)。爬下來(lái)所有交易所的數(shù)據(jù),甚至是一級(jí)、二級(jí)市場(chǎng)的數(shù)據(jù)。傳統(tǒng)機(jī)器學(xué)習(xí)用相對(duì)于較少的數(shù)據(jù),來(lái)推斷未來(lái)的規(guī)律。使用相對(duì)較少的訓(xùn)練時(shí)長(zhǎng)和算力來(lái)對(duì)模型進(jìn)行訓(xùn)練。模型訓(xùn)練完成后需要進(jìn)行評(píng)估和反饋。慢慢地讓模型越來(lái)越趨向真實(shí),就像你畫(huà)一幅畫(huà)一樣。這是傳統(tǒng)機(jī)器學(xué)習(xí)的套路,但Transformer模型并不是這樣的,大家會(huì)發(fā)現(xiàn)中間有很多可以學(xué)習(xí)的新名詞和方法。


          05

            理解Transformer算法相關(guān)的概念




          GPT的“G” 指的是生成式,“P”指的是預(yù)訓(xùn)練。因此,它被稱(chēng)為生成式預(yù)訓(xùn)練transformer。首先需要預(yù)訓(xùn)練這個(gè)transformer模型,這個(gè)訓(xùn)練需要專(zhuān)門(mén)的語(yǔ)料庫(kù),需要人工進(jìn)行標(biāo)記的語(yǔ)料庫(kù)。此外,還需要人工反饋。例如,您向 GPT 提出一個(gè)問(wèn)題,它給出兩個(gè)答案,然后需要人工去告訴它哪個(gè)答案更好,這樣它就會(huì)在下一次回答時(shí)會(huì)表現(xiàn)得更好。這是一個(gè)正向反饋循環(huán)。


          預(yù)訓(xùn)練是通過(guò)大規(guī)模、海量的通用文本,來(lái)讓模型學(xué)到廣泛的通用知識(shí)和上下文的理解。具體是什么意思?如果我現(xiàn)在讓 ChatGPT 寫(xiě)一篇文章,它可以寫(xiě),我讓它寫(xiě)古詩(shī),它也可以寫(xiě)。但它真的能讀懂古詩(shī)嗎?或者,如果我讓它寫(xiě)文案,它真的懂法律條文嗎?實(shí)際上,它不理解這些,它只知道每個(gè)字出現(xiàn)的概率。


          我們經(jīng)常聽(tīng)到在大模型里面,某某公司很厲害,基于一個(gè)模型做了微調(diào)。

          微調(diào)是什么意思呢?原本這個(gè)模型是個(gè)通用模型,可以做任何事情。然而,當(dāng)你問(wèn)它一些特定的問(wèn)題時(shí),它可能不懂。例如,如果我問(wèn)它中國(guó)的古詩(shī)詞,它可能不懂。但是,如果我提供大量的中國(guó)古詩(shī)詞進(jìn)行微調(diào),它就能更好地理解中國(guó)古詩(shī)詞,知道當(dāng)你要寫(xiě)七言古詩(shī)時(shí),需要規(guī)律是什么,押韻是什么樣子的。這就是微調(diào)。


          因此,微調(diào)實(shí)際上是遷移學(xué)習(xí)的理念,將通用學(xué)習(xí)微調(diào)到能夠遷移支持另一個(gè)領(lǐng)域,讓其理解,包括語(yǔ)言的微調(diào),例如理解中文之后,它幾乎也可以理解日語(yǔ),理解英語(yǔ),也可以理解法語(yǔ)。如果加入中英文對(duì)照的語(yǔ)料進(jìn)行微調(diào)后,它也可以理解中文。


          但是放心,我們今天的大模型,至少到目前為止,這個(gè)Transformer模型并沒(méi)有真正的理解能力,沒(méi)有科幻小說(shuō)中的自主決策能力。我今天揭開(kāi)AI大模型的面紗,讓大家知道這一點(diǎn):大模型沒(méi)有真正的理解能力,它只判斷出現(xiàn)的概率。


          最后一個(gè)概念是參數(shù)。我們之前提到了千億參數(shù),幾十億參數(shù)。我今天所說(shuō)的每句話、每個(gè)字后面都是在一個(gè)龐大的向量網(wǎng)絡(luò)來(lái)支撐。比如“我是誰(shuí)”,這個(gè)“我”字后面有一個(gè)龐大的向量宇宙來(lái)支撐它。向量怎么理解呢?可以想象一下多維宇宙。我們所處的宇宙是三維的,加上時(shí)間維度可能是四維的,還可以有其他維度。在數(shù)學(xué)中,我們可能會(huì)有一個(gè)多維的數(shù)學(xué)網(wǎng)宇宙,不用管它是什么,只需要知道可能有很多維度。


          所以,如果我把一篇金庸小說(shuō)輸入到模型中,它會(huì)經(jīng)常發(fā)現(xiàn)中間有些字詞是相關(guān)聯(lián)的,比如說(shuō),“九”字后面經(jīng)常會(huì)跟著“陽(yáng)”或者“陰”,“九陽(yáng)正經(jīng)”、“九陰真經(jīng)”,那么“九”字的向量數(shù)據(jù)庫(kù)里面,向量網(wǎng)絡(luò)里面就一定有“陽(yáng)”或者“陰”出現(xiàn)。這兩個(gè)字老是出現(xiàn)在一起,對(duì)不對(duì)?這是金庸小說(shuō)中的常見(jiàn)模式。所以當(dāng)我詢問(wèn)金庸小說(shuō)里面哪個(gè)武功最強(qiáng)時(shí),如果我給出“九”這個(gè)提示,模型就會(huì)立刻判斷。從概率角度來(lái)看,你肯定想我回答“九陽(yáng)”或“九陰”,這個(gè)概率最大,不會(huì)回答其他的東西,比如“九九艷陽(yáng)天”之類(lèi)的,對(duì)吧?這就是一個(gè)概率問(wèn)題。所以,向量代表的就是這個(gè)字與其他字發(fā)生關(guān)系的概率有多大。


          因此,你可以設(shè)想,如果我的向量網(wǎng)絡(luò)的維度越多,那么我的向量就越復(fù)雜。這是否意味著,我能夠用這個(gè)向量網(wǎng)絡(luò)來(lái)記錄一個(gè)龐大的語(yǔ)料庫(kù),這個(gè)語(yǔ)料庫(kù)可能比中國(guó)國(guó)家圖書(shū)館和大英國(guó)家圖書(shū)館的所有書(shū)加起來(lái)還要大,其中每個(gè)字與其他字發(fā)生關(guān)系的概率都能被記錄下來(lái)。這樣,當(dāng)我需要回答“莎士比亞文體中哈姆雷特到底得罪了多少人”這類(lèi)問(wèn)題時(shí),我就能從哈姆雷特的向量網(wǎng)絡(luò)中輕松找到答案,這只是一個(gè)概率問(wèn)題。通過(guò)這種方式,大家應(yīng)該能夠輕松理解參數(shù)所代表的是每個(gè)字與其他字發(fā)生關(guān)系的概率。有了這樣的基礎(chǔ)理解之后,我們就能輕松理解Transformer算法了。


          06

            Transformer算法架構(gòu)的工作原理




          這是一個(gè)最基本的 Transformer 結(jié)構(gòu)圖。不要以為它很復(fù)雜,用我剛才講給大家的知識(shí),一講解大家就理解了。



          這里舉的一個(gè)例子是讓 GPT 幫我翻譯英語(yǔ)到中文,將“why do we walk”翻譯為“為什么我們要工作?”這是我們打工人的永恒問(wèn)題。我的輸入是一句英文輸出,它得輸出成中文。那我們來(lái)看看這個(gè)Transformer 算法怎么做?


          首先,它把你的輸入先拆成token。token在中文里好像不太好直接翻譯,我就直接叫它 token。


          在英語(yǔ)里,token 通常就是一個(gè)單詞,其實(shí)在中文里面就是一個(gè)字。比如“我來(lái)自于哪里?”就可以拆成“我”一個(gè) token,“來(lái)”一個(gè) token,“自”一個(gè) token,“于”一個(gè) token,“哪”一個(gè) token,“里”一個(gè) token。英語(yǔ)有時(shí)候一個(gè)字還不止一個(gè) token,因?yàn)橛?guó)人為了表達(dá)一個(gè)沒(méi)見(jiàn)過(guò)的概念,有時(shí)候就把好多個(gè)英語(yǔ)單詞組成一塊。如果你們考過(guò)美國(guó)的托福、GRE 考試,就會(huì)見(jiàn)到那種特別長(zhǎng)二三十個(gè)字母的英文單詞。這種單詞通常會(huì)進(jìn)入到Transformer算法,然后把它切成好多個(gè)塊,每個(gè)塊代表了一個(gè)意思,每個(gè)塊就是一個(gè) token。所以英語(yǔ)經(jīng)常會(huì)一個(gè)字是幾個(gè) token,而中文基本上一個(gè)字就是一個(gè) token。


          拆完之后,每一個(gè) token 對(duì)應(yīng)了一個(gè)向量的多維空間。就像我剛才舉的例子,一個(gè)“我”字后面帶一個(gè)向量空間,“九陽(yáng)真經(jīng)”這個(gè)“九”字后面又有一個(gè)向量空間,每個(gè)字都有一個(gè)向量空間。這個(gè)時(shí)候我告訴它說(shuō),你要幫我翻譯,那它就會(huì)先來(lái)判斷,說(shuō)好,這里面出現(xiàn)了“為什么”?“why”是“為什么”?第一個(gè)字是“why”,它先輸出個(gè)“why”,輸出完“why”之后,它就在“why”的向量空間里去找。


          我要表達(dá)這個(gè) why 這個(gè)意思的話,最大概率的會(huì)是什么呢?是為什么?還是為何?還是為了?還是為什么?AI找到了“為什么”這個(gè)詞出現(xiàn)的概率最大,因此毫不猶豫地輸出了這個(gè)詞。同樣的道理,AI發(fā)現(xiàn)概率最大的第三個(gè)詞肯定是“么”,于是也將其輸出。


          在與ChatGPT聊天時(shí),它不會(huì)給你一個(gè)完整的句子,而是一個(gè)一個(gè)字地輸出。它靠每個(gè)字去猜下一個(gè)字出現(xiàn)的最大幾率,這是一個(gè)基于多維向量空間的算法,不是很復(fù)雜。

          有時(shí)候,我們中國(guó)人很好奇,AI算法能否區(qū)分“南京市長(zhǎng)江大橋nán jīng shì cháng jiāng dà qiáo”和“南京市長(zhǎng),江大橋nán jīng shì zhǎng jiāng dà qiáo”的區(qū)別。你認(rèn)為T(mén)ransformer算法能否區(qū)分呢?這是一個(gè)非常有趣的問(wèn)題。


          在使用傳統(tǒng)的生成神經(jīng)網(wǎng)絡(luò)時(shí),微軟的一個(gè)研究院專(zhuān)門(mén)研究如何斷句,因?yàn)橹形臄嗑涫且粋€(gè)很大的問(wèn)題。我們需要編寫(xiě)算法來(lái)判斷是將斷點(diǎn)放在“長(zhǎng)江大橋”前面還是藏在“zhǎng”的后面。


          然而自從出現(xiàn)了Transformer算法,我們發(fā)現(xiàn)對(duì)于Transformer算法來(lái)說(shuō),斷句并不重要,它只關(guān)注每個(gè)字的向量空間。因此,在南京市這個(gè)例子中,后面出現(xiàn)的大概率是“長(zhǎng)江大橋”,而不是“市長(zhǎng)江大橋”。由于“江大橋”出現(xiàn)在“市長(zhǎng)”的字后面的概率微乎其微,因此它不太可能被選中。因此,Transformer算法絕對(duì)不會(huì)將“南京市長(zhǎng)江大橋”斷成“南京市長(zhǎng)”。


          在過(guò)去,我們擔(dān)心如何斷句,如何理解中文的語(yǔ)義和語(yǔ)法,以及如何理解日語(yǔ)和韓語(yǔ)中的語(yǔ)法等問(wèn)題。這些問(wèn)題都是以前使用神經(jīng)網(wǎng)絡(luò)時(shí)需要解決的問(wèn)題。但現(xiàn)在,這些問(wèn)題都不再是問(wèn)題,許多從事神經(jīng)網(wǎng)絡(luò)工作的人可能需要轉(zhuǎn)換方向,轉(zhuǎn)向Transformer算法方向,因?yàn)樵谶@個(gè)領(lǐng)域,這些都不是問(wèn)題。


          接下來(lái)是Attention Layer注意力層,用于操作處理每個(gè)字背后的多維向量空間。這一層被稱(chēng)為自注意力層,指的是它只關(guān)注這個(gè)字本身的向量,而無(wú)需關(guān)注其他內(nèi)容,如語(yǔ)法、語(yǔ)言和斷句等。因此,我們可以讓算法自行發(fā)揮向量空間算法的優(yōu)勢(shì)。


          好,現(xiàn)在你們應(yīng)該理解為什么它可以寫(xiě)詩(shī),為什么它可以回答問(wèn)題了。


          07

            Transformer的獨(dú)特之處




          傳統(tǒng)的深度學(xué)習(xí)方法不能做的事情,為什么只有Transformer 才能做到?


          為了解答這個(gè)問(wèn)題,我們先思考一下傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)是用來(lái)干什么的。我們通常用它來(lái)進(jìn)行自動(dòng)駕駛視頻識(shí)別和圖片識(shí)別,為什么呢?因?yàn)槲覀兛梢詫⒁粡垐D片輕松地拆成小塊,每個(gè)小塊都可以單獨(dú)處理,不需要依賴其他的塊,也不需要識(shí)別這個(gè)小塊和其他小塊之間有多少關(guān)聯(lián)。如果說(shuō)沒(méi)有關(guān)聯(lián)也不完全正確,是有關(guān)聯(lián)的,比如你將前面一輛車(chē)的車(chē)牌號(hào)碼切成許多小塊,必須將它們連起來(lái)才能讀出完整的車(chē)牌號(hào)碼,因此它們之間是有關(guān)聯(lián)性的。


          但是相比于文字,這種關(guān)聯(lián)性并不那么復(fù)雜,因此傳統(tǒng)的深度學(xué)習(xí)模型只需要挖幾層就挖到底了,不需要挖很多層,也不需要進(jìn)行復(fù)雜的并行處理,只需要將圖片分割成小塊,進(jìn)行簡(jiǎn)單的單線條處理即可。但是對(duì)于文本來(lái)說(shuō),傳統(tǒng)的深度學(xué)習(xí)模型就不行了。


          在處理文本時(shí),我們發(fā)現(xiàn)在一句話中,每個(gè)單詞放在前面或后面都有完全不同的意思,這在中文中尤其明顯。中文中有各種各樣的梗,比如諧音梗、詞語(yǔ)順序梗等,因此傳統(tǒng)的深度學(xué)習(xí)模型就蒙了,無(wú)法斷句,無(wú)法處理順序。它需要將整句話的上下文連起來(lái)才能理解意思,因此它無(wú)法處理。


          Transformer 的獨(dú)特之處在于其attention 機(jī)制(注意力機(jī)制),它只關(guān)注概率,不關(guān)注斷句或順序,只關(guān)注下一個(gè)字與當(dāng)前字之間的關(guān)系。因此 Transformer 實(shí)際上是一種歸納總結(jié)的算法,它是一種預(yù)測(cè)算法,用于預(yù)測(cè)下一個(gè)詞或下一個(gè)字出現(xiàn)的概率。而且在處理完后,它解決了并發(fā)性問(wèn)題,因?yàn)槊總€(gè)字只關(guān)注自己的向量空間和下一個(gè)字的向量空間。因此即使你給我一篇文章,我也可以將其拆分成多個(gè)小塊進(jìn)行并行計(jì)算,只要我的計(jì)算機(jī)足夠強(qiáng)大,我就能夠在一秒鐘內(nèi)理解整篇文章并回答任何問(wèn)題。Transformer解決了分布式語(yǔ)言處理的問(wèn)題,真正可以并行處理整篇文章。無(wú)論是整本小說(shuō)還是整個(gè)圖書(shū)館,只要你的計(jì)算能力足夠強(qiáng),Transformer就能處理。


          08

            GPT的局限性




          GPT 的演進(jìn)歷程經(jīng)歷了很長(zhǎng)時(shí)間,從最初的 1.0 版本發(fā)展到現(xiàn)在的 3.5版本、4.0 版本,參數(shù)量越來(lái)越多。


          在這么多年的發(fā)展歷程中,GPT 的主要轉(zhuǎn)折點(diǎn)在 GPT 3 上。因?yàn)樵趹?yīng)用Transformer算法之前,人們無(wú)法看出它的潛力。正如之前提到的,OpenAI 跑出了賽道,因?yàn)樗堑谝患覍⒕哂兄巧?180 的天賦異稟的孩子訓(xùn)練到了 1000 億級(jí)參數(shù)的 GPT 3,這是第一家做到的。因此,GPT 3 比其他人更快地達(dá)到了臨界點(diǎn)和爆發(fā)點(diǎn),而其他人仍在訓(xùn)練 GPT 2 級(jí)別的模型,仍在使用數(shù)十億級(jí)別的參數(shù)進(jìn)行訓(xùn)練。


          GPT 3通過(guò)微調(diào)和遷移學(xué)習(xí)來(lái)利用少量的樣本進(jìn)行學(xué)習(xí)。

          GPT 4 已經(jīng)在 OpenAI 上開(kāi)始應(yīng)用了,但目前僅限于付費(fèi)用戶使用,因?yàn)?OpenAI 是一個(gè)閉源的平臺(tái),它不公開(kāi)使用了多少參數(shù)。但是大家基本上可以猜測(cè),大概 GPT 3.5 的參數(shù)量達(dá)到了 1700 多億。GPT-4 在 3. 5 基礎(chǔ)上,規(guī)模擴(kuò)大了 100 倍,應(yīng)該是達(dá)到了萬(wàn)億級(jí)別、十萬(wàn)億級(jí)別的參數(shù)量。因此,它的能力非常強(qiáng)大,可以幫助你撰寫(xiě)文章、進(jìn)行新聞分析,甚至編寫(xiě) Python 代碼等等。


          然而 GPT本身仍然存在缺陷和局限性。


          大家看這張圖片是我隨意測(cè)試的結(jié)果。我測(cè)試了李白是否寫(xiě)過(guò)一首古詩(shī)來(lái)贊美“鄭和下西洋”,而它很聰明地判斷出“鄭和下西洋”屬于明代,而李白是唐代的詩(shī)人。但是,當(dāng)我再次欺騙它時(shí),問(wèn)它李白是否寫(xiě)過(guò)一首有關(guān)“大禹治水”的詩(shī),它就上當(dāng)了,它真的寫(xiě)了一首像模像樣的大禹治水的詩(shī)。


          盡管GPT已經(jīng)發(fā)展到3.5和4,看起來(lái)非常聰明,但它仍然有其局限性,即它沒(méi)有真正的理解能力和知識(shí)能力。真正的知識(shí)能力是指真正的推理判斷能力。作為人類(lèi)個(gè)體,我們的強(qiáng)大之處在于我們自己的判斷力。沒(méi)有判斷力,我們就只是一個(gè)計(jì)算機(jī)。GPT似乎什么都懂,但它沒(méi)有判斷力,因此會(huì)產(chǎn)生幻覺(jué),它不太可靠,會(huì)有一些推理偏見(jiàn)和錯(cuò)誤。因此,在使用GPT時(shí),需要注意它的局限性。


          或許在將來(lái),我們可以在所有的概率判斷之前先加一層推理邏輯判斷,這樣它可能會(huì)變得更好,但這個(gè)算法會(huì)更加復(fù)雜和麻煩。你必須首先讓它具備推理能力,而以前我們的生成神經(jīng)網(wǎng)絡(luò)做的就是推理學(xué),而現(xiàn)在的Transformer則是做簡(jiǎn)單的概率預(yù)測(cè)。這兩個(gè)東西存在一些差別,你需要讓它先做推理,再做預(yù)測(cè)。


          我今天的分享就到這里,謝謝大家。

          瀏覽 238
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  亚洲无码app | 色综合一区二区 | 毛片成人网 | 乱伦福利片 | 国产精品777777 |