一文讀懂大模型發(fā)展過程!
共 7729字,需瀏覽 16分鐘
·
2024-04-21 23:00
點擊下方“JavaEdge”,選擇“設為星標”
免責聲明~
任何文章不要過度深思!
萬事萬物都經(jīng)不起審視,因為世上沒有同樣的成長環(huán)境,也沒有同樣的認知水平,更「沒有適用于所有人的解決方案」;
不要急著評判文章列出的觀點,只需代入其中,適度審視一番自己即可,能「跳脫出來從外人的角度看看現(xiàn)在的自己處在什么樣的階段」才不為俗人。
怎么想、怎么做,全在乎自己「不斷實踐中尋找適合自己的大道」
1 大語言模型發(fā)展
LLM,Large Language Model,大語言模型。為什么叫2.0?因為在大語言模型,也就是LLM出現(xiàn)之前,我們把它歸結為1.0時代。那么1.0時代主要的是NLP(自然語言處理)的各類工程,它其實都是一個特點,就是說通用性比較差。那么整個AI領域的終極的圣杯,或者說將來它的一個終極的一個希望做到的,是AGI(Artificial General Intelligence,人工通用智能)。1.0可能是一個單任務的這么一個AI。比如深藍戰(zhàn)勝象棋冠軍,他只會下象棋,而且他的下象棋是學習了很多的這個象棋的這個國際象棋的這個套路,他只會干這一個事情,而且你問他別的事情他肯定不知道。
2 LLM的特點
大語言模型的特點是啥?大語言模型,它就是說可以像語言一樣跟我們交互,那么通過語言,它其實可以擴展到很多的場景。那么未來呢,可能會從依據(jù)大語言這種方式,我們可能會發(fā)展出來真的發(fā)展出來AGI,所謂的通用智能,也就是跟我們?nèi)祟愐粯訐碛兄腔鄣倪@樣的一個智能體。那好,那我們1.0我們AI 1.0我們就不做介紹了,那里面其實有很多NLP的相關的東西。
2.0開始介紹,技術層面基本上是一個從點到面的一個過程。那么最早出現(xiàn)的一個技術,是詞向量技術,把自然語言的詞語,使用向量來表示。向量是一個數(shù)學概念,比如貓,這個詞在向量空間里面,它可能就表示成這樣一個坐標位置。狗可能就跟它有所區(qū)別。牛又不一樣。所以可理解為,每一個詞,它在向量空間里面都有一個唯一坐標,然后就可構成這樣的一個詞語字典。然后使用這種one-hot的方式來表示,如蘋果標注成101這樣的坐標。把自然語言,通過數(shù)學語言去給它描述出來,而且它是一個坐標,可精準找到它位置。
3 大模型的不足和解決方案
但有問題,它沒有辦法表達詞語和詞語之間的這個關系。比如貓1這樣一個坐標,和狗這樣01一個坐標,之間什么關系呢?不知道的。
第二就是效率不是很高。
后面發(fā)展中,在這個詞向量的基礎上,出現(xiàn)
4 詞嵌入(embedding)
也繼續(xù)叫詞向量也可以,就是對語言模型進行預訓練。我們通過大量現(xiàn)有文章資料,讓我們的這前面這些詞向量,它具備語言信息。那通過了一些訓練的預訓練之后的這個詞向量,它在這個向量空間上,它就帶上了一些額外的信息,它就會有效提升我們模型的效果。而且在后續(xù)的其他任務中間,去做一個遷移。那么這個就是大語言模型的預訓練的這個,一個初始的一個原型。
比如貓、狗,通過坐標標注,讓它有這種低維向量的這種這種表示。還可有這樣語義相似的一個向量空間相近,好比我們認為,比如說貓和狗,通過我們的預訓練的這些大量的文章,資料,我們發(fā)現(xiàn)貓和狗都同屬于寵物。那么有可能這兩個坐標點,在向量空間里就是比較接近。比如說我們找寵物的時候,那么在這個向量空間里面,貓和狗就是在寵物這個向量域里面。牛和羊,都屬于我們的常用的肉吃的家畜,那可能就是在那個向量域里面。所以呢,我們可以看到詞向量,它就是一個地位向量表示,再一個是語義相似的向量空間,相近的這么一個特性。還有一個,它可以遷移學習,把這個任務,遷移到其他任務里面去。深藍的下象棋例子,就可以把它的技能去遷移啦。
在詞嵌入之后出現(xiàn)
5 巨向量和全文向量
根據(jù)這個前文信息,去分析下文或根據(jù)本文翻譯成另一種語言。那么它代表的呢,是一些模型,如:
-
RNN(Recurrent Neural Network,循環(huán)神經(jīng)網(wǎng)絡) -
LSTM(Long Short-Term Memory,長短期記憶網(wǎng)絡)
它可有效處理這種時序性的,序列數(shù)據(jù)。"What time is it?",訓練時,它是一層一層的,它第一層這個神經(jīng)網(wǎng)絡,可能先看到"What",然后"time","is","it",看到最后的問號。它會通過這樣的一個順序,去處理這樣的一個語句,去做一個上下文的一個理解。它還可以做到一些短時記憶和選擇性的遺忘,就是RNN和LSTM,那么它主要應用在像文本生成啊,語音識別啊,圖像描述等等。這個時候就是比如說類似RNN和LSTM這樣的模型出現(xiàn)的時候呢,它其實已經(jīng)可以做到我們常見的一些AI識別。
再往后就到理解上下文,就是全文的上下文,如"買什么 什么is"這個這個模式理解上下文,這個模式代表作是類似比如說這個BERT這樣大模型。到這階段,已經(jīng)可完成類似完形填空任務。那它就是根據(jù)上下文理解當前的代詞,比如說男他女她動物它是什么,完成這個完形填空。那么這個時候就屬于所謂的真域訓練模型時代開啟。
特點
支持并行訓練,如說CNN(Convolutional Neural Network,卷積神經(jīng)網(wǎng)絡)這個模型比,就比如說這個"What time is it",只能一層一層處理,不支持并行訓練。必須完成這個事情之后再做下一個事情。
所以呢,它替代RNN和CNN這樣神經(jīng)網(wǎng)絡,更強大,可以實現(xiàn)一些類似語義識別。
最后就是OpenAI這GPT(Generative Pre-trained Transformer)出現(xiàn),這個模型出現(xiàn)為代表,我們就正式進入了這種超大模型和模型統(tǒng)一的時代。從谷歌T5(Text-to-Text Transfer Transformer)這個模型開始的時候,它是引入了的這樣的一個模式來訓練模型。也就是說,它是把提示詞告訴模型,然后把答案訓練出來,然后不停的用這樣的模式來訓練模型。那么當我們在問模型這些問題的時候,其實也是通過,通過提示詞,通過prompt的方式來引導它。所以到這個時代的時候呢,那我們以chatgpt為代表,我們發(fā)現(xiàn)它的效果非常驚艷。最新的成果就是說,我們的大模型已經(jīng)支持了多模態(tài),OpenAI開啟的這個大模型時代呢,它其實是把這個,一種基于的這種訓練模型這種方式提了出來。
整個的大模型的發(fā)展,就是一個從點到面的發(fā)展過程。最核心也是最早的是基于這個詞向量的技術。通過這個不斷發(fā)展到神經(jīng)網(wǎng)絡,到這種單線的,到并行訓練,最后直到超大規(guī)模訓練集,實現(xiàn)一個大語言模型發(fā)展。
很多同學只知道類似Check GPT或者說對國內(nèi)的一些比較了解,對國外的不太了解,所以在這總結。
6 大模型的發(fā)展
從這個發(fā)展上的角度來講的話,那么大模型最早上節(jié)講了它的一個發(fā)展,那我們可以從那個成品上面來看。那基本上在2017年左右吧,其實最早所有的大模型其實都是基于谷歌的,這個Transformer技術啊,也就是我們Transformer架構來設計的。那么,大概在2017年左右的時候,谷歌發(fā)布了它的T5模型啊,就以T5這個為代表吧,后續(xù)不斷的具有新的這樣大語言模型衍生出來。包括GPT-2、GPT-3、GLM-130B以Facebook為代表的這個開源的LaMa,還有后來的GPT-4以及說這個我們中東的科研機構開發(fā)的這個FanCL以及最新的我們的GPT的四的版本,包括多模態(tài)模型,還有它最新的大窗口模型啊,都是在最近在更新的。
7 國外與國內(nèi)大模型
左邊這個表格的話,主要是國外的一些比較常見的大模型啊,那右邊呢是國內(nèi)廠商的一些大模型。首先,我們從這個發(fā)布時間上可以看一下啊,我們那個整體上來看的話,還是海外的這個大模型,他們的這個時間要比我們要早一些,我們基本上能夠叫得上的,或者用的比較多的這些大模型。都是在今年吧,2023年的時候才開始發(fā)布,國內(nèi)還是比國外整個這個技術的積累或者水平啊,或者時間稍微晚。
8 參數(shù)與模型能力
那我們先看國外的啊,國外的可能,比如說第一個GPT-2,它大概有15億的一個參數(shù),那么我們這里講一下參數(shù)是什么?大語言模型的所謂的參數(shù),我們經(jīng)常聽到它的參數(shù)。
參數(shù)代表了一個模型的復雜程度,參數(shù)越大,也就說它的容量空間,它需要的容量空間,它需要的算力也就越大,那相應的它的能力也就越強。那個參數(shù)越小,它需要的算力就越小,但是呢,它的能力呢,相對比較弱一些,那么能力的強弱,主要是通過它這個回答,或者是提煉問題的,這么一個能力,我們就可以看出來。
谷歌T5大概有110億的這么個參數(shù)啊,那它的特點就是它可以實現(xiàn)多任務的一個微調(diào),它是開源的。GPT它主要就是OpenAI的,這個GPT-3.5出來之后啊,是市面上大家就是比較震驚的啊,因為它的效果達的非常好,但是我們可以看到它的參數(shù)也是非常可怕的,它參數(shù)達到了1750億啊。所以說它的需要的算力是非常多,那可能是之前很多算力的多少倍,那它支持人工的人工反饋的微調(diào)。
隨后就是Meta公司,就是Facebook,就它也出品了,它OPT的模型。模型大概1750億啊,那它的底模是英文的,英文訓練的底模
底模是什么?
大模型預訓練的時候,它有個預訓練的過程。那么,預訓練的時候需要大量的語料,輸入有的如大量用英文材料,那它的底模就是英文的底模,一旦是比如說英文的話,那它可能在它基礎上去做英文的一些問題的回答呢,就效果比較好。
LLaMA也叫羊駝
目前比較主流的一個開源框架,開源的模型目前就是開源里面參數(shù)比較大,然后呢,效果比較好的,這么一個大模型,就也就說最受歡迎的開源模型之一 GPD-4呢,就是基本上我們從參數(shù)上可以看啊,這是最新出的,但是這個它最新的應該參數(shù)沒有變化,但是底模的數(shù)量會比較大。GPT-4我們看到它的參數(shù)達到一點八萬億,那號稱史上最強啊,那確實它這光這個參數(shù)我們就知道它的容量,還有它的算力支持是非常非常非常大的。比如說GPT的話,它的底模里面有有呃有中文語料,所以呢GPT它,因為它大足夠大,所以它涵蓋了基本上所有的互聯(lián)網(wǎng)上面的知識,GPT-3.5截止2021年之前互聯(lián)網(wǎng)知識,4把知識庫呢更新到2023年,也就是更新到今年的。所以它涵蓋的這個語言種類就比較多。
右邊國內(nèi),那么國內(nèi)的我們就簡單了解一下國內(nèi),首先我們的百川智能啊,這是由這個王小川搞的一個開源模型,那它呢,大概參數(shù)是70億,我們可以對比一下啊,看看它的水平,它大概70億,所以它大概相當于羊駝的這樣一個模型的水平啊,那百度的文心一言呢,就相對比較大了,因為這個百度搞AI搞的還是投入還比較大的啊,所以它的它的參數(shù)大概。2600億啊,而且它的特點是什么?它的中文語料占到了85%,也就是說它大量使用了中文的語料訓練,這個也是情有可原啊,百度手里面有大量的這樣這樣的一個語料數(shù)據(jù)。
阿里通義千問參數(shù)在70到700億之間,它總體的能力相當于GPT-3,所以我們可以看到國內(nèi)的還是稍微的差了一點點。
GLM-6B大概60億的一個參數(shù)啊,GLM團隊是我們這個清華大學的團隊啊。那么,這個目前啊,是國內(nèi)或者說是甚至是國際上啊,就是100億以下最強的中文開源模型,在這個100億這個參數(shù)窗口之下呢?效果最好的目前是它,這個我也經(jīng)常用它啊,它這個確實是一個效果,算是已經(jīng)很不錯了。
然后騰訊的混元,騰訊的混元,它具體參數(shù)沒有公布,大概是超過千億啊,那它一出來的話,可能特點就是說它支持多模態(tài)。那多模態(tài)什么意思呢?就是它不光是有文字文本生成,它還有圖像生成啊,這個文到圖圖到文啊等等就是各種模態(tài)的,這樣的這樣的一個支持。啊,那說明它的底?;蛘咚念A訓練會更復雜啊,它不光可能訓練文字,還可以訓練圖片,然后貌似是啊,160億啊。那它呢,可能是支持多插件的啊,這個開源的這個模型。
所以基本上我們看到它各有各的特點,但是國內(nèi)的話,我們可以看到它們有兩大特點,一個就是時間稍微晚一點,基本上到2023年發(fā)布,第二個就是說對中文的支持呢,相對的都比海外的這些模型好很多,那么從商用角度,我們我們可以看到有一些模型啊,它其實是有,主要是開源模型啊,它在這個商用這塊兒其實是不太理想的,比如說像。像這個LaMa不支持商用的,但GLM非常好的,都是可商用的,包括百川。啊,包括這個這個FanCL啊,這些都是可以商用的。
9 大模型的生態(tài)
確實現(xiàn)在是屬于一個百模大戰(zhàn),千模大戰(zhàn)多模型大戰(zhàn)的這么一個局勢啊,就是由OpenAI引爆。
Hugging Face,爆臉,它相當于AI界的GitHub。那上面的話,我們很多這個開源模型啊,它會把開源之后的模型在這里做開源,我們在這里可以找到很多很多模型:
所以我們可以看到說整個的這個大模型的這個發(fā)展啊,還是非常非常非常的快的生態(tài)繁榮
10 清華團隊在PupilFace的主頁
這是我們剛才講的,ChatGLM就是清華團隊的,他們在PupilFace上面的一個主頁。我們可以看到他們的作品,他們的團隊。我們看到他們的作品還是非常多的,他們已經(jīng)創(chuàng)建的LMs(Large Models,大型模型),他們創(chuàng)建的大模型像ChatGLM。啊,這些巴拉巴拉WebGLM 130B等等啊,還有一些相應的一些工具啊,包括說預訓練的這些圖訓練啊的神經(jīng)網(wǎng)絡。https://huggingface.co/THUDM/chatglm3-6b:
所以我們可以看到它的6B(6 billion,60億參數(shù))啊,6B,32K(可能指的是模型的某種配置或版本),然后包括7B(7 billion,70億參數(shù)),13B(13 billion,130億參數(shù))。最強的是它的130B(130 billion,1300億參數(shù)),那我們通過這一節(jié)的學習啊,我們可以看到就是整個大模型。確實是非常非常多,然后每個模型都有自己的特色。
11 支持商用的開源大模型
-
ChatGLM/6B/1T/可商用 -
ChatGLM2/6B/1T/可商用 -
LLaMA/7B/13B/33B/65B/1T/不可商用 -
LLaMA2/7B/13B/33B/65B /2T/可商用 -
BLOOM/1B7/7B1/176B-MT/1.5T/可商用 -
Baichuan/7B/13B/1.2T/1.4T/可商用 -
Falcon/7B/40B/1.5T/可商用 -
Qwen/7B/7B-Chat/2.2T/可商用 -
Aquila/7B/7B-Chat/可商用
寫在最后
公眾號:JavaEdge專注分享軟件開發(fā)全生態(tài)相關技術文章、視頻教程資源、熱點資訊等,如果喜歡我的分享,給 ???? 點一個贊?? 或者 ?關注都是對我最大的支持。
歡迎長按圖片加好友,我會第一時間和你分享軟件行業(yè)趨勢,面試資源,學習途徑等等。
添加好友備注【技術群交流】拉你進技術交流群
關注公眾號后,在后臺私信:
-
回復【架構師】,獲取架構師學習資源教程 -
回復【面試】,獲取最新最全的互聯(lián)網(wǎng)大廠面試資料 -
回復【簡歷】,獲取各種樣式精美、內(nèi)容豐富的簡歷模板 -
回復 【路線圖】,獲取直升Java P7技術管理的全網(wǎng)最全學習路線圖 -
回復 【大數(shù)據(jù)】,獲取Java轉(zhuǎn)型大數(shù)據(jù)研發(fā)的全網(wǎng)最全思維導圖 -
更多教程資源應有盡有,歡迎 關注,慢慢獲取
