為啥大模型還沒完全取代你?
共 3858字,需瀏覽 8分鐘
·
2024-04-22 22:23
點(diǎn)擊下方“JavaEdge”,選擇“設(shè)為星標(biāo)”
免責(zé)聲明~
任何文章不要過度深思!
萬事萬物都經(jīng)不起審視,因?yàn)槭郎蠜]有同樣的成長環(huán)境,也沒有同樣的認(rèn)知水平,更「沒有適用于所有人的解決方案」;
不要急著評(píng)判文章列出的觀點(diǎn),只需代入其中,適度審視一番自己即可,能「跳脫出來從外人的角度看看現(xiàn)在的自己處在什么樣的階段」才不為俗人。
怎么想、怎么做,全在乎自己「不斷實(shí)踐中尋找適合自己的大道」
1 大語言模型發(fā)展
LLM,Large Language Model,大語言模型。為什么叫2.0## 1 不具備記憶能力的
它是零狀態(tài)的,我們平常在使用一些大模型產(chǎn)品,尤其在使用他們的API的時(shí)候,我們會(huì)發(fā)現(xiàn)那你和它對(duì)話,尤其是多輪對(duì)話的時(shí)候,經(jīng)過一些輪次后,這些記憶就消失了,因?yàn)樗灿洸蛔∧敲炊唷?/p>
2 上下文窗口的限制
大模型對(duì)其input和output,也就是它的輸入輸出有數(shù)量限制。為了保護(hù)它的,這計(jì)算能力或保護(hù)相當(dāng)于一個(gè)帶寬概念,如說openAI之前只有32k。最新上下文窗口擴(kuò)張到128k,大概相當(dāng)于一本《Clean Code》,這個(gè)角度來說,這個(gè)問題其實(shí)已被解決。
但其他很多模型上下文窗口還是比較小,就有很多限制。如不可發(fā)一長段prompt或提示詞,也不可不停在那對(duì)話,你就需要注意計(jì)算你整個(gè)窗口token消耗,避免被截?cái)啵赡芫蜎]有辦法去輸入和輸出。
3 實(shí)時(shí)信息更新慢,新舊知識(shí)難區(qū)分
基于預(yù)訓(xùn)練的模型,拿大量數(shù)據(jù)來在神經(jīng)網(wǎng)絡(luò)的訓(xùn)練,然后形成模型,它的知識(shí)庫就依賴于拿去訓(xùn)練的這些材料。
底模數(shù)據(jù)較小時(shí),就會(huì)出現(xiàn)幻覺,胡亂回答。
4 無法靈活的操控外部系統(tǒng)
很多大模型只可對(duì)話,但無法作為一個(gè)外腦去操作外部的一些系統(tǒng)。雖然chatgpt出現(xiàn)插件機(jī)制和插件開發(fā)工具。但實(shí)際使用后,它還是相當(dāng)于提供一個(gè)非常標(biāo)準(zhǔn)的東西,定制開發(fā)或更深度融合較難。
比如想用大模型作為一個(gè)外腦操控智能家居系統(tǒng)、操控汽車,都需要有一些連接器和框架幫助。
5 無法為領(lǐng)域問題提供專業(yè)靠譜的答案
你問他一些泛泛而談的東西,他都能回答很好,但是你一旦問他一個(gè)非常專業(yè)問題,他就回答不上來,因?yàn)檫@塊兒的專業(yè)問題,他可能不涉及。雖然他回答的答案是看起來是像一個(gè)人在回答,但一眼就能看出來那個(gè)答案不對(duì)。
針對(duì)這些問題,業(yè)界基本提出兩種解決方案,但也都不能完全解決。
6 解決方案
6.1 微調(diào)(Fine-tunning)
主要解決的就是專業(yè)問題,專業(yè)知識(shí)庫問題,包括知識(shí)更新問題。
就是把這些數(shù)據(jù)喂給我們的大模型啊,再做一次訓(xùn)練?;旧弦淮斡?xùn)練也無法解決這個(gè)知識(shí)感知信息問題,它只能更新它的數(shù)據(jù)庫。成本較高。因?yàn)橄喈?dāng)于把你的數(shù)據(jù)問喂給OpenAI,然后全量訓(xùn)練一次,成本相當(dāng)高。
適用場景
做一些自有的大量數(shù)據(jù)的行業(yè)模型。所謂行業(yè)模型,如某專業(yè)領(lǐng)域的公司,積累的大量數(shù)據(jù),如制藥公司在制藥過程積累大量制藥數(shù)據(jù),你希望這個(gè)數(shù)據(jù)以AI智能方式指導(dǎo)你的工作,就可用這種方式。把你的這個(gè)數(shù)據(jù)去喂給喂給大模型,對(duì)它再做一次調(diào)教。
這涉及一個(gè)概念
MaaS
module as a service,模型即服務(wù)。通過這個(gè)微調(diào)在大模型基礎(chǔ)上灌入行業(yè)數(shù)據(jù),實(shí)現(xiàn)這種行業(yè)模型,就適合手里擁有大量行業(yè)數(shù)據(jù)的。
這也只能解決領(lǐng)域數(shù)據(jù)專業(yè)性和知識(shí)庫更新問題,無法解決操作外部系統(tǒng)、記憶能力、窗口擴(kuò)張。
6.2 提示詞工程(prompt engineering)
通過上下文提示詞設(shè)計(jì)引導(dǎo)。在LLM基礎(chǔ)上把這種專業(yè)數(shù)據(jù)通過:
-
Embedding嵌入 -
prompt提示詞
這兩個(gè)工具實(shí)現(xiàn)精準(zhǔn)的專業(yè)回答,同時(shí)可實(shí)現(xiàn):
-
實(shí)時(shí)系統(tǒng)的感知 -
操作外部系統(tǒng) -
記憶增強(qiáng) -
窗口控制擴(kuò)張
好處明顯,無需訓(xùn)練,不用去在LLM上面做訓(xùn)練。
適用場景
適合數(shù)據(jù)樣本比較少的這種場景。如你有一本書,你希望說從這本書上去得到一些信息,但是你又不想去讀它,你希望有個(gè)機(jī)器人,你問他問題,他直接從書里面找到答案。這種就可以把書的數(shù)據(jù)作為專業(yè)數(shù)據(jù),然后嵌入到我們的這個(gè)LLM,然后再通過prompt方式去引導(dǎo),得到一個(gè)精確的答案。
這過程中間甚至還可把這些答案,和我的打印機(jī)系統(tǒng)連接,可直接打印。
兩種方式都可解決大模型問題,但適用場景不同,各自擅長點(diǎn)也不一樣,很多時(shí)候,兩者結(jié)合用效果較好。
微調(diào),現(xiàn)在已經(jīng)把門檻降到很低了,可直接把。把你想要微調(diào)的數(shù)據(jù)直接upload上去就可,但閉源大模型的數(shù)據(jù)安全的問題,數(shù)據(jù)所有性問題和成本問題。
提示詞工程適合開源大模型,如chatglm,在本地部署大模型,再做這種詞嵌入和提示詞引導(dǎo),就可本地實(shí)現(xiàn)專業(yè)行業(yè)模型。但底層LLM可能沒用強(qiáng)大的,可能只是一個(gè)6b13b,它可能在語言組織或說一些智能度上稍低。代表就是 langchain。
7 總結(jié)
大模型的這幾個(gè)問題都有,有兩套這樣的解決方案:
-
Model as aSerivce 模型即服務(wù)通過“微調(diào)”技術(shù),在LLM基礎(chǔ)上灌入行業(yè)數(shù)據(jù),實(shí)現(xiàn)行業(yè)模型 -
promptengineering提示詞工程,通過上下文提示詞設(shè)計(jì)31號(hào)LM輸出精確答案
都有自己的優(yōu)劣點(diǎn),然后都有自己適用的場景。所以用什么方案呢?其實(shí)是看我們這個(gè)這個(gè)整個(gè)的這個(gè)項(xiàng)目的情況,專欄偏向第二種提示詞工程, 即langchain框架的方式。
寫在最后
公眾號(hào):JavaEdge專注分享軟件開發(fā)全生態(tài)相關(guān)技術(shù)文章、視頻教程資源、熱點(diǎn)資訊等,如果喜歡我的分享,給 ???? 點(diǎn)一個(gè)贊?? 或者 ?關(guān)注都是對(duì)我最大的支持。
歡迎長按圖片加好友,我會(huì)第一時(shí)間和你分享軟件行業(yè)趨勢,面試資源,學(xué)習(xí)途徑等等。
添加好友備注【技術(shù)群交流】拉你進(jìn)技術(shù)交流群
關(guān)注公眾號(hào)后,在后臺(tái)私信:
-
回復(fù)【架構(gòu)師】,獲取架構(gòu)師學(xué)習(xí)資源教程 -
回復(fù)【面試】,獲取最新最全的互聯(lián)網(wǎng)大廠面試資料 -
回復(fù)【簡歷】,獲取各種樣式精美、內(nèi)容豐富的簡歷模板 -
回復(fù) 【路線圖】,獲取直升Java P7技術(shù)管理的全網(wǎng)最全學(xué)習(xí)路線圖 -
回復(fù) 【大數(shù)據(jù)】,獲取Java轉(zhuǎn)型大數(shù)據(jù)研發(fā)的全網(wǎng)最全思維導(dǎo)圖 -
更多教程資源應(yīng)有盡有,歡迎 關(guān)注,慢慢獲取
