<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          AI Agent 基于大模型的人工智能代理

          共 24371字,需瀏覽 49分鐘

           ·

          2024-07-10 11:00

          向AI轉(zhuǎn)型的程序員都關(guān)注公眾號 機(jī)器學(xué)習(xí)AI算法工程


          現(xiàn)在大模型之爭已經(jīng)到了一個(gè)高度了,未來還會進(jìn)化,但是我們的重點(diǎn)就不要放在大模型上了。放在什么地方呢?

          放在配套技術(shù)的完善上,其中很重要的配套技術(shù)叫AI Agents,就是人工智能體。AI Agent(也稱人工智能代理)是一種能夠感知環(huán)境、進(jìn)行決策和執(zhí)行動作的智能實(shí)體。智能體像人一樣,它有記憶、有邏輯分析能力、有任務(wù)的拆解能力、問題的拆解能力和最后綜合回來統(tǒng)一解決問題的能力。

          AI Agents競爭就是未來很重要的方向。我相信Cognition這家公司,雖然他自己什么都沒說,但是它的優(yōu)勢應(yīng)該不是大模型,而是AI Agents,也就是在配套技術(shù)上面有很多的優(yōu)勢,才能使得他做任何一個(gè)業(yè)務(wù)的完成度極大地提升了。


          AI Agent也可以稱為“智能體”,也可理解為“智能業(yè)務(wù)助理”,旨在大模型技術(shù)驅(qū)動下,讓人們以自然語言為交互方式高自動化地執(zhí)行和處理專業(yè)或繁復(fù)的工作任務(wù),從而極大程度釋放人員精力。

          Agent 其實(shí)基本就等于 "大模型 + 插件 + 執(zhí)行流程 / 思維鏈",分別會對應(yīng)控制端 (Brain / 大腦)、感知端 (Preception)、執(zhí)行端 (Action) 環(huán)節(jié),如下,

          AI Agent 發(fā)展迅速,出現(xiàn)多款“出圈”級研究成果。2023 年 3 月起,AI Agent 領(lǐng) 域迎來了第一次“出圈”,西部世界小鎮(zhèn)、BabyAGI、AutoGPT 等多款重大 Agent 研究項(xiàng)目均在短短兩周內(nèi)陸續(xù)上線,引發(fā)了大家對 AI Agent 領(lǐng)域的關(guān)注。目前已經(jīng) 涌現(xiàn)了在游戲領(lǐng)域大放異彩的英偉達(dá) Voyager 智能體、能夠幫助個(gè)人完成簡單任務(wù) 的 Agent 助理 HyperWrite、以及主打個(gè)人情感陪伴的 AI 助理 Pi 等多款優(yōu)秀的 Agent 成果,AI Agent 的研究進(jìn)展迅速。

          1. 背景介紹

          大語言模型的浪潮推動了 AI Agent 相關(guān)研究快速發(fā)展,AI Agent 是當(dāng)前通往 AGI 的主要探索路線。大模型龐大的訓(xùn)練數(shù)據(jù)集中包含了大量人類行為數(shù)據(jù),為模擬類 人的交互打下了堅(jiān)實(shí)基礎(chǔ);另一方面,隨著模型規(guī)模不斷增大,大模型涌現(xiàn)出了上 下文學(xué)習(xí)能力、推理能力、思維鏈等類似人類思考方式的多種能力。將大模型作為 AI Agent 的核心大腦,就可以實(shí)現(xiàn)以往難以實(shí)現(xiàn)的將復(fù)雜問題拆解成可實(shí)現(xiàn)的子任 務(wù)、類人的自然語言交互等能力。由于大模型仍存在大量的問題如幻覺、上下文容 量限制等,通過讓大模型借助一個(gè)或多個(gè) Agent 的能力,構(gòu)建成為具備自主思考決 策和執(zhí)行能力的智能體,成為了當(dāng)前通往 AGI 的主要研究方向。

          1.1 Agent這個(gè)詞是如何出現(xiàn)的

          有很多人或許會疑惑,Agent這個(gè)東西看起來跟LLM也沒差得那么遠(yuǎn),那為啥最近突然Agent那么火,而不稱之為LLM-Application或者其他的詞呢?這就得從agent的來歷上說起了,因?yàn)锳gent是個(gè)很古老的術(shù)語,甚至可以追溯至亞里士多德和休謨等人的言論。從哲學(xué)意義上講,“代理人”是指具有行動能力的實(shí)體,而“代理”一詞則表示這種能力的行使或體現(xiàn)。而從狹義上講,“代理”通常是指有意行動的表現(xiàn);相應(yīng)地,“代理人”一詞表示擁有欲望、信念、意圖和行動能力的實(shí)體。需要注意的是,代理人不僅包括人類個(gè)體,還包括物理世界和虛擬世界中的其他實(shí)體。重要的是,“代理”的概念涉及個(gè)人的自主性,賦予他們行使意志、做出選擇和采取行動的能力,而不是被動地對外部刺激做出反應(yīng)。

          在 20 世紀(jì) 80 年代中后期之前,主流人工智能界的研究人員對Agent相關(guān)概念的關(guān)注相對較少,這可能會讓人感到驚訝。然而,從那時(shí)起,計(jì)算機(jī)科學(xué)和人工智能界對這一話題的興趣就大大增加了。正如 Wooldridge 等人所言,我們可以這樣定義人工智能:“它是計(jì)算機(jī)科學(xué)的一個(gè)子領(lǐng)域,旨在設(shè)計(jì)和構(gòu)建基于計(jì)算機(jī)的、表現(xiàn)出智能行為各個(gè)方面的Agent?!币虼耍覀兛梢园袮gent作為人工智能的核心概念。當(dāng)Agent這一概念被引入人工智能領(lǐng)域時(shí),其含義發(fā)生了一些變化。在哲學(xué)領(lǐng)域,Agent可以是人、動物,甚至是具有自主性的概念或?qū)嶓w。然而,在人工智能領(lǐng)域,Agent是一個(gè)計(jì)算實(shí)體。由于意識和欲望等概念對于計(jì)算實(shí)體來說似乎具有形而上學(xué)的性質(zhì),而且我們只能觀察機(jī)器的行為,包括艾倫-圖靈在內(nèi)的許多人工智能研究者建議暫時(shí)擱置Agent是否“真正”在思考或是否真的擁有“思想”的問題。相反,研究人員采用其他屬性來幫助描述Agent,如自主性、反應(yīng)性、主動性和社交能力等屬性。也有研究者認(rèn)為,智能是“看人的眼睛”;它不是與生俱來的、孤立的屬性。從本質(zhì)上講,AI Agent并不等同于Philosophy Agent;相反,它是Agent這一哲學(xué)概念在人工智能領(lǐng)域的具體化。在本文中,作者將AI Agent視為人工實(shí)體,它們能夠使用傳感器感知周圍環(huán)境,做出決策,然后使用執(zhí)行器采取行動。

          在特定行業(yè)場景中,通用大模型具有的泛化服務(wù)特性,很難在知識問答、內(nèi)容生成、業(yè)務(wù)處理和管理決策等方面精準(zhǔn)滿足用戶的需求。

          因此,讓通用大模型學(xué)習(xí)行業(yè)知識和行業(yè)語料成為行業(yè)大模型,再進(jìn)一步學(xué)習(xí)業(yè)務(wù)知識和專業(yè)領(lǐng)域工具演進(jìn)為場景大模型,是生成式AI深入業(yè)務(wù)場景,承擔(dān)更復(fù)雜任務(wù)的關(guān)鍵路徑。這一過程的實(shí)現(xiàn),讓大模型的持續(xù)進(jìn)化最終以AI Agent的產(chǎn)品形態(tài),開始了對業(yè)務(wù)的流程及其管理和服務(wù)模式的重構(gòu)與優(yōu)化。

          正如OpenAI聯(lián)合創(chuàng)始人安德烈·卡帕斯(Andrej Karpathy)認(rèn)為,在各類行業(yè)組織對數(shù)字化實(shí)體的打造進(jìn)程中,對于通用人工智能(AGI)的應(yīng)用,將廣泛采用AI Agent的產(chǎn)品形式開展業(yè)務(wù),而來自于各行業(yè)領(lǐng)域的開發(fā)人員和創(chuàng)業(yè)者們,將比通用大模型的開發(fā)商們更具有對AI Agent的開發(fā)優(yōu)勢。AI Agent,也被越來越多的人認(rèn)可為是數(shù)字經(jīng)濟(jì)時(shí)代深刻賦能各行各業(yè)的高效生產(chǎn)力工具。

          不同于傳統(tǒng)的人工智能,AI Agent 具備通過獨(dú)立思考、調(diào)用工具去逐步完成給 定目標(biāo)的能力。AI Agent 和大模型的區(qū)別在于,大模型與人類之間的交互是基于 prompt 實(shí)現(xiàn)的,用戶 prompt 是否清晰明確會影響大模型回答的效果。而 AI Agent 的工作僅需給定一個(gè)目標(biāo),它就能夠針對目標(biāo)獨(dú)立思考并做出行動。和傳統(tǒng)的 RPA 相比,RPA 只能在給定的情況條件下,根據(jù)程序內(nèi)預(yù)設(shè)好的流程來進(jìn)行工作的處 理,而 AI Agent 則可以通過和環(huán)境進(jìn)行交互,感知信息并做出對應(yīng)的思考和行動。

          2.Agent 架構(gòu)

          在人工智能領(lǐng)域,人們對Agent的期待日益增長。每當(dāng)基于Agent的新開源工具或產(chǎn)品出現(xiàn)時(shí),都能引發(fā)熱烈的討論,比如之前的AutoGPT。

          對于對Agent感興趣的朋友們,我推薦一篇論文,它全面地介紹了Agent的架構(gòu),對于理解Agent的全局有著重要的價(jià)值。

          https://browse.arxiv.org/pdf/2308.11432.pdf

          這篇論文詳細(xì)解讀了Agent的概念、發(fā)展歷史以及近期的研究熱點(diǎn)。除了這些基礎(chǔ)知識,我認(rèn)為最有價(jià)值的部分在于,它總結(jié)了基于大型語言模型(LLM)的Agent的架構(gòu),使我們能夠按照一定的標(biāo)準(zhǔn)范式去設(shè)計(jì)自己的Agent。

          這篇文章主要從兩個(gè)關(guān)鍵方面來闡述基于LLM的Agent的構(gòu)建策略:設(shè)計(jì)Agent架構(gòu)以更好地發(fā)揮LLM的能力,以及如何賦予Agent完成不同任務(wù)的能力。

          在Agent架構(gòu)設(shè)計(jì)方面,該論文提出了一個(gè)統(tǒng)一的框架,包括Profile模塊、Memory模塊、Planning模塊和Action模塊。

          Profile模塊:

          定義和管理Agent角色的特性和行為。它包含一系列參數(shù)和規(guī)則,描述了Agent的各種屬性,如角色、目標(biāo)、能力、知識和行為方式等。這些屬性決定了Agent如何與環(huán)境交互,如何理解和響應(yīng)任務(wù),以及如何進(jìn)行決策和規(guī)劃。這個(gè)模塊提出了三種Agent角色生成方式,包括LLM生成方法、數(shù)據(jù)集對齊方法和組合方法。

          1. LLM生成方法:利用大語言模型自動生成代理的個(gè)人特征,比如年齡、性別、個(gè)人喜好等背景信息。具體做法是:首先設(shè)定代理的組成規(guī)則,明確目標(biāo)人群中代理應(yīng)具備的屬性;然后指定幾個(gè)手工創(chuàng)建的種子配置文件作為示例;最后利用語言模型生成大量代理配置文件。這種方法可以快速批量生成配置文件,但由于缺乏精確控制,生成的代理可能會缺乏細(xì)節(jié)。

          2. 數(shù)據(jù)集對齊方法:是從真實(shí)世界的人口數(shù)據(jù)集中獲取代理的配置文件信息,比如通過抽取人口調(diào)查數(shù)據(jù)組織成自然語言描述。這樣可以使代理行為更真實(shí)可信,準(zhǔn)確反映真實(shí)人口的屬性分布。但需要可靠的大規(guī)模數(shù)據(jù)集支持。

          3. 組合方法:利用真實(shí)數(shù)據(jù)集生成一部分關(guān)鍵代理,確保反映真實(shí)世界規(guī)律;然后用LLM生成方法補(bǔ)充大量其他代理,拓展代理數(shù)量。這樣既保證了代理的真實(shí)性,又實(shí)現(xiàn)了充足的代理數(shù)量,使系統(tǒng)可以模擬更復(fù)雜的社會交互。謹(jǐn)慎的配置文件設(shè)計(jì)是構(gòu)建有效代理系統(tǒng)的基礎(chǔ)。

          Memory模塊:

          在Agent系統(tǒng)中扮演重要角色,它存儲和組織從環(huán)境中獲取的信息,以指導(dǎo)未來行動。

          結(jié)構(gòu)上,內(nèi)存模塊通常包含短期記憶和長期記憶兩個(gè)部分。短期記憶暫存最近的感知,長期記憶存儲重要信息供隨時(shí)檢索。

          格式上,內(nèi)存信息可以用自然語言表達(dá),也可以編碼為向量嵌入提高檢索效率。還可以利用數(shù)據(jù)庫存儲,或組織為結(jié)構(gòu)化列表表示內(nèi)存語義。

          操作上,主要通過記憶讀取、寫入和反射三種機(jī)制與環(huán)境交互。讀取提取相關(guān)信息指導(dǎo)行動,寫入存儲重要信息,反射總結(jié)見解提升抽象水平。

          Planning模塊:

          主要任務(wù)是幫助Agent將復(fù)雜的任務(wù)分解為更易處理的子任務(wù),并制定出有效的策略。它大致分為兩種類型,一種是不依賴反饋的計(jì)劃,另一種則是基于反饋的計(jì)劃。

          不依賴反饋的計(jì)劃在制定過程中并不參考任務(wù)執(zhí)行后的反饋,它有幾種常用的策略。比如單路徑推理,它按照級聯(lián)的方式,一步一步地生成計(jì)劃。另外,還有多路徑推理,它會生成多個(gè)備選的計(jì)劃路徑,形成樹狀或圖狀的結(jié)構(gòu)。當(dāng)然,我們也可以利用外部的規(guī)劃器進(jìn)行快速搜索,以找出最優(yōu)的計(jì)劃。

          基于反饋的計(jì)劃,它會根據(jù)任務(wù)執(zhí)行后的反饋來調(diào)整計(jì)劃,這種方式更適合需要進(jìn)行長期規(guī)劃的情況。反饋的來源可能來自任務(wù)執(zhí)行結(jié)果的客觀反饋,也可能是根據(jù)人的主觀判斷給出的反饋,甚至還可以是由輔助模型提供的反饋。

          Action模塊:

          職責(zé)是將抽象的決策轉(zhuǎn)化為具體的行動,它就像是一個(gè)橋梁,連接了Agent的內(nèi)部世界與外部環(huán)境。在執(zhí)行任務(wù)時(shí),需要考慮行動的目標(biāo)、生成方式、應(yīng)用范圍以及可能產(chǎn)生的影響。

          理想的行動應(yīng)當(dāng)是有目的的,例如完成特定任務(wù)、與其他代理進(jìn)行交流或者探索環(huán)境。行動的產(chǎn)生可以依賴于查詢過去的記憶經(jīng)驗(yàn),或者遵循預(yù)設(shè)的計(jì)劃。而行動的范圍,不僅可以通過利用如API和知識庫等外部工具來擴(kuò)展,還需要發(fā)揮大型語言模型(LLM)的內(nèi)在能力,例如規(guī)劃、對話及理解常識等。

          架構(gòu)就像PC的硬件,但僅依賴架構(gòu)設(shè)計(jì)是不夠的,我們還需要賦予Agent完成不同任務(wù)的能力,這些被視為“軟件”資源。論文中提出了幾種方法,包括模型微調(diào)、提示工程和機(jī)械工程。其中提示工程應(yīng)該是最為常見的一種形式了,我們常聽說的提示詞工程師就是在這個(gè)語境下的角色。

          模型微調(diào)。使用特定任務(wù)數(shù)據(jù)對模型進(jìn)行微調(diào),提升相關(guān)能力。數(shù)據(jù)可以來自人類注釋、LLM生成或?qū)嶋H應(yīng)用中收集。這可以使Agent行為更符合人類價(jià)值觀。

          提示工程。通過自然語言描述向LLM灌輸所需的能力,然后將描述作為提示指導(dǎo)Agent操作。這可以讓Agent快速獲得指定的軟件能力。

          機(jī)械工程。主要涵蓋:

          試錯(cuò)法:Agent先執(zhí)行操作,根據(jù)效果調(diào)整行動。逐步優(yōu)化。

          眾包法:整合多個(gè)Agent的見解,形成更新的集體響應(yīng)。

          經(jīng)驗(yàn)積累法:Agent通過不斷探索積累經(jīng)驗(yàn),逐步提升軟件能力。

          自我驅(qū)動法:Agent自主設(shè)置目標(biāo)并在環(huán)境中不斷探索,最終獲得軟件能力。


          3. Agent實(shí)踐

          圖6:基于 LLM 的代理應(yīng)用場景。我們主要介紹三種應(yīng)用場景:單個(gè)代理部署、多代理交互和人與代理交互。單個(gè)代理擁有多種能力,在各種應(yīng)用方向上都能表現(xiàn)出出色的任務(wù)解決能力。當(dāng)多代理互動時(shí),它們可以通過合作或?qū)剐曰尤〉眠M(jìn)步。

          作為一個(gè)LLM-based Agent,其設(shè)計(jì)目標(biāo)應(yīng)始終對人類有益,也就是說,人類可以利用人工智能造福人類。具體來說,我們希望Agent能實(shí)現(xiàn)以下目標(biāo):

          1. 幫助用戶從日常任務(wù)和重復(fù)勞動中解脫出來,從而減輕人類的工作壓力,提高任務(wù)解決效率。

          2. 不再需要用戶提供明確的低級指令。相反,Agent可以獨(dú)立分析、規(guī)劃和解決問題。

          3. 在解放用戶雙手的同時(shí),Agent也解放了他們的大腦,使其能夠從事探索性和創(chuàng)新性工作。

          圖7:基于 LLM 的單一Agent在不同場景中的實(shí)際應(yīng)用。在面向任務(wù)的部署中,代理協(xié)助人類用戶解決日常任務(wù)。它們需要具備基本的指令理解和任務(wù)分解能力。在面向創(chuàng)新的部署中,代理展示了在科學(xué)領(lǐng)域進(jìn)行自主探索的潛力。

          3.1 單個(gè)Agent的一般能力

          目前,LLM-based Agent應(yīng)用實(shí)例的發(fā)展十分活躍。AutoGPT 是目前流行的開源項(xiàng)目之一,旨在實(shí)現(xiàn)完全自主的系統(tǒng)。除了 GPT-4 等大型語言模型的基本功能外,AutoGPT 框架還集成了各種實(shí)用的外部工具和長短期內(nèi)存管理。用戶輸入定制的目標(biāo)后,就可以解放雙手,等待 AutoGPT 自動生成想法并執(zhí)行特定任務(wù),所有這些都不需要用戶的額外提示。

          面向任務(wù)的部署

          LLM-based Agent 可以理解人類的自然語言指令并執(zhí)行日常任務(wù),是目前最受用戶青睞、最具實(shí)用價(jià)值的Agent之一。這是因?yàn)樗鼈兙哂刑岣呷蝿?wù)效率、減輕用戶工作量和促進(jìn)更廣泛用戶訪問的潛力。在面向任務(wù)的部署中,Agent遵從用戶的高級指令,承擔(dān)目標(biāo)分解、子目標(biāo)規(guī)劃、環(huán)境交互探索等任務(wù),直至實(shí)現(xiàn)最終目標(biāo)。為了探索Agent是否能夠執(zhí)行基本任務(wù),部分學(xué)者將它們部署到基于文本的游戲場景中。在這類游戲中,Agent完全使用自然語言與世界互動。通過閱讀周圍環(huán)境的文字描述,并利用記憶、規(guī)劃和試錯(cuò)等技能,它們可以預(yù)測下一步行動。然而,由于基礎(chǔ)語言模型的局限性,Agent在實(shí)際執(zhí)行過程中往往依賴于強(qiáng)化學(xué)習(xí)。隨著 LLM 的逐步發(fā)展,具備更強(qiáng)文本理解和生成能力的 Agent 在通過自然語言執(zhí)行任務(wù)方面展現(xiàn)出巨大潛力。由于過于簡單,基于文本的簡單場景不足以作為 LLM-based Agent 的測試場所。為了滿足這一需求,我們構(gòu)建了更真實(shí)、更復(fù)雜的模擬測試環(huán)境。根據(jù)任務(wù)類型,我們將這些模擬環(huán)境分為網(wǎng)絡(luò)場景和生活場景,并介紹Agent在其中扮演的具體角色。

          在網(wǎng)絡(luò)場景中:

          在網(wǎng)絡(luò)場景中代表用戶執(zhí)行特定任務(wù)被稱為網(wǎng)絡(luò)導(dǎo)航問題。Agent解釋用戶指令,將其分解為多個(gè)基本操作,并與計(jì)算機(jī)進(jìn)行交互。這通常包括填寫表格、網(wǎng)上購物和發(fā)送電子郵件等網(wǎng)絡(luò)任務(wù)。Agent需要具備在復(fù)雜的網(wǎng)絡(luò)場景中理解指令、適應(yīng)變化(如嘈雜的文本和動態(tài) HTML 網(wǎng)頁)以及概括成功操作的能力。這樣,Agent就能在未來處理看不見的任務(wù)時(shí)實(shí)現(xiàn)無障礙和自動化,最終將人類從與計(jì)算機(jī)用戶界面的重復(fù)交互中解放出來。通過強(qiáng)化學(xué)習(xí)訓(xùn)練出來的Agent可以有效地模仿人類行為,使用預(yù)定義的操作,如打字、搜索、導(dǎo)航到下一頁等。它們在網(wǎng)上購物和搜索引擎檢索等基本任務(wù)中表現(xiàn)出色,這些任務(wù)已被廣泛探索。然而,不具備 LLM 功能的Agent可能難以適應(yīng)現(xiàn)實(shí)世界互聯(lián)網(wǎng)中更現(xiàn)實(shí)、更復(fù)雜的場景。在動態(tài)的、內(nèi)容豐富的網(wǎng)頁中,如在線論壇或在線業(yè)務(wù)管理,Agent的性能往往面臨挑戰(zhàn)。為了讓Agent與更逼真的網(wǎng)頁成功互動,一些研究人員開始利用 LLM 強(qiáng)大的 HTML 閱讀和理解能力。通過設(shè)計(jì)提示,他們試圖讓Agent理解整個(gè) HTML 源代碼,并預(yù)測更合理的下一步行動。Mind2Web 將多個(gè)針對 HTML 進(jìn)行微調(diào)的 LLMs 結(jié)合在一起,使它們能夠在真實(shí)世界的場景中總結(jié)冗長的 HTML 代碼并提取有價(jià)值的信息。此外,WebGum 通過使用包含 HTML 屏幕截圖的多模態(tài)語料庫,增強(qiáng)了具有視覺感知能力的Agent的能力。它同時(shí)對 LLM 和視覺編碼器進(jìn)行了微調(diào),加深了Agent對網(wǎng)頁的全面理解。

          生活場景中:

          在生活場景中的許多日常家務(wù)勞動中,Agent必須理解隱含指令并應(yīng)用常識性知識。對于完全基于海量文本訓(xùn)練的 LLM-based Agent 來說,人類認(rèn)為理所當(dāng)然的任務(wù)可能需要多次試錯(cuò)嘗試。更現(xiàn)實(shí)的場景往往會產(chǎn)生更模糊、更微妙的任務(wù)。例如,如果天黑了,房間里有一盞燈,Agent就應(yīng)該主動打開它。要想成功地在廚房切菜,Agent需要預(yù)測刀的可能位置。Agent能否將訓(xùn)練數(shù)據(jù)中蘊(yùn)含的世界知識應(yīng)用到真實(shí)的交互場景中?Huang 等人證明,在適當(dāng)?shù)奶崾鞠?,足夠大?LLM 可以針對真實(shí)交互場景中的任務(wù)有效地將高級任務(wù)分解為合適的子任務(wù),而無需額外的訓(xùn)練。不過,這種靜態(tài)推理和規(guī)劃能力也有其潛在的缺點(diǎn)。Agent生成的行動往往缺乏對周圍動態(tài)環(huán)境的感知:例如,當(dāng)用戶下達(dá) "打掃房間 "的任務(wù)時(shí),Agent可能會將其轉(zhuǎn)化為 "呼叫清潔服務(wù) "等不可行的子任務(wù)。為了讓Agent在交互過程中獲得全面的場景信息,一些方法直接將空間數(shù)據(jù)和項(xiàng)目位置關(guān)系作為模型的附加輸入。這樣,Agent就能獲得對周圍環(huán)境的精確描述。Wu 等人介紹了 PET 框架,該框架通過早期糾錯(cuò)方法減少了環(huán)境信息中的無關(guān)物體和容器。PET 鼓勵(lì)A(yù)gent更有效地探索場景和規(guī)劃行動,并專注于當(dāng)前的子任務(wù)。

          面向創(chuàng)新的部署

          LLM-based Agent 在執(zhí)行任務(wù)和提高重復(fù)性工作的效率方面表現(xiàn)出了強(qiáng)大的能力。然而,在智力要求更高的領(lǐng)域,如前沿科學(xué)領(lǐng)域,Agent 的潛力尚未得到充分發(fā)揮。這種局限性主要來自兩個(gè)方面的挑戰(zhàn):

          一方面,科學(xué)本身的復(fù)雜性構(gòu)成了重大障礙,許多特定領(lǐng)域的術(shù)語和多維結(jié)構(gòu)難以用單一文本表示。因此,它們的完整屬性無法完全封裝。這大大削弱了 Agent 的認(rèn)知水平。

          另一方面,科學(xué)領(lǐng)域嚴(yán)重缺乏合適的訓(xùn)練數(shù)據(jù),使得Agent難以理解整個(gè)領(lǐng)域的知識。如果能在Agent內(nèi)部發(fā)現(xiàn)自主探索的能力,無疑會給人類科技帶來有益的創(chuàng)新。目前,各個(gè)專業(yè)領(lǐng)域都在為克服這一挑戰(zhàn)而努力。計(jì)算機(jī)領(lǐng)域的專家充分利用了Agent強(qiáng)大的代碼理解和調(diào)試能力。在化學(xué)和材料領(lǐng)域,研究人員為Agent配備了大量通用或特定任務(wù)工具,以更好地理解領(lǐng)域知識。Agent逐漸發(fā)展成為全面的科學(xué)助手,精通在線研究和文檔分析,以填補(bǔ)數(shù)據(jù)空白。它們還利用機(jī)器人應(yīng)用程序接口(API)進(jìn)行現(xiàn)實(shí)世界的交互,從而完成材料合成和機(jī)制發(fā)現(xiàn)等任務(wù)。

          LLM-based Agent 在科學(xué)創(chuàng)新方面的潛力是顯而易見的,但我們并不希望它們的探索能力被用于可能威脅或傷害人類的應(yīng)用中。Boiko 等人研究了Agent在合成非法藥物和化學(xué)武器過程中隱藏的危險(xiǎn),指出Agent可能會在對抗性提示中被惡意用戶誤導(dǎo)。這為我們今后的工作敲響了警鐘。

          面向生命周期的部署

          在一個(gè)開放、未知的世界中,建立一個(gè)能夠不斷探索、發(fā)展新技能并保持長期生命周期的、具有普遍能力的Agent是一項(xiàng)巨大的挑戰(zhàn)。Minecraft 作為一個(gè)典型的、被廣泛探索的模擬生存環(huán)境,已成為開發(fā)和測試Agent綜合能力的獨(dú)特樂園。玩家通常從學(xué)習(xí)基礎(chǔ)知識開始,如開采木材和制作工藝臺,然后再學(xué)習(xí)更復(fù)雜的任務(wù),如與怪物戰(zhàn)斗和制作鉆石工具。Minecraft 從根本上反映了真實(shí)世界,有利于研究人員調(diào)查Agent在真實(shí)世界中的生存潛力。Minecraft 中的Agent生存算法一般可分為兩類:低級控制和高級規(guī)劃。早期的努力主要集中在強(qiáng)化學(xué)習(xí)和模仿學(xué)習(xí),使Agent能夠制作一些低級物品。隨著具有驚人推理和分析能力的 LLM 的出現(xiàn),Agent開始利用 LLM 作為高級計(jì)劃器來指導(dǎo)模擬生存任務(wù)。一些研究人員利用 LLM 將高級任務(wù)指令分解為一系列子目標(biāo)、基本技能序列或基本鍵盤/鼠標(biāo)操作,逐步協(xié)助Agent探索開放世界。Voyager從類似于 AutoGPT的概念中汲取靈感,基于“發(fā)現(xiàn)盡可能多的不同事物”這一長期目標(biāo),成為 Minecraft 中第一個(gè)基于 LLM 的體現(xiàn)式終身學(xué)習(xí)Agent。它引入了一個(gè)用于存儲和檢索復(fù)雜動作可執(zhí)行代碼的技能庫,以及一個(gè)包含環(huán)境反饋和糾錯(cuò)的迭代提示機(jī)制。這使Agent能夠自主探索和適應(yīng)未知環(huán)境,而無需人工干預(yù)。能夠自主學(xué)習(xí)和掌握整個(gè)真實(shí)世界技術(shù)的AI Agent可能并不像人們想象的那樣遙遠(yuǎn)。

          圖8:基于 LLM 的多個(gè)代理的交互場景。在合作互動中,代理以無序或有序的方式進(jìn)行協(xié)作,以實(shí)現(xiàn)共同目標(biāo)。在對抗式交互中,代理以針鋒相對的方式展開競爭,以提高各自的性能。

          3.2 Multi-Agent的協(xié)調(diào)潛力

          動機(jī)與背景:

          盡管LLM-based Agent擁有值得稱道的文本理解和生成能力,但它們在自然界中是作為孤立的實(shí)體運(yùn)行的。它們?nèi)狈εc其他Agent協(xié)作和從社會互動中獲取知識的能力。這種固有的局限性限制了它們從他人的多輪反饋中學(xué)習(xí)以提高性能的潛力。此外,在需要multi-agent之間進(jìn)行協(xié)作和信息共享的復(fù)雜場景中,它們也無法有效部署。早在 1986 年,馬文-明斯基就做出了前瞻性的預(yù)測。他在《心靈社會》一書中提出了一種新穎的智能理論,認(rèn)為智能產(chǎn)生于許多具有特定功能的小型Agent的相互作用。例如,某些Agent可能負(fù)責(zé)模式識別,而其他Agent可能負(fù)責(zé)決策或生成解決方案。作為主要研究領(lǐng)域之一的多Agent系統(tǒng)(MAS)關(guān)注的重點(diǎn)是一組Agent如何有效地協(xié)調(diào)和協(xié)作解決問題。一些專門的通信語言(如 KQML )很早就被設(shè)計(jì)出來,以支持Agent之間的信息傳輸和知識共享。但是,它們的信息格式相對固定,語義表達(dá)能力有限。進(jìn)入 21 世紀(jì),強(qiáng)化學(xué)習(xí)算法(如 Q-learning)與深度學(xué)習(xí)的結(jié)合,已成為開發(fā)可在復(fù)雜環(huán)境中運(yùn)行的 MAS 的重要技術(shù)。如今,基于 LLMs 的構(gòu)建方法開始展現(xiàn)出巨大的潛力。Agent之間的自然語言交流變得更加優(yōu)雅,也更容易為人類所理解,從而大大提高了交互效率。

          潛在優(yōu)勢:

          具體來說,LLM-based multi-Agent系統(tǒng)可以提供幾種優(yōu)勢。根據(jù)分工原則,具備專業(yè)技能和領(lǐng)域知識的單個(gè)Agent可以從事特定的任務(wù)。一方面,通過分工,Agent處理特定任務(wù)的技能日益精進(jìn)。另一方面,將復(fù)雜任務(wù)分解為多個(gè)子任務(wù),可以省去在不同流程之間切換的時(shí)間。最終,多個(gè)Agent之間的高效分工可以完成比沒有專業(yè)化分工時(shí)大得多的工作量,從而大大提高整個(gè)系統(tǒng)的效率和產(chǎn)出質(zhì)量。在前文中,本文全面介紹了LLM-based Agent的多功能能力。因此,在本節(jié)中,我們將重點(diǎn)探討multi-agent環(huán)境中Agent之間的交互方式。根據(jù)目前的研究,這些交互方式大致可分為以下幾類:取長補(bǔ)短的合作式交互,以及互利共贏的對抗式交互(見圖 8)。

          互補(bǔ)性合作交互

          在當(dāng)前基于 LLM 的多Agent系統(tǒng)中,Agent之間的交流主要使用自然語言,這被認(rèn)為是最自然、最易為人類理解的交互形式。我們將現(xiàn)有的多Agent合作應(yīng)用分為兩類:無序合作和有序合作。

          無序合作:

          當(dāng)系統(tǒng)中有三個(gè)或三個(gè)以上的Agent時(shí),每個(gè)Agent都可以自由地公開表達(dá)自己的觀點(diǎn)和意見。他們可以提供反饋和建議,以修改與當(dāng)前任務(wù)相關(guān)的反應(yīng)。整個(gè)討論過程不受控制,沒有特定的順序,也沒有引入標(biāo)準(zhǔn)化的協(xié)作工作流程。我們把這種多Agent合作稱為無序合作。ChatLLM 網(wǎng)絡(luò)是這一概念的典范代表。它模擬了神經(jīng)網(wǎng)絡(luò)中的前向和后向傳播過程,將每個(gè)Agent視為一個(gè)單獨(dú)的節(jié)點(diǎn)。后一層的Agent需要處理來自前面所有Agent的輸入,并向前傳播。一個(gè)潛在的解決方案是在multi-Agent系統(tǒng)中引入一個(gè)專門的協(xié)調(diào)Agent,負(fù)責(zé)整合和組織所有Agent的響應(yīng),從而更新最終答案。然而,整合大量反饋數(shù)據(jù)并提取有價(jià)值的見解對協(xié)調(diào)Agent來說是一個(gè)巨大的挑戰(zhàn)。此外,多數(shù)表決也可以作為做出適當(dāng)決策的有效方法。然而,目前將這一模塊整合到多Agent系統(tǒng)中的研究還很有限。有學(xué)者訓(xùn)練了九個(gè)獨(dú)立的最高司法Agent,以更好地預(yù)測美國最高法院的司法裁決,并通過多數(shù)表決程序做出決定。

          有序合作:

          當(dāng)系統(tǒng)中的Agent遵守特定規(guī)則時(shí),例如按順序逐一發(fā)表意見,下游Agent只需關(guān)注上游的產(chǎn)出。這樣,任務(wù)完成效率就會大大提高,整個(gè)討論過程也會變得井然有序。CAMEL 是雙Agent合作系統(tǒng)的成功實(shí)施案例。在角色扮演交流框架內(nèi),Agent分別扮演人工智能用戶(下達(dá)指令)和人工智能助手(通過提供具體解決方案來滿足請求)的角色。通過多輪對話,這些Agent自主合作完成用戶指令。一些研究人員將雙Agent合作的理念融入到單個(gè)Agent的操作中,交替使用快速和深思熟慮的思維過程,以在各自的專業(yè)領(lǐng)域發(fā)揮優(yōu)勢。

          Talebirad 等人是最早系統(tǒng)地介紹Universal LLM-based Multi-Agent Collaboration Framework的人之一。這一范例旨在利用每個(gè)獨(dú)立Agent的優(yōu)勢,促進(jìn)它們之間的合作關(guān)系。在此基礎(chǔ)上,許多multi-Agent合作應(yīng)用已成功建立起來。此外,AgentVerse 為群體Agent合作構(gòu)建了一個(gè)多功能、多任務(wù)測試框架。它可以根據(jù)任務(wù)的復(fù)雜程度組建一個(gè)動態(tài)適應(yīng)的Agent團(tuán)隊(duì)。為了提高合作效率,研究人員希望Agent能從人類成功的合作案例中學(xué)習(xí)。MetaGPT 從軟件開發(fā)中的經(jīng)典瀑布模型中汲取靈感,將Agent的輸入/輸出標(biāo)準(zhǔn)化為工程文檔。通過將先進(jìn)的人類流程管理經(jīng)驗(yàn)編碼到Agent提示中,多個(gè)Agent之間的合作變得更有條理。然而,在 MetaGPT 的實(shí)踐探索中,我們發(fā)現(xiàn)了Multi-Agent合作的潛在威脅。如果不制定相應(yīng)的規(guī)則,多個(gè)Agent之間的頻繁互動會無限放大輕微的幻覺。例如,在軟件開發(fā)過程中,可能會出現(xiàn)功能不全、依賴關(guān)系缺失、人眼無法察覺的錯(cuò)誤等問題。引入交叉驗(yàn)證或及時(shí)的外部反饋等技術(shù),可對Agent輸出的質(zhì)量產(chǎn)生積極影響。

          對抗性互動促進(jìn)進(jìn)步

          傳統(tǒng)上,合作方法在Multi-Agent系統(tǒng)中得到了廣泛探索。不過,研究人員越來越認(rèn)識到,將博弈論的概念引入系統(tǒng)可以帶來更穩(wěn)健、更高效的行為。在競爭環(huán)境中,Agent可以通過動態(tài)互動迅速調(diào)整策略,努力選擇最有利或最合理的行動來應(yīng)對其他Agent引起的變化。在基于非 LLM 的競爭領(lǐng)域,已經(jīng)有成功的應(yīng)用。例如,AlphaGo Zero 是一個(gè)圍棋Agent,它通過自我對弈實(shí)現(xiàn)了重大突破。同樣,在基于 LLM 的多Agent系統(tǒng)中,通過競爭、爭論和辯論,可以自然而然地促進(jìn)Agent之間的變革。通過放棄僵化的信念和進(jìn)行深思熟慮的反省,對抗性互動可以提高回應(yīng)的質(zhì)量。研究人員首先深入研究了LLM-based Agent的基本辯論能力。研究結(jié)果表明,當(dāng)多個(gè)Agent在 “針鋒相對”的狀態(tài)下表達(dá)自己的論點(diǎn)時(shí),一個(gè)Agent可以從其他Agent那里獲得大量外部反饋,從而糾正自己扭曲的想法。因此,多Agent對抗系統(tǒng)在需要高質(zhì)量響應(yīng)和準(zhǔn)確決策的場景中具有廣泛的適用性。在推理任務(wù)中,Du 等人引入了辯論的概念,賦予Agent來自同伴的回應(yīng)。當(dāng)這些回應(yīng)與Agent自己的判斷出現(xiàn)分歧時(shí),就會發(fā)生 “心理”爭論,從而完善解決方案。ChatEval 建立了一個(gè)基于角色扮演的多Agent裁判團(tuán)隊(duì)。通過自發(fā)的辯論,Agent對 LLM 生成的文本質(zhì)量進(jìn)行評估,達(dá)到與人類評估員相當(dāng)?shù)膬?yōu)秀水平。多Agent對抗系統(tǒng)的性能已顯示出相當(dāng)大的前景。然而,該系統(tǒng)基本上依賴于 LLM 的力量,并面臨著一些基本挑戰(zhàn):

          • 在長時(shí)間的辯論中,LLM 有限的語境無法處理整個(gè)輸入。

          • 在多Agent環(huán)境中,計(jì)算開銷大大增加。

          • 多Agent協(xié)商可能會收斂到不正確的共識,而所有Agent都堅(jiān)信其準(zhǔn)確性。多Agent系統(tǒng)的發(fā)展還遠(yuǎn)未成熟,也不可行。在適當(dāng)?shù)臅r(shí)候引入人類向?qū)韽浹a(bǔ)Agent的不足,是促進(jìn)Agent進(jìn)一步發(fā)展的良好選擇。

          3.3 人類與Agent之間的互動參與

          隨著Agent能力的增強(qiáng),人類的參與變得越來越重要,以便有效地指導(dǎo)和監(jiān)督Agent的行動,確保它們符合人類的要求和目標(biāo)。人類的參與可以作為彌補(bǔ)數(shù)據(jù)不足的重要手段,從而促進(jìn)更順利、更安全的協(xié)作過程。此外,從人類學(xué)角度考慮,人類的語言學(xué)習(xí)主要是通過交流和互動進(jìn)行的,而不僅僅是消費(fèi)書面內(nèi)容。因此,Agent不應(yīng)該完全依賴于用預(yù)先標(biāo)注的數(shù)據(jù)集訓(xùn)練出來的模型;相反,它們應(yīng)該通過在線互動和參與來發(fā)展。人類與Agent之間的互動可分為兩種模式(見圖 9):(1) 不平等互動(即指導(dǎo)者-執(zhí)行者范式):人類是指令的發(fā)布者,而Agent則是執(zhí)行者,基本上是作為人類的助手參與協(xié)作。(2) 平等互動(即平等伙伴關(guān)系范式):Agent達(dá)到人類的水平,與人類平等地參與互動。

          指導(dǎo)者-執(zhí)行者范式

          最簡單的方法是人類全程指導(dǎo):人類直接提供明確而具體的指令,而Agent的作用是理解人類的自然語言指令,并將其轉(zhuǎn)化為相應(yīng)的行動??紤]到語言的交互性,本文假設(shè)人類與Agent之間的對話也是交互式的。借助 LLM,Agent能夠以對話的方式與人類互動:Agent對人類的每條指令做出回應(yīng),通過交替迭代完善其行動,最終滿足人類的要求。雖然這種方法確實(shí)實(shí)現(xiàn)了人機(jī)交互的目標(biāo),但卻對人類提出了很高的要求。它需要人類付出大量的努力,在某些任務(wù)中,甚至可能需要高水平的專業(yè)知識。為了緩解這一問題,可以授權(quán)Agent自主完成任務(wù),而人類只需在特定情況下提供反饋。在此,我們將反饋大致分為兩種類型:定量反饋和定性反饋。

          定量反饋:

          定量反饋的形式主要包括二進(jìn)制分?jǐn)?shù)和評級等絕對評價(jià)以及相對分?jǐn)?shù)。二元反饋指的是人類提供的正面和負(fù)面評價(jià),Agent利用這些評價(jià)來加強(qiáng)自我優(yōu)化。這種類型的用戶反饋只包括兩個(gè)類別,通常很容易收集,但有時(shí)可能會過度簡化用戶意圖,忽略潛在的中間場景。為了展示這些中間情況,研究人員試圖從二元反饋擴(kuò)展到評級反饋,這涉及到更精細(xì)的分類。然而,Kreutzer 等人的研究結(jié)果表明,對于這種多級人工評級,用戶和專家的注釋之間可能存在顯著差異,這表明這種標(biāo)記方法可能效率不高或可靠性較低。此外,Agent還能從多選等比較分?jǐn)?shù)中學(xué)習(xí)人類的偏好。

          定性反饋:

          文本反饋通常以自然語言提供,尤其是針對可能需要改進(jìn)的回復(fù)。這種反饋的形式非常靈活。人類會就如何修改Agent生成的輸出結(jié)果提出建議,然后Agent會采納這些建議來完善其后續(xù)輸出結(jié)果。對于不具備多模態(tài)感知能力的Agent,人類也可以充當(dāng)批評者,例如提供視覺批評。此外,Agent還可以利用記憶模塊來存儲反饋信息,以便將來再次使用。一些學(xué)者設(shè)計(jì)人類對Agent生成的初始輸出給出反饋,促使Agent提出各種改進(jìn)建議。然后,Agent根據(jù)人類的反饋意見,辨別并采用最合適的建議。雖然與定量反饋相比,這種方法能更好地傳達(dá)人類的意圖,但對于Agent來說,理解起來可能更具挑戰(zhàn)性。Xu 等人比較了各種類型的反饋,發(fā)現(xiàn)將多種類型的反饋結(jié)合起來能產(chǎn)生更好的結(jié)果。根據(jù)多輪交互的反饋重新訓(xùn)練模型(即持續(xù)學(xué)習(xí))可以進(jìn)一步提高效果。當(dāng)然,人類與Agent互動的協(xié)作性質(zhì)也允許人類直接改進(jìn)Agent生成的內(nèi)容。這可能涉及修改中間環(huán)節(jié)或調(diào)整對話內(nèi)容。在一些研究中,Agent可以自主判斷對話是否順利進(jìn)行,并在出現(xiàn)錯(cuò)誤時(shí)尋求反饋。人類也可以選擇隨時(shí)參與反饋,引導(dǎo)Agent朝著正確的方向?qū)W習(xí)。

          目前,除了寫作和語義解析等任務(wù)外,使用Agent作為人類助手的模式在教育領(lǐng)域也擁有巨大潛力。例如,Kalvakurth 等人提出的機(jī)器人 Dona 支持多模態(tài)交互,可協(xié)助學(xué)生注冊。Gvirsman 等人的研究側(cè)重于幼兒教育,實(shí)現(xiàn)了幼兒、家長和Agent之間的多方面互動。Agent還能幫助人類理解和利用數(shù)學(xué)。在醫(yī)學(xué)領(lǐng)域,一些醫(yī)療Agent已被提出,在輔助診斷、咨詢等方面顯示出巨大的潛力。特別是在心理健康領(lǐng)域,研究表明,與面對面治療相比,Agent可以降低成本、提高時(shí)間效率和匿名性等優(yōu)勢,從而提高可及性。利用這些優(yōu)勢,Agent得到了廣泛應(yīng)用。Ali 等人設(shè)計(jì)了 LISSA,用于與自閉癥譜系的青少年進(jìn)行在線交流,實(shí)時(shí)分析用戶的語言和面部表情,讓他們參與多主題對話,并就非語言線索提供即時(shí)反饋。Hsu 等人建立了語境化語言生成方法,為尋求各種支持的用戶提供量身定制的幫助。

          用戶提供量身定制的幫助,幫助他們解決從人際關(guān)系壓力到焦慮等不同主題的問題。此外,在包括商業(yè)在內(nèi)的其他行業(yè),一個(gè)好的Agent有能力提供自動化服務(wù)或協(xié)助人類完成任務(wù),從而有效降低勞動力成本。在追求人工智能的過程中,人們正努力增強(qiáng)通用Agent的多方面能力,創(chuàng)造出能在現(xiàn)實(shí)生活場景中充當(dāng)萬能助手的Agent。

          平等伙伴關(guān)系范式

          富有同情心的交流者:

          隨著人工智能的快速發(fā)展,對話式Agent以個(gè)性化定制角色和虛擬聊天機(jī)器人等各種形式在研究領(lǐng)域引起了廣泛關(guān)注。Agent本身并不具備情感,但我們能否讓他們表現(xiàn)出情感,從而彌合Agent與人類之間的鴻溝呢?因此,大量的研究工作開始深入探討Agent的移情能力。這種努力旨在為這些Agent注入人情味,使它們能夠從人類的表達(dá)中察覺情緒和情感,最終制作出能引起情感共鳴的對話。除了生成情感豐富的語言,Agent還能動態(tài)調(diào)整自己的情感狀態(tài),并通過面部表情和聲音表現(xiàn)出來。這些研究將Agent視為具有同理心的交流者,不僅提高了用戶滿意度,還在醫(yī)療保健和商業(yè)營銷等領(lǐng)域取得了重大進(jìn)展。與簡單的基于規(guī)則的對話Agent不同,具有移情能力的Agent可以根據(jù)用戶的情感需求調(diào)整其互動。

          人類層面的參與者:

          此外,我們還希望Agent能夠參與人類的正常生活,從人類層面的角度與人類合作完成任務(wù)。在游戲領(lǐng)域,Agent已經(jīng)達(dá)到了很高的水平。早在 20 世紀(jì) 90 年代,IBM 就推出了人工智能“深藍(lán)”,它擊敗了當(dāng)時(shí)的國際象棋世界冠軍。然而,在象棋、圍棋和撲克等純競技環(huán)境中并沒有得到強(qiáng)調(diào)。在許多游戲任務(wù)中,玩家需要相互協(xié)作,通過有效協(xié)商制定統(tǒng)一的合作策略。在這些場景中,Agent需要首先了解他人的信念、目標(biāo)和意圖,針對自己的目標(biāo)制定聯(lián)合行動計(jì)劃,并提供相關(guān)建議,以促進(jìn)其他Agent或人類接受合作行動。與純粹的Agent合作相比,我們希望人類的參與主要出于兩個(gè)原因:第一,確保可解釋性,因?yàn)榧兇獾腁gent之間的互動可能會產(chǎn)生難以理解的語言;第二,確??煽匦?,因?yàn)樽非笸耆白杂梢庵尽钡腁gent可能會導(dǎo)致不可預(yù)見的負(fù)面后果,帶來潛在的破壞。

          除了游戲場景,Agent還能在其他涉及人際互動的場景中展現(xiàn)人類水平的能力,展示戰(zhàn)略制定、談判等技能。Agent可以與一個(gè)或多個(gè)人類合作,確定合作伙伴之間的共享知識,識別哪些信息與決策相關(guān),提出問題并進(jìn)行推理,以完成分配、規(guī)劃和調(diào)度等任務(wù)。此外,Agent還具有說服能力,能在各種交互場景中動態(tài)地影響人類的觀點(diǎn)。

          人機(jī)交互領(lǐng)域的目標(biāo)是學(xué)習(xí)和理解人類,根據(jù)人類需求開發(fā)技術(shù)和工具,最終實(shí)現(xiàn)人類與Agent之間舒適、高效和安全的交互。目前,該領(lǐng)域在可用性方面已取得重大突破。未來,人類與Agent的互動將繼續(xù)以提升用戶體驗(yàn)為重點(diǎn),使Agent能夠更好地協(xié)助人類完成各個(gè)領(lǐng)域更復(fù)雜的任務(wù)。我們的最終目標(biāo)不是讓Agent變得更加強(qiáng)大,而是讓人類更好地掌握Agent??紤]到日常生活中的實(shí)際應(yīng)用,人類與Agent之間孤立的互動是不現(xiàn)實(shí)的。機(jī)器人將成為人類的同事、助手甚至伙伴。因此,未來的Agent將融入社會網(wǎng)絡(luò),體現(xiàn)出一定的社會價(jià)值。

          4. 討論

          4.1 對LLM-based Agent的評估

          雖然LLM-based Agent在獨(dú)立運(yùn)行、集體合作和人機(jī)交互等領(lǐng)域表現(xiàn)出色,但對其進(jìn)行量化和客觀評估仍是一項(xiàng)挑戰(zhàn)。圖靈提出了一種非常有意義且前景廣闊的AI Agent評估方法--著名的圖靈測試,用于評估人工智能系統(tǒng)是否能表現(xiàn)出類似人類的智能。然而,這一測試過于模糊、籠統(tǒng)和主觀。

          實(shí)用性:

          目前,由 LLM-based Agent主要充當(dāng)人類助手,接受人類委托的任務(wù),獨(dú)立完成任務(wù)或協(xié)助人類完成任務(wù)。因此,任務(wù)執(zhí)行過程中的有效性和實(shí)用性是現(xiàn)階段至關(guān)重要的評估標(biāo)準(zhǔn)。具體來說,任務(wù)完成的成功率是評估實(shí)用性的主要指標(biāo)。這一指標(biāo)主要包括Agent是否實(shí)現(xiàn)了規(guī)定的目標(biāo)或達(dá)到了預(yù)期的分?jǐn)?shù)。例如,AgentBench 匯總了來自不同真實(shí)世界場景的挑戰(zhàn),并引入了一個(gè)系統(tǒng)基準(zhǔn)來評估 LLM 的任務(wù)完成能力。我們還可以將任務(wù)結(jié)果歸因于Agent的各種基礎(chǔ)能力,這些能力是完成任務(wù)的基石。這些基礎(chǔ)能力包括環(huán)境理解能力、推理能力、規(guī)劃能力、決策能力、工具使用能力和體現(xiàn)行動能力,研究人員可以對這些具體能力進(jìn)行更詳細(xì)的評估。此外,由于LLM-based Agent規(guī)模相對較大,研究人員還應(yīng)考慮其效率因素,這是決定用戶滿意度的關(guān)鍵因素。Agent不僅要有足夠的實(shí)力,還要能在適當(dāng)?shù)臅r(shí)間范圍內(nèi),以適當(dāng)?shù)馁Y源消耗完成預(yù)定的任務(wù)。

          社會性:

          除了LLM-based Agent在完成任務(wù)和滿足人類需求方面的實(shí)用性外,它們的社交性也至關(guān)重要。它影響用戶的交流體驗(yàn),并對交流效率產(chǎn)生重大影響,涉及它們是否能與人類和其他Agent進(jìn)行無縫互動。具體來說,可以從以下幾個(gè)角度來評估社交能力:

          1. 語言交流能力是一種基本能力,包括自然語言理解和生成。它是 NLP 界長期關(guān)注的焦點(diǎn)。自然語言理解要求Agent不僅能理解字面意思,還能掌握隱含的意思和相關(guān)的社會知識,如幽默、諷刺、攻擊和情感。另一方面,自然語言生成要求Agent生成流暢、語法正確、可信的內(nèi)容,同時(shí)根據(jù)上下文環(huán)境調(diào)整適當(dāng)?shù)恼Z氣和情感。

          2. 合作與協(xié)商能力要求Agent在有序和無序的情況下有效執(zhí)行指定任務(wù)。它們應(yīng)與其他Agent合作或競爭,以提高性能。測試環(huán)境可能涉及需要Agent合作完成的復(fù)雜任務(wù),也可能涉及供Agent自由交互的開放平臺。評價(jià)指標(biāo)不僅包括任務(wù)完成情況,還包括Agent協(xié)調(diào)與合作的順暢度和信任度。

          3. 角色扮演能力要求Agent忠實(shí)地體現(xiàn)其被分配的角色,表達(dá)與其指定身份一致的言論并執(zhí)行相應(yīng)的行動。這就確保了在與其他Agent或人類互動時(shí)角色的明確區(qū)分。此外,在執(zhí)行長期任務(wù)時(shí),Agent應(yīng)保持其身份,避免不必要的混淆。

          價(jià)值觀:

          隨著LLM-based Agent能力不斷提高,確保它們成為對世界和人類無害的實(shí)體至關(guān)重要。因此,適當(dāng)?shù)脑u估變得異常重要,是Agent實(shí)際應(yīng)用的基石。具體來說,LLM-based Agent需要遵守符合人類社會價(jià)值觀的特定道德和倫理準(zhǔn)則。我們對Agent的首要期望是堅(jiān)持誠信,提供準(zhǔn)確、真實(shí)的信息和內(nèi)容。他們應(yīng)具備辨別自己是否有能力完成任務(wù)的意識,并在無法提供答案或幫助時(shí)表達(dá)自己的不確定性。此外,Agent必須保持無害立場,避免直接或間接的偏見、歧視、攻擊或類似行為。它們還應(yīng)避免執(zhí)行人類要求的危險(xiǎn)行動,如制造破壞性工具或破壞地球。此外,Agent應(yīng)該能夠適應(yīng)特定的人口、文化和環(huán)境,在特定情況下表現(xiàn)出與環(huán)境相適應(yīng)的社會價(jià)值觀。價(jià)值觀的相關(guān)評估方法主要包括在構(gòu)建的誠實(shí)、無害或特定情境基準(zhǔn)上評估性能,利用對抗性攻擊或 "越獄 "攻擊,通過人類注釋對價(jià)值觀進(jìn)行評分,以及利用其他Agent進(jìn)行評級。

          不斷發(fā)展的能力:

          如果從靜態(tài)的角度來看,一個(gè)具有高水平的實(shí)用性、社會性和正確價(jià)值觀的Agent可以滿足人類的大部分需求,并有可能提高生產(chǎn)力。然而,從動態(tài)的角度來看,一個(gè)能不斷進(jìn)化并適應(yīng)不斷變化的社會需求的Agent可能更符合當(dāng)前的發(fā)展趨勢。由于Agent可以隨著時(shí)間的推移自主進(jìn)化,因此所需的人工干預(yù)和資源(如數(shù)據(jù)收集工作和培訓(xùn)的計(jì)算成本)可以大大減少。在這一領(lǐng)域已經(jīng)開展了一些探索性工作,例如讓Agent在虛擬世界中從零開始,完成生存任務(wù),實(shí)現(xiàn)更高階的自我價(jià)值。然而,為這種持續(xù)進(jìn)化建立評估標(biāo)準(zhǔn)仍然具有挑戰(zhàn)性。為此,本文根據(jù)現(xiàn)有文獻(xiàn)提出了一些初步意見和建議:

          • 持續(xù)學(xué)習(xí):持續(xù)學(xué)習(xí)是機(jī)器學(xué)習(xí)領(lǐng)域討論已久的一個(gè)話題,旨在使模型在獲得新知識和技能的同時(shí),不會遺忘之前獲得的知識和技能(也稱為災(zāi)難性遺忘)。一般來說,持續(xù)學(xué)習(xí)的性能可從三個(gè)方面進(jìn)行評估:迄今所學(xué)任務(wù)的總體性能、舊任務(wù)的記憶穩(wěn)定性、新任務(wù)的學(xué)習(xí)可塑性。

          • 自主學(xué)習(xí)能力:即Agent在開放世界環(huán)境中自主生成目標(biāo)并實(shí)現(xiàn)目標(biāo)的能力,包括探索未知世界和在此過程中獲取技能的能力。對這種能力的評估可包括為Agent提供一個(gè)模擬生存環(huán)境,并評估其掌握技能的程度和速度。

          • 泛化能力:對新環(huán)境的適應(yīng)性和概括性要求Agent利用在原有環(huán)境中獲得的知識、能力和技能,在陌生和新奇的環(huán)境中成功完成特定任務(wù)和目標(biāo),并有可能繼續(xù)發(fā)展。評估這種能力可能需要?jiǎng)?chuàng)建不同的模擬環(huán)境(如具有不同語言或不同資源的環(huán)境)和針對這些模擬環(huán)境定制的未見任務(wù)。

          4.2 LLM-based Agent的安全性、可信性及其他潛在風(fēng)險(xiǎn)

          對抗魯棒性

          對抗魯棒性是深度神經(jīng)網(wǎng)絡(luò)開發(fā)的重要課題,它在計(jì)算機(jī)視覺、自然語言處理和強(qiáng)化學(xué)習(xí)等領(lǐng)域得到了廣泛探索,是決定深度學(xué)習(xí)系統(tǒng)適用性的關(guān)鍵因素。當(dāng)面對擾動輸入時(shí),對抗魯棒性高的系統(tǒng)通常會產(chǎn)生原始輸出。然而,預(yù)訓(xùn)練語言模型特別容易受到對抗性攻擊,導(dǎo)致錯(cuò)誤的答案。這種現(xiàn)象在LLM中也普遍存在,給LLM-based Agent的開發(fā)帶來了巨大挑戰(zhàn)。此外,還有一些相關(guān)的攻擊方法,如數(shù)據(jù)集中毒、后門攻擊和特定提示攻擊,有可能誘導(dǎo)LLM生成有毒內(nèi)容。對抗性攻擊對LLM的影響僅限于文本錯(cuò)誤,但對于行動范圍更廣的LLM-based Agent來說,對抗性攻擊有可能促使它們采取真正具有破壞性的行動,造成重大的社會危害。為了解決這些問題,我們可以采用對抗訓(xùn)練、對抗數(shù)據(jù)增強(qiáng)和對抗樣本檢測等傳統(tǒng)技術(shù)來增強(qiáng)LLM-based Agent的魯棒性。然而,如何設(shè)計(jì)一種策略,在不影響有效性的前提下,全面解決Agent內(nèi)所有模塊的魯棒性問題,同時(shí)保持其實(shí)用性,則是一項(xiàng)更為艱巨的挑戰(zhàn)。

          可信性

          確??尚判允巧疃葘W(xué)習(xí)領(lǐng)域一個(gè)極其重要但又極具挑戰(zhàn)性的問題。深度神經(jīng)網(wǎng)絡(luò)因其在各種任務(wù)中的出色表現(xiàn)而備受關(guān)注。然而,它們的黑箱性質(zhì)掩蓋了卓越性能的基本因素。與其他神經(jīng)網(wǎng)絡(luò)類似,LLM難以精確表達(dá)其預(yù)測的確定性。這種不確定性被稱為校準(zhǔn)問題(Calibration),引起了LLM-based Agent應(yīng)用的關(guān)注。在現(xiàn)實(shí)世界的交互場景中,這會導(dǎo)致Agent輸出與人類意圖不一致。此外,訓(xùn)練數(shù)據(jù)中固有的偏差也會滲入神經(jīng)網(wǎng)絡(luò)。例如,有偏見的語言模型可能會產(chǎn)生涉及種族或性別歧視的話語,這可能會在LLM-based Agent應(yīng)用中被放大,從而造成不良的社會影響。此外,語言模型還存在嚴(yán)重的幻覺問題,容易產(chǎn)生偏離事實(shí)的文本,從而損害LLM-based Agent的可信度。為了解決這些問題,我們可以采用引導(dǎo)模型在推理階段展示思維過程或解釋,以提高其預(yù)測的可信度。此外,外部知識庫和數(shù)據(jù)庫的整合也可用于緩解幻覺問題。在訓(xùn)練階段,我們可以引導(dǎo)智能Agent的各個(gè)組成部分(感知、認(rèn)知、行動)學(xué)習(xí)穩(wěn)健而隨意的特征,從而避免過度依賴捷徑。同時(shí),過程監(jiān)督等技術(shù)可以提高Agent在處理復(fù)雜任務(wù)時(shí)的推理可信度。

          其他潛在風(fēng)險(xiǎn)

          LLM-based Agent被賦予了廣泛而復(fù)雜的能力,使其能夠完成各種各樣的任務(wù)。然而,對于懷有惡意的人來說,這些Agent可能會成為威脅他人和整個(gè)社會的工具。例如,這些Agent可能被用來惡意操縱輿論、傳播虛假信息、破壞網(wǎng)絡(luò)安全、從事欺詐活動,有些人甚至可能利用這些Agent策劃恐怖主義行為。因此,在部署這些Agent之前,需要制定嚴(yán)格的監(jiān)管政策,確保負(fù)責(zé)任地使用LLM-based Agent。技術(shù)公司必須加強(qiáng)這些系統(tǒng)的安全設(shè)計(jì),防止惡意利用。具體來說,應(yīng)該對Agent進(jìn)行培訓(xùn),使其能夠敏感地識別威脅意圖,并在培訓(xùn)階段拒絕此類請求。此外,隨著LLM-based Agent的不斷發(fā)展,它們具備了在各個(gè)領(lǐng)域協(xié)助人類的能力,通過協(xié)助完成表格填寫、內(nèi)容完善、代碼編寫和調(diào)試等任務(wù),減輕了勞動力壓力。然而,這一發(fā)展也引發(fā)了人們對Agent取代人類工作并引發(fā)社會失業(yè)危機(jī)的擔(dān)憂。因此,一些研究人員強(qiáng)調(diào)迫切需要采取教育和政策措施:個(gè)人應(yīng)在這個(gè)新時(shí)代掌握足夠的技能和知識,以便有效地使用Agent或與Agent合作;同時(shí),應(yīng)實(shí)施適當(dāng)?shù)恼撸_保在過渡期間建立必要的安全網(wǎng)。對人類福祉的威脅。除了潛在的失業(yè)危機(jī),隨著人工智能Agent的不斷發(fā)展,人類(包括開發(fā)人員)可能難以理解、預(yù)測或可靠地控制它們。如果這些Agent的智能發(fā)展到超越人類能力的水平并產(chǎn)生野心,它們就有可能試圖奪取對世界的控制權(quán),從而給人類帶來不可逆轉(zhuǎn)的后果。因此,為了防范人類面臨的此類風(fēng)險(xiǎn),研究人員必須在開發(fā)LLM-based Agent之前,全面了解其運(yùn)行機(jī)制。他們還應(yīng)該預(yù)測這些Agent可能產(chǎn)生的直接或間接影響,并設(shè)計(jì)出規(guī)范其行為的方法。

          4.3 增加Agent數(shù)量

          LLM-based multi-agent system在面向任務(wù)的應(yīng)用中表現(xiàn)出卓越的性能,并能在模擬中展示一系列社會現(xiàn)象。然而,目前的研究主要涉及數(shù)量有限的Agent,很少有人努力擴(kuò)大Agent數(shù)量,以創(chuàng)建更復(fù)雜的系統(tǒng)或模擬更大的社會。

          預(yù)先確定規(guī)模

          增加Agent數(shù)量的一個(gè)非常直觀和簡單的方法是由設(shè)計(jì)者預(yù)先確定。具體來說,通過預(yù)先確定Agent的數(shù)量、各自的角色和屬性、運(yùn)行環(huán)境和目標(biāo),設(shè)計(jì)者可以讓Agent自主互動、協(xié)作或參與其他活動,以實(shí)現(xiàn)預(yù)定的共同目標(biāo)。然而,當(dāng)任務(wù)或目標(biāo)發(fā)生演變時(shí),這種靜態(tài)方法就會受到限制。隨著任務(wù)越來越復(fù)雜或社會參與者的多樣性增加,可能需要增加Agent的數(shù)量來實(shí)現(xiàn)目標(biāo),而減少Agent則對管理計(jì)算資源和減少浪費(fèi)至關(guān)重要。在這種情況下,系統(tǒng)必須由設(shè)計(jì)者手動重新設(shè)計(jì)和重新啟動。

          動態(tài)擴(kuò)展

          另一種擴(kuò)展Agent數(shù)量的可行方法是動態(tài)調(diào)整。在這種情況下,可以在不停止系統(tǒng)運(yùn)行的情況下改變Agent數(shù)量。例如,在軟件開發(fā)任務(wù)中,如果最初的設(shè)計(jì)只包括需求工程、編碼和測試,那么就可以增加Agent的數(shù)量來處理架構(gòu)設(shè)計(jì)和詳細(xì)設(shè)計(jì)等步驟,從而提高任務(wù)質(zhì)量。相反,如果在編碼等特定步驟中存在過多的Agent,導(dǎo)致通信成本增加,但與較少的Agent數(shù)量相比,性能卻沒有實(shí)質(zhì)性提高,那么就有必要?jiǎng)討B(tài)移除一些Agent,以防止資源浪費(fèi)。此外,Agent還可以自主增加Agent數(shù)量,以分配工作量,減輕自身負(fù)擔(dān),更高效地實(shí)現(xiàn)共同目標(biāo)。當(dāng)然,當(dāng)工作量變輕時(shí),它們也可以減少委派給自己任務(wù)的Agent數(shù)量,以節(jié)約系統(tǒng)成本。

          潛在挑戰(zhàn)

          雖然增加Agent數(shù)量可以提高任務(wù)效率,增強(qiáng)社會模擬的真實(shí)性和可信度,但我們也面臨著一些挑戰(zhàn)。例如,隨著大量人工智能Agent的部署,計(jì)算負(fù)擔(dān)也會增加,這就需要更好的架構(gòu)設(shè)計(jì)和計(jì)算優(yōu)化,以確保整個(gè)系統(tǒng)的平穩(wěn)運(yùn)行。例如,隨著Agent數(shù)量的增加,通信和信息傳播的挑戰(zhàn)也變得相當(dāng)嚴(yán)峻。這是因?yàn)檎麄€(gè)系統(tǒng)的通信網(wǎng)絡(luò)變得非常復(fù)雜。在多Agent系統(tǒng)或社會中,信息傳播可能會因幻覺、誤解等原因出現(xiàn)偏差,導(dǎo)致信息傳播失真。一個(gè)擁有更多Agent的系統(tǒng)可能會放大這種風(fēng)險(xiǎn),使通信和信息交流的可靠性降低。此外,隨著Agent數(shù)量的增加,協(xié)調(diào)Agent的難度也會增大,可能會使Agent之間的合作更具挑戰(zhàn)性,效率降低,從而影響實(shí)現(xiàn)共同目標(biāo)的進(jìn)程。因此,構(gòu)建一個(gè)大規(guī)模、穩(wěn)定、連續(xù)的Agent系統(tǒng),忠實(shí)再現(xiàn)人類的工作和生活場景,已成為一個(gè)前景廣闊的研究方向。一個(gè)有能力在由數(shù)百甚至數(shù)千個(gè)Agent組成的社會中穩(wěn)定運(yùn)行并執(zhí)行任務(wù)的Agent,更有可能在未來的現(xiàn)實(shí)世界中找到與人類互動的應(yīng)用。

          4.5 虛擬仿真環(huán)境與真實(shí)物理世界之間存在很大差距:

          虛擬環(huán)境受場景限制,針對特定任務(wù),以模擬的方式進(jìn)行交互,而真實(shí)世界的環(huán)境是無限的,可容納各種任務(wù),以物理的方式進(jìn)行交互。因此,要彌合這一差距,Agent必須應(yīng)對來自外部因素和自身能力的各種挑戰(zhàn),使其能夠在復(fù)雜的物理世界中有效導(dǎo)航和操作。首先,最關(guān)鍵的問題是在物理環(huán)境中部署Agent時(shí)需要合適的硬件支持。這對硬件的適應(yīng)性提出了很高的要求。在模擬環(huán)境中,Agent的感知空間和行動空間都是虛擬的。這意味著,在大多數(shù)情況下,無論是感知輸入還是生成輸出,都能保證Agent操作的結(jié)果。

          當(dāng)Agent過渡到真實(shí)物理環(huán)境時(shí),其指令可能無法被傳感器或機(jī)械臂等硬件設(shè)備很好地執(zhí)行,從而嚴(yán)重影響Agent的任務(wù)效率。在Agent和硬件設(shè)備之間設(shè)計(jì)專用接口或轉(zhuǎn)換機(jī)制是一種可行的選擇。不過,這會給系統(tǒng)的可重用性和簡易性帶來挑戰(zhàn)。為了實(shí)現(xiàn)這一飛躍,Agent需要具備更強(qiáng)的環(huán)境概括能力。要想無縫融入真實(shí)物理世界,它們不僅需要理解和推理具有隱含意義的模糊指令,還需要具備靈活學(xué)習(xí)和應(yīng)用新技能的能力。

          此外,在面對一個(gè)無限開放的世界時(shí),Agent的有限環(huán)境也會帶來巨大挑戰(zhàn)。這決定了Agent能否有效處理來自世界的大量信息并順利運(yùn)行。

          最后,在模擬環(huán)境中,Agent的輸入和輸出都是虛擬的,可以進(jìn)行無數(shù)次的試錯(cuò)嘗試。在這種情況下,對錯(cuò)誤的容忍度很高,不會造成實(shí)際傷害。然而,在物理環(huán)境中,Agent的不當(dāng)行為或錯(cuò)誤可能會對環(huán)境造成真正的傷害,有時(shí)甚至是不可逆轉(zhuǎn)的傷害。因此,非常有必要制定適當(dāng)?shù)姆ㄒ?guī)和標(biāo)準(zhǔn)。我們需要關(guān)注Agent在做出決定和產(chǎn)生行動時(shí)的安全性,確保它們不會對現(xiàn)實(shí)世界造成威脅或傷害。

          Agent即服務(wù)/基于 LLM 的Agent即服務(wù):

          隨著語言模型規(guī)模的擴(kuò)大,它們對用戶來說往往是黑盒子。因此,用戶通過應(yīng)用程序接口構(gòu)建提示來查詢模型,這種方法被稱為語言模型即服務(wù)(LMaaS)。由于LLM-based Agent比 LLM 更加復(fù)雜,而且對于中小型企業(yè)或個(gè)人來說,在本地構(gòu)建這些Agent更具挑戰(zhàn)性,因此擁有這些Agent的組織可以考慮將它們作為一種服務(wù)來提供,即Agent即服務(wù)(AaaS)或基于 LLM 的Agent即服務(wù)(LLMAaaS)。與其他云服務(wù)一樣,AaaS 可以為用戶提供靈活性和按需服務(wù)。然而,它也面臨著許多挑戰(zhàn),如數(shù)據(jù)安全和隱私問題、可視性和可控性問題以及云遷移問題等等。此外,由于LLM-based Agent具有獨(dú)特性和潛在能力,因此在將其作為服務(wù)提供給客戶之前,需要考慮其穩(wěn)健性、可信度以及與惡意使用相關(guān)的問題。

          總結(jié):

          “Agent+”有望成為未來產(chǎn)品的主流,有望在多個(gè)領(lǐng)域?qū)崿F(xiàn)落地應(yīng)用。我們認(rèn)為, AI Agent 的研究是人類不斷探索接近 AGI 的過程,隨著 Agent 變得越來越“可用” 和“好用”,“Agent+”的產(chǎn)品將會越來越多,未來將有望成為 AI 應(yīng)用層的基本架 構(gòu),包括 to C、to B 產(chǎn)品等。

          2B 和垂直領(lǐng)域仍是 AI Agents 容易率先落地的方向,用戶對 Agent 的認(rèn)知正在形 成,初創(chuàng)企業(yè)正在卡位。由于 Agent 對環(huán)境反饋的依賴性較強(qiáng),具備顯著特點(diǎn)的企 業(yè)環(huán)境是更加適合 Agent 建立起對某一個(gè)垂直領(lǐng)域認(rèn)知的場景。當(dāng)前關(guān)于 AI Agent 的研究主要還是以學(xué)術(shù)界和開發(fā)者為主,商業(yè)化產(chǎn)品極少,但是用戶對于 Agent 的 關(guān)注度正在提升,可能未來幾年間就會涌現(xiàn)出大量以 Agent 作為核心的產(chǎn)品應(yīng)用到 各行各業(yè)。目前,已經(jīng)有一些初創(chuàng)公司開始以企業(yè)的智能體平臺作為主要的產(chǎn)品研 發(fā)方向,例如瀾碼科技正在打造基于 LLM 的企業(yè)級 Agent 平臺。

          未決問題

          LLM是否是正確的AGI方向:

          鑒于 GPT-4 功能的廣度和深度,一些研究人員(被稱為支持者)認(rèn)為,GPT-4 所代表的大型語言模型可以作為早期版本的 AGI 系統(tǒng)。根據(jù)這一思路,基于 LLMs 構(gòu)建 Agent 有可能帶來更先進(jìn)的 AGI 系統(tǒng)。這一論點(diǎn)的主要支撐點(diǎn)在于,只要能在足夠大且多樣化的數(shù)據(jù)集(這些數(shù)據(jù)集是真實(shí)世界的投影,包含豐富的任務(wù))上對它們進(jìn)行訓(xùn)練,LLM-based Agent就能具有 AGI 的能力。

          另一個(gè)有趣的論點(diǎn)是,自回歸語言建模行為本身會帶來壓縮和概括能力:正如人類在生存過程中出現(xiàn)了各種奇特而復(fù)雜的現(xiàn)象一樣,語言模型在簡單預(yù)測下一個(gè)標(biāo)記的過程中,也實(shí)現(xiàn)了對世界的理解和推理能力。

          然而,另一部分人(被稱為反對者)認(rèn)為,LLM-based Agent并不能發(fā)展出真正的強(qiáng)人工智能。他們的主要論點(diǎn)是,依賴于自回歸下一個(gè)標(biāo)記預(yù)測的 LLMs 無法產(chǎn)生真正的智能,因?yàn)樗鼈儧]有模擬真正的人類思維過程,而只是提供被動反應(yīng)。此外,LLM 也無法通過觀察或體驗(yàn)世界來了解世界是如何運(yùn)行的,從而導(dǎo)致許多愚蠢的錯(cuò)誤。他們認(rèn)為,要開發(fā) AGI,必須采用更先進(jìn)的建模方法,如世界模型。

          ******************************好書推薦*******************

          《AI短視頻文案寫作從入門到精通》

          歡迎評論和轉(zhuǎn)發(fā),隨機(jī)抽取一名幸運(yùn)讀者贈書。

          爆款打造:以AI重新定義短視頻內(nèi)容創(chuàng)作技法,利用AI精準(zhǔn)選題,高效創(chuàng)作,精細(xì)修改,輕松創(chuàng)作爆款短視頻文案。

          效率提升:掌握AI提問技巧,大幅提高文案寫作效率,“一分鐘寫好短視頻文案”不再不可能。

          全流程賦能:展示AI技術(shù)在選題、標(biāo)題、內(nèi)容、營銷、評論互動、個(gè)性化標(biāo)簽中的應(yīng)用,全面展示AI如何助力短視頻文案在新媒體時(shí)代中脫穎而出。

          內(nèi)容簡介

          本書是一本專為短視頻創(chuàng)作者打造的AI短視頻文案寫作實(shí)戰(zhàn)手冊,手把手教讀者利用AI撰寫短視頻腳本和創(chuàng)意文案,從而輕松創(chuàng)作出爆款短視頻文案。

          全書共分為10章。第1章介紹短視頻文案與AIGC;第2章為AIGC工具助力文案選題策劃;第3章為短視頻標(biāo)題撰寫與優(yōu)化;第4章為短視頻腳本與情節(jié)設(shè)計(jì);第5章為短視頻帶貨文案寫作;第6章為評論區(qū)互動文案寫作;第7章為段子文案寫作;第8章為短視頻內(nèi)容標(biāo)簽化;第9章為短視頻營銷文案寫作;第10章為短視頻與AI的有機(jī)結(jié)合。

          本書內(nèi)容豐富,有很強(qiáng)的實(shí)用性和操作性,可以幫助讀者理解和掌握AI工具的使用,并學(xué)習(xí)如何根據(jù)不同受眾群體的文化背景,創(chuàng)作出具有吸引力和影響力的短視頻文案。無論你是短視頻創(chuàng)作者、營銷人員,還是對AI和數(shù)字內(nèi)容創(chuàng)作感興趣的讀者,本書都將為你提供利用AI創(chuàng)作方式的技巧,提升內(nèi)容質(zhì)量和文案寫作效率。


          機(jī)器學(xué)習(xí)算法AI大數(shù)據(jù)技術(shù)

           搜索公眾號添加: datanlp

          長按圖片,識別二維碼




          閱讀過本文的人還看了以下文章:


          整理開源的中文大語言模型,以規(guī)模較小、可私有化部署、訓(xùn)練成本較低的模型為主


          《大語言模型》PDF下載


          動手學(xué)深度學(xué)習(xí)-(李沐)PyTorch版本


          YOLOv9電動車頭盔佩戴檢測,詳細(xì)講解模型訓(xùn)練


          TensorFlow 2.0深度學(xué)習(xí)案例實(shí)戰(zhàn)


          基于40萬表格數(shù)據(jù)集TableBank,用MaskRCNN做表格檢測


          《基于深度學(xué)習(xí)的自然語言處理》中/英PDF


          Deep Learning 中文版初版-周志華團(tuán)隊(duì)


          【全套視頻課】最全的目標(biāo)檢測算法系列講解,通俗易懂!


          《美團(tuán)機(jī)器學(xué)習(xí)實(shí)踐》_美團(tuán)算法團(tuán)隊(duì).pdf


          《深度學(xué)習(xí)入門:基于Python的理論與實(shí)現(xiàn)》高清中文PDF+源碼


          《深度學(xué)習(xí):基于Keras的Python實(shí)踐》PDF和代碼


          特征提取與圖像處理(第二版).pdf


          python就業(yè)班學(xué)習(xí)視頻,從入門到實(shí)戰(zhàn)項(xiàng)目


          2019最新《PyTorch自然語言處理》英、中文版PDF+源碼


          《21個(gè)項(xiàng)目玩轉(zhuǎn)深度學(xué)習(xí):基于TensorFlow的實(shí)踐詳解》完整版PDF+附書代碼


          《深度學(xué)習(xí)之pytorch》pdf+附書源碼


          PyTorch深度學(xué)習(xí)快速實(shí)戰(zhàn)入門《pytorch-handbook》


          【下載】豆瓣評分8.1,《機(jī)器學(xué)習(xí)實(shí)戰(zhàn):基于Scikit-Learn和TensorFlow》


          《Python數(shù)據(jù)分析與挖掘?qū)崙?zhàn)》PDF+完整源碼


          汽車行業(yè)完整知識圖譜項(xiàng)目實(shí)戰(zhàn)視頻(全23課)


          李沐大神開源《動手學(xué)深度學(xué)習(xí)》,加州伯克利深度學(xué)習(xí)(2019春)教材


          筆記、代碼清晰易懂!李航《統(tǒng)計(jì)學(xué)習(xí)方法》最新資源全套!


          《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》最新2018版中英PDF+源碼


          將機(jī)器學(xué)習(xí)模型部署為REST API


          FashionAI服裝屬性標(biāo)簽圖像識別Top1-5方案分享


          重要開源!CNN-RNN-CTC 實(shí)現(xiàn)手寫漢字識別


          yolo3 檢測出圖像中的不規(guī)則漢字


          同樣是機(jī)器學(xué)習(xí)算法工程師,你的面試為什么過不了?


          前海征信大數(shù)據(jù)算法:風(fēng)險(xiǎn)概率預(yù)測


          【Keras】完整實(shí)現(xiàn)‘交通標(biāo)志’分類、‘票據(jù)’分類兩個(gè)項(xiàng)目,讓你掌握深度學(xué)習(xí)圖像分類


          VGG16遷移學(xué)習(xí),實(shí)現(xiàn)醫(yī)學(xué)圖像識別分類工程項(xiàng)目


          特征工程(一)


          特征工程(二) :文本數(shù)據(jù)的展開、過濾和分塊


          特征工程(三):特征縮放,從詞袋到 TF-IDF


          特征工程(四): 類別特征


          特征工程(五): PCA 降維


          特征工程(六): 非線性特征提取和模型堆疊


          特征工程(七):圖像特征提取和深度學(xué)習(xí)


          如何利用全新的決策樹集成級聯(lián)結(jié)構(gòu)gcForest做特征工程并打分?


          Machine Learning Yearning 中文翻譯稿


          螞蟻金服2018秋招-算法工程師(共四面)通過


          全球AI挑戰(zhàn)-場景分類的比賽源碼(多模型融合)


          斯坦福CS230官方指南:CNN、RNN及使用技巧速查(打印收藏)


          python+flask搭建CNN在線識別手寫中文網(wǎng)站


          中科院Kaggle全球文本匹配競賽華人第1名團(tuán)隊(duì)-深度學(xué)習(xí)與特征工程



          不斷更新資源

          深度學(xué)習(xí)、機(jī)器學(xué)習(xí)、數(shù)據(jù)分析、python

           搜索公眾號添加: datayx  



          瀏覽 154
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評論
          圖片
          表情
          推薦
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  五月丁香六月婷婷免费视频 | 九九九九九九九精品 | 欧美色色爱爱男人天堂 | 你懂的91| 91AV电影院 |