復(fù)旦NLP團(tuán)隊(duì)發(fā)布80頁(yè)大模型Agent綜述,一文縱覽AI智能體的現(xiàn)狀與未來(lái)
視學(xué)算法專(zhuān)欄
視學(xué)算法編輯部
智能體會(huì)成為打開(kāi) AGI 之門(mén)的鑰匙嗎?復(fù)旦 NLP 團(tuán)隊(duì)全面探討 LLM-based Agents。

-
論文鏈接:https://arxiv.org/pdf/2309.07864.pdf -
LLM-based Agent 論文列表:https://github.com/WooooDyy/LLM-Agent-Paper-List

-
控制端:通常由 LLMs 構(gòu)成,是智能代理的核心。它不僅可以存儲(chǔ)記憶和知識(shí),還承擔(dān)著信息處理、決策等不可或缺的功能。它可以呈現(xiàn)推理和計(jì)劃的過(guò)程,并很好地應(yīng)對(duì)未知任務(wù),反映出智能代理的泛化性和遷移性。 -
感知端:將智能代理的感知空間從純文本拓展到包括文本、視覺(jué)和聽(tīng)覺(jué)等多模態(tài)領(lǐng)域,使代理能夠更有效地從周?chē)h(huán)境中獲取與利用信息。 -
行動(dòng)端:除了常規(guī)的文本輸出,還賦予代理具身能力、使用工具的能力,使其能夠更好地適應(yīng)環(huán)境變化,通過(guò)反饋與環(huán)境交互,甚至能夠塑造環(huán)境。

-
高質(zhì)量文本生成:大量評(píng)估實(shí)驗(yàn)表明,LLMs 能夠生成流暢、多樣、新穎、可控的文本。盡管在個(gè)別語(yǔ)言上表現(xiàn)欠佳,但整體上具備良好的多語(yǔ)言能力。 -
言外之意的理解:除了直觀表現(xiàn)出的內(nèi)容,語(yǔ)言背后可能還傳遞了說(shuō)話者的意圖、偏好等信息。言外之意有助于代理更高效地溝通與合作,大模型已經(jīng)展現(xiàn)出了這方面的潛力。
-
擴(kuò)展 Backbone 架構(gòu)的長(zhǎng)度限制:針對(duì) Transformers 固有的序列長(zhǎng)度限制問(wèn)題進(jìn)行改進(jìn)。 -
總結(jié)記憶(Summarizing):對(duì)記憶進(jìn)行摘要總結(jié),增強(qiáng)代理從記憶中提取關(guān)鍵細(xì)節(jié)的能力。 -
壓縮記憶(Compressing):通過(guò)使用向量或適當(dāng)?shù)臄?shù)據(jù)結(jié)構(gòu)對(duì)記憶進(jìn)行壓縮,可以提高記憶檢索效率。
-
計(jì)劃制定(Plan Formulation):代理將復(fù)雜任務(wù)分解為更易于管理的子任務(wù)。例如:一次性分解再按順序執(zhí)行、逐步規(guī)劃并執(zhí)行、多路規(guī)劃并選取最優(yōu)路徑等。在一些需要專(zhuān)業(yè)知識(shí)的場(chǎng)景中,代理可與特定領(lǐng)域的 Planner 模塊集成,提升能力。 -
計(jì)劃反思(Plan Reflection):在制定計(jì)劃后,可以進(jìn)行反思并評(píng)估其優(yōu)劣。這種反思一般來(lái)自三個(gè)方面:借助內(nèi)部反饋機(jī)制;與人類(lèi)互動(dòng)獲得反饋;從環(huán)境中獲得反饋。
-
對(duì)未知任務(wù)的泛化:隨著模型規(guī)模與訓(xùn)練數(shù)據(jù)的增大,LLMs 在解決未知任務(wù)上涌現(xiàn)出了驚人的能力。通過(guò)指令微調(diào)的大模型在 zero-shot 測(cè)試中表現(xiàn)良好,在許多任務(wù)上都取得了不亞于專(zhuān)家模型的成績(jī)。 -
情景學(xué)習(xí)(In-context Learning):大模型不僅能夠從上下文的少量示例中進(jìn)行類(lèi)比學(xué)習(xí),這種能力還可以擴(kuò)展到文本以外的多模態(tài)場(chǎng)景,為代理在現(xiàn)實(shí)世界中的應(yīng)用提供了更多可能性。 -
持續(xù)學(xué)習(xí)(Continual Learning):持續(xù)學(xué)習(xí)的主要挑戰(zhàn)是災(zāi)難性遺忘,即當(dāng)模型學(xué)習(xí)新任務(wù)時(shí)容易丟失過(guò)往任務(wù)中的知識(shí)。專(zhuān)有領(lǐng)域的智能代理應(yīng)當(dāng)盡量避免丟失通用領(lǐng)域的知識(shí)。
-
將視覺(jué)輸入轉(zhuǎn)為對(duì)應(yīng)的文本描述(Image Captioning):可以被 LLMs 直接理解,并且可解釋性高。 -
對(duì)視覺(jué)信息進(jìn)行編碼表示:以視覺(jué)基礎(chǔ)模型 + LLMs 的范式來(lái)構(gòu)成感知模塊,通過(guò)對(duì)齊操作來(lái)讓模型理解不同模態(tài)的內(nèi)容,可以端到端的方式進(jìn)行訓(xùn)練。
-
Observation 可以幫助智能代理在環(huán)境中定位自身位置、感知對(duì)象物品和獲取其他環(huán)境信息; -
Manipulation 則是完成一些具體的抓取、推動(dòng)等操作任務(wù); -
Navigation 要求智能代理根據(jù)任務(wù)目標(biāo)變換自身位置并根據(jù)環(huán)境信息更新自身狀態(tài)。


-
在任務(wù)導(dǎo)向的部署中,代理幫助人類(lèi)用戶處理日常基本任務(wù)。它們需要具備基本的指令理解、任務(wù)分解、與環(huán)境交互的能力。具體來(lái)說(shuō),根據(jù)現(xiàn)有的任務(wù)類(lèi)型,代理的實(shí)際應(yīng)用又可以分為模擬網(wǎng)絡(luò)環(huán)境與模擬生活場(chǎng)景。 -
在創(chuàng)新導(dǎo)向的部署中,代理能夠在前沿科學(xué)領(lǐng)域展現(xiàn)出自主探究的潛力。雖然來(lái)自專(zhuān)業(yè)領(lǐng)域的固有復(fù)雜性和訓(xùn)練數(shù)據(jù)的缺乏給智能代理的構(gòu)建帶來(lái)了阻礙,但目前已經(jīng)有許多工作在化學(xué)、材料、計(jì)算機(jī)等領(lǐng)域取得了進(jìn)展。
-
在生命周期導(dǎo)向的部署中,代理具備在一個(gè)開(kāi)放世界中不斷探索、學(xué)習(xí)和使用新技能,并長(zhǎng)久生存的能力。在本節(jié)中,作者們以《我的世界》游戲?yàn)槔归_(kāi)介紹。由于游戲中的生存挑戰(zhàn)可以被認(rèn)為是現(xiàn)實(shí)世界的一個(gè)縮影,已經(jīng)有許多研究者將其作為開(kāi)發(fā)和測(cè)試代理綜合能力的獨(dú)特平臺(tái)。

-
當(dāng)所有代理自由地表達(dá)自己的觀點(diǎn)、看法,以一種沒(méi)有順序的方式進(jìn)行合作時(shí),稱(chēng)為無(wú)序合作。 -
當(dāng)所有代理遵循一定的規(guī)則,例如以流水線的形式逐一發(fā)表自己的觀點(diǎn)時(shí),整個(gè)合作過(guò)程井然有序,稱(chēng)為有序合作。

-
Instructor-Executor 模式:人類(lèi)作為指導(dǎo)者,給出指令、反饋意見(jiàn);而代理作為執(zhí)行者,依據(jù)指示逐步調(diào)整、優(yōu)化。這種模式在教育、醫(yī)療、商業(yè)等領(lǐng)域得到了廣泛的應(yīng)用。 -
Equal Partnership 模式:有研究觀察到代理能夠在與人類(lèi)的交流中表現(xiàn)出共情能力,或是以平等的身份參與到任務(wù)執(zhí)行中。智能代理展現(xiàn)出在日常生活中的應(yīng)用潛力,有望在未來(lái)融入人類(lèi)社會(huì)。

-
左側(cè)部分:在個(gè)體層面上,代理表現(xiàn)出多種內(nèi)化行為,例如計(jì)劃、推理和反思。此外,代理還顯現(xiàn)出內(nèi)在的人格特征,涵蓋認(rèn)知、情感和性格三個(gè)方面。 -
中間部分:單個(gè)代理可以與其他代理個(gè)體組成群體,共同展現(xiàn)出合作等群體行為,例如協(xié)同合作等。 -
右側(cè)部分:環(huán)境的形式可以是虛擬的沙盒環(huán)境,也可以是真實(shí)的物理世界。環(huán)境中的要素包括了人類(lèi)參與者和各類(lèi)可用資源。對(duì)于單個(gè)代理而言,其他代理也屬于環(huán)境的一部分。 -
整體互動(dòng):代理們通過(guò)感知外界環(huán)境、采取行動(dòng),積極參與整個(gè)交互過(guò)程。
-
個(gè)體行為構(gòu)成了代理自身運(yùn)作和發(fā)展的基礎(chǔ)。包括以感知為代表的輸入、行動(dòng)為代表的輸出,以及代理自身的內(nèi)化行為。 -
群體行為是指兩個(gè)以上代理自發(fā)交互時(shí)產(chǎn)生的行為。包括以協(xié)作為代表的積極行為、沖突為代表的消極行為,以及從眾、旁觀等中立行為。
-
認(rèn)知(Cognitive abilities):涵蓋了代理獲取和理解知識(shí)的過(guò)程,研究表明,基于 LLM 的代理在某些方面能夠表現(xiàn)出類(lèi)似于人類(lèi)的深思熟慮和智力水平。 -
情感(Emotional intelligence):涉及主觀感受和情緒狀態(tài),如喜怒哀樂(lè),以及表現(xiàn)出同情和共情的能力。 -
性格(Character portrayal):為了理解和分析 LLMs 的性格特征,研究人員利用了成熟的評(píng)測(cè)方式,如大五人格、MBTI 測(cè)試,以探究性格的多樣性和復(fù)雜性。
-
可視化:可以使用簡(jiǎn)單的 2D 圖形界面乃至復(fù)雜的 3D 建模來(lái)展示世界,以一種直觀的方式刻畫(huà)模擬社會(huì)的方方面面。 -
可擴(kuò)展性:可以構(gòu)建和部署各種不同的場(chǎng)景(Web、游戲等)進(jìn)行各種實(shí)驗(yàn),為代理提供了廣闊的探索空間。
? THE END
轉(zhuǎn)載請(qǐng)聯(lián)系本公眾號(hào)獲得授權(quán)
點(diǎn)個(gè)在看 paper不斷!
評(píng)論
圖片
表情
