<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          玩轉(zhuǎn)「智能體魔方」!清華推出AgentSquare模塊化搜索框架,開啟AI智能體高速進化時代

          共 5930字,需瀏覽 12分鐘

           ·

          2024-11-07 19:11



            新智元報道  

          編輯:LRST 好困
          【新智元導讀】AI智能體能像有機生命一樣自適應演化嗎?最近清華大學團隊提出了AgentSquare模塊化智能體設計框架,通過標準化的模塊接口抽象,讓AI智能體可以通過模塊演化和重組高速進化,實現(xiàn)針對不同任務場景的自適應演進,賦能超越人類設計的智能體系統(tǒng)在多種評測數(shù)據(jù)集上廣泛自我涌現(xiàn)。


          優(yōu)秀基因的演化和重組,是生命體適應環(huán)境、永葆活力的自然法則。AI智能體能否像有機生命一樣,實現(xiàn)適應任務環(huán)境的高效自我演化?

          大模型智能體的快速發(fā)展在數(shù)學、醫(yī)療、個人助手等各領域產(chǎn)生了突破性應用,但依賴專家知識的手工設計方法制約了它們的任務自適應能力。如何實現(xiàn)AI智能體針對不同任務場景的高速自我演進一直是一個棘手的難題。

          圖1 AI智能體的自適應演進

          為了解決這一問題,清華大學數(shù)據(jù)科學與智能實驗室提出了「AgentSquare-智能體魔方」,推出了模塊化的智能體系統(tǒng)設計與搜索新范式。

          標準化的模塊接口抽象,使得任務規(guī)劃、常識推理、工具使用等經(jīng)典智能體模塊的重組如同「擰魔方」一般輕松。同時,演化產(chǎn)生的新穎模塊也可被直接組裝應用于其他智能體系統(tǒng)。

          在網(wǎng)頁、具身、工具、游戲等不同場景的六個基準數(shù)據(jù)集上測試,顯示AgentSquare均能高效發(fā)現(xiàn)顯著優(yōu)于已知人類設計的新穎智能體系統(tǒng)。「AgentSquare-智能體魔方」開啟了模塊化智能體設計搜索的「變形金剛」時代。

          項目代碼、模塊庫已進行全面開源,簡潔指令便可開啟AI智能體的高速進化。

          論文標題:AgentSquare: Automatic LLM Agent Search In Modular Design Space
          論文地址:https://arxiv.org/abs/2410.06153
          項目地址:https://tsinghua-fib-lab.github.io/AgentSquare_website/
          代碼倉庫:https://github.com/tsinghua-fib-lab/AgentSquare


          「AgentSquare-智能體魔方」——模塊化智能體設計的新范式


          AgentSquare的關鍵創(chuàng)新來自于模塊化設計空間的提出。研究團隊系統(tǒng)梳理了AI頂會的大量智能體研究,提煉出了16種經(jīng)典智能體設計,并將其歸納為一個模塊化智能體設計空間。

          在這個設計框架中,LLM智能體被簡化為四個核心模塊有機協(xié)作:任務規(guī)劃(Planning)、常識推理(Reasoning)、工具使用(Tool Use)和記憶學習(Memory)。

          研究團隊還對不同代碼框架進行了標準化整合,抽象出了標準化的模塊接口,讓每個模塊可以像擰魔方一樣輕松替換。樣,AgentSquare既能支持現(xiàn)有經(jīng)典設計的組合創(chuàng)新,也能加速新智能體模塊的高效探索。

          圖2 模塊化設計空間(左)與標準IO接口(右)

          這四個核心模塊各有分工:

          1. 任務規(guī)劃(Planning):將任務指令拆解為一系列子任務,提供清晰的行動指南
          2. 常識推理(Reasoning):引導智能體進行有條理的結構化推理,如「思維鏈」,提高推理準確度
          3. 工具使用(Tool Use):當內(nèi)部知識不夠時,選擇合適的外部工具輔助任務完成
          4. 記憶學習(Memory):記錄和管理智能體的經(jīng)驗,支持后續(xù)決策更高效

          基于這四大模塊,研究團隊設計了一個智能體工作流程模板(Agentic Workflow)。

          如圖2所示,智能體會先用任務規(guī)劃模塊將復雜任務指令分解成小步驟,逐步由常識推理模塊執(zhí)行子任務。

          當遇到知識盲區(qū)時,智能體就會借助工具使用模塊調(diào)用外部工具,同時記憶學習模塊保存相關經(jīng)驗,為后續(xù)任務提供支持。

          最終,子任務推理結果會轉(zhuǎn)化為實際行動,并在環(huán)境反饋的幫助下不斷優(yōu)化計劃,直到任務完成或達到嘗試上限為止。

          模塊化設計空間中的智能體搜索問題


          基于模塊化設計空間,AgentSquare帶來了一個新的研究課題——模塊化智能體搜索(MoLAS)。

          MoLAS的主要技術問題在于(1)如何快速找到適應任務的最優(yōu)模塊組合(2)如何發(fā)現(xiàn)新穎的、更優(yōu)的模塊設計。解決這一問題面臨著組合搜索空間龐大、新模塊設計缺乏指引以及智能體評測成本高昂的三大挑戰(zhàn)。

          圖3 模塊化智能體搜索問題(MoLAS)


          AgentSquare演化搜索——智能體「變形金剛」時代已來


          圖4 智能體設計的「變形金剛」時代

          為了應對MoLAS的挑戰(zhàn),研究團隊推出了AgentSquare演化搜索算法,包含三大核心功能:模塊重組、模塊進化和代理評測模型。

          圖5 AgentSquare框架——通過模塊進化和重組實現(xiàn)AI智能體高效自適應演化

          模塊重組(Module Recombination):組合經(jīng)典設計,優(yōu)化頂層架構

          考慮到智能體廣闊的設計空間,僅靠提示詞(或代碼)改寫的簡單策略只能在原有設計之上做微小調(diào)整,難以實現(xiàn)高效搜索。

          為此,AgentSquare引入了LLM作為「重組提議者」 (Recombination proposer LLM),基于對性能評測經(jīng)驗的深入分析,提出重組高性能模塊的智能體設計方案,模擬生命體重組優(yōu)秀基因的過程。

          模塊重組功能通過對智能體頂層架構的大幅優(yōu)化探索,實現(xiàn)遠超底層「提示詞改寫」的優(yōu)化演進速度。

          模塊進化(Module Evolution):積累底層變異,探索新穎設計

          僅通過重組現(xiàn)有模塊并不足夠,AgentSquare還引入了模塊進化功能,以便在代碼層級探索全新模塊的可能。

          該功能引入一個作為代碼編程者的LLM(Module-programming LLM)結合設計的模塊進化元提示(Evolutionary meta-prompt)來探索新的模塊設計,指導智能體生成新模塊的設計方案。

          通過模塊重組與進化,AgentSquare大幅拓展了設計空間的搜索范圍,并為智能體引入了更多創(chuàng)新性設計。

          代理評測模型(Surrogate Model):節(jié)省評測成本,加快優(yōu)化搜索

          在自動化智能體搜索過程中,一個重要挑戰(zhàn)是高昂的評測成本。

          例如,在ALFWorld評測數(shù)據(jù)集上,評測一個GPT-4驅(qū)動的「思維鏈」智能體需耗費近60美元。為了解決這一問題,AgentSquare引入了一個代理評測模型(Surrogate Model)來預測智能體性能。

          這個模型通過召回并對比相似智能體的歷史評測數(shù)據(jù),快速預測新智能體的表現(xiàn),從而篩選出性能較差的提案。實驗表明,代理模型的預測效果與實際評測接近,R-Square達到了0.95,且其token開銷僅為真實評測的0.025%

          圖6 「代理評測模型有效性驗證

          自適應演化搜索,涌現(xiàn)超人智能體設計


          為驗證AgentSquare的效果,研究團隊在四類智能體任務——網(wǎng)頁(Web)、具身(Embodied)、工具(Tool)和游戲(Game)——的六個基準測試上進行了大規(guī)模評測。結果顯示,AgentSquare發(fā)現(xiàn)的智能體在性能上全面超越了人類設計的最優(yōu)方案,平均性能提升達17.2%

          研究還表明,一些簡單的模塊搜索方法(如隨機組合和貝葉斯優(yōu)化)也能獲得優(yōu)異性能,這進一步證明了模塊化設計在智能體開發(fā)中的重要性。

          表1 與人工設計、模塊搜索及提示搜索基線的性能對比

          性能和成本的聯(lián)合分析顯示,AgentSquare不僅提高了智能體的表現(xiàn),還有效控制了推理成本。通過設計reward函數(shù)(如將token開銷納入搜索目標),AgentSquare能夠在性能和成本之間靈活權衡。

          圖7 Webshop任務中各智能體性能與API成本的關系

          此外,研究團隊對搜索過程進行了詳細分析,發(fā)現(xiàn)其他方法很快遇到性能瓶頸,而AgentSquare表現(xiàn)出更高效的搜索路徑和更低的評測成本。

          圖8 AgentSquare在Alfworld和Webshop任務中的搜索軌跡

          目前,AgentSquare在各項任務中生成的新模塊均已開源,方便后續(xù)研究者復用和優(yōu)化。AgentSquare不僅能靈活識別最適合任務需求的模塊組合,還能有效整合已有和創(chuàng)新模塊。

          如下圖所示,在具身任務ALFWorld中,AgentSquare設計了帶有時序依賴的planning模塊來優(yōu)化行動規(guī)劃,同時為reasoning模塊加入多鏈路推理和反思機制,大幅提升了智能體的決策準確性,有效捕捉到任務需求的關鍵點。

          圖9 AgentSquare搜索在各任務中發(fā)現(xiàn)的新模塊及性能最好的模塊組合

          匯集社區(qū)智慧,共創(chuàng)AI智能體新時代!


          AgentSquare通過標準化的模塊化設計空間和搜索框架,為大模型智能體的研究帶來了系統(tǒng)化和標準化的重要突破。
           
          更為關鍵的是,AgentSquare作為一個開源項目,將為智能體研究提供一個匯集社區(qū)智慧的平臺,研究者手工設計或搜索發(fā)現(xiàn)的新穎智能體設計可以作為新模塊被維護在開源代碼庫中,大幅降低經(jīng)典設計在廣泛任務上的應用門檻,助力智能體技術在更多應用場景中的創(chuàng)新與發(fā)展
          參考資料:
          https://arxiv.org/abs/2410.06153
          https://github.com/tsinghua-fib-lab/AgentSquare




          瀏覽 48
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  最新啪啪网址 | 爱爱一级 | 波多波多野吉衣中文无码 | 天天干天天橾 | 日日爽,夜夜爽,天天爽 |