<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          HUSKY:一個優(yōu)化大語言模型多步推理的新代理框架

          共 3248字,需瀏覽 7分鐘

           ·

          2024-07-04 17:39

             
          來源:Deephub Imba

          本文約2000字,建議閱讀5分鐘

          本文介紹了優(yōu)化大語言模型:HUSKY。???


          推理被高度認(rèn)可為生成人工智能的下一個前沿領(lǐng)域。通過推理,我們可以將任務(wù)分解為更小的子集并單獨(dú)解決這些子集。例如以前的論文:思維鏈、思維樹、思維骨架和反射,都是最近解決LLM推理能力的一些技術(shù)。此外推理還涉及一些外圍功能,例如訪問外部數(shù)據(jù)或工具。在最近的幾年里,我們已經(jīng)看到模型在特定的推理技術(shù)中表現(xiàn)得非常好,但它們無法跨領(lǐng)域推廣。這是Meta AI、Allen Institute of AI和University of Washington的研究人員在最近一篇論文中所要解決的問題。

          HUSKY是一個開源語言代理,設(shè)計(jì)用于處理各種復(fù)雜的任務(wù),包括數(shù)字、表格和基于知識的推理。與其他專注于特定任務(wù)或使用專有模型的代理不同,HUSKY在統(tǒng)一的框架內(nèi)運(yùn)行。它分為兩個階段:1、生成解決任務(wù)所需的下一個行動;2、它使用專家模型執(zhí)行此操作,并在此過程中更新解決方案。


          這個框架的名字來源于 “哈士奇”因?yàn)檠┣寥诶┣習(xí)r是一起來合作前進(jìn)的,并且在前進(jìn)的過程中要針對路面情況有自己的判斷和決定,這非常符合這個代理的工作思路。但是看到這個名字我總感覺這個代理不太聰明的樣子。


          HUSKY


          HUSKY采用詳細(xì)的行動計(jì)劃來處理復(fù)雜的任務(wù),它先生成下一步,其中包括所需的操作和工具。然后使用專門的模型執(zhí)行操作,更新解決方案狀態(tài)。這種方法允許HUSKY像經(jīng)典規(guī)劃系統(tǒng)一樣運(yùn)行,使用大型語言模型(llm)來優(yōu)化性能。


          對于需要多步推理的任務(wù),HUSKY預(yù)測下一個動作和相應(yīng)的工具,然后用專家模型執(zhí)行。這個過程一直持續(xù)到找到最終答案為止。HUSKY使用多個llm來協(xié)調(diào)專家模型,類似于一組哈士奇一起拉雪橇。

          HUSKY在生成動作和執(zhí)行動作之間迭代,直到達(dá)到終端狀態(tài)。動作生成器預(yù)測下一個高級步驟,并從預(yù)定義集合(代碼、數(shù)學(xué)、搜索或常識)中分配一個工具。根據(jù)指定的工具,HUSKY調(diào)用專家模型,執(zhí)行操作,并更新解決方案狀態(tài),可選擇將輸出轉(zhuǎn)換為自然語言。

          訓(xùn)練


          HUSKY的訓(xùn)練包括使用教師模型創(chuàng)建工具集成解決方案軌跡。這些軌跡有助于為動作生成器和專家模型構(gòu)建訓(xùn)練數(shù)據(jù)。訓(xùn)練管道是簡化和通用的,確保HUSKY可以處理廣泛的任務(wù),而無需任務(wù)特定的假設(shè)。


          推理


          在推理過程中,HUSKY集成其訓(xùn)練模塊來解決新的多步驟任務(wù)。動作生成器確定第一步和工具,然后將其傳遞給專家模型,由專家模型產(chǎn)生輸出。這個迭代過程一直持續(xù)到最終解決方案的實(shí)現(xiàn),專家模型為每一步提供特定的輸出。

          表現(xiàn)評估


          評估HUSKY包括測試其在復(fù)雜推理任務(wù)上的推理能力并對結(jié)果進(jìn)行評分。現(xiàn)有數(shù)據(jù)集通常缺乏HUSKY所需工具的多樣性,因此作者創(chuàng)建了一個新的評估集HUSKYQA來測試混合工具推理。這組任務(wù)包括需要檢索缺失的知識和執(zhí)行數(shù)值推理的任務(wù)。盡管使用較小的模型,但HUSKY匹配或超過了GPT-4等前沿模型,證明了它的有效性。

          在需要多步驟推理和工具使用的各種任務(wù)中,HUSKY與其他基線語言代理一起接受了訓(xùn)練和評估。這些任務(wù)的一半用于根據(jù)工具集成解決方案路徑訓(xùn)練HUSKY的模塊,而另一半用于測試訓(xùn)練結(jié)果。最后的驗(yàn)證階段則都是用零樣本的方式進(jìn)行評估。

          1、數(shù)值推理任務(wù)

          數(shù)值推理任務(wù)包括從小學(xué)到高中比賽水平的數(shù)學(xué)數(shù)據(jù)集。這些數(shù)據(jù)集包括GSM-8K、MATH、Google DeepMind數(shù)學(xué)任務(wù)和MathQA,都取自LILA基準(zhǔn)。對于Google DeepMind數(shù)學(xué),重點(diǎn)是代數(shù)、基礎(chǔ)數(shù)學(xué)、微積分、乘法/除法和數(shù)論子集。對于MathQA,子集包括增益、通用、幾何、物理和概率。使用GSM-8K和MATH進(jìn)行訓(xùn)練,總共提供13.7K的工具集成解決方案路徑。

          2、表格推理任務(wù)

          表格推理任務(wù)涉及TabMWP,一個表格數(shù)學(xué)問題的數(shù)據(jù)集,F(xiàn)inQA和TAT-QA,這兩個數(shù)據(jù)集都是金融問答數(shù)據(jù)集,以及MultimodalQA的測試問題子集,這需要理解文本和表格數(shù)據(jù)。TabMWP和FinQA用于訓(xùn)練和評估,TAT-QA和MultimodalQA用于評估。這些數(shù)據(jù)集總共提供了7.2萬個工具集成的解決方案路徑。

          3、基于知識的推理任務(wù)

          基于知識的推理任務(wù)包括HotpotQA、CWQ、musque、Bamboogle和StrategyQA。HotpotQA和Bamboogle用于評估,CWQ和musque用于訓(xùn)練,兩者都使用StrategyQA。這個集合產(chǎn)生了總共7K個工具集成的解決方案路徑。

          4、評估模型

          評估包括以下模型:

          動作生成器:對于動作生成器,采用了LLAMA-2-7B, 13B和LLAMA-3-8B。從訓(xùn)練集中刪除了不正確的解決方案路徑,從而在數(shù)字、表格、基于知識和混合工具的推理任務(wù)中產(chǎn)生了110K個實(shí)例。動作生成器在這個多任務(wù)訓(xùn)練集上進(jìn)行了充分的微調(diào)。

          代碼生成器:以其強(qiáng)大的編碼能力而聞名的deepseekcode - 7b - instruct - v1.5模型被選為微調(diào)代碼生成器。使用正確的解決方案路徑提取所有必要的代碼,從而產(chǎn)生用于訓(xùn)練的44K代碼實(shí)例。

          數(shù)學(xué)推理器:選擇DEEPSEEKMATH-7B-INSTRUCT模型是因?yàn)樗哂邢冗M(jìn)的數(shù)學(xué)推理能力。正確的解決方案路徑為微調(diào)數(shù)學(xué)推理器提供了30K數(shù)學(xué)解決方案實(shí)例。

          查詢生成器:查詢生成器使用LLAMA-2-7B作為基本模型。正確的解決方案路徑產(chǎn)生22K搜索查詢實(shí)例,用于微調(diào)查詢生成器。

          結(jié)果如下:


          可以看到HUSKY通過整合不同的高效模型,并為不同的任務(wù)分配了不同的專家代理,為復(fù)雜的推理任務(wù)提供了一個通用的、開源的解決方案。它的整體方法,將行動生成和執(zhí)行與專家模型相結(jié)合,使其能夠有效地處理各種挑戰(zhàn)。從各種評估中可以看出,HUSKY赫斯基的表現(xiàn)突出了其重新定義語言代理如何解決復(fù)雜問題的潛力。

          論文地址:https://arxiv.org/abs/2406.06469v1

          代碼:https://github.com/agent-husky/husky-v1


          編輯:王菁

          瀏覽 47
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  天天射综合网站 | 色色中文字幕 | 超碰人人摸人人草 | 久久综合色气网站 | www.黄色av |