<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          首個大推理模型(LRM) - OpenAI o1規(guī)劃任務(wù)能力評測

          共 7131字,需瀏覽 15分鐘

           ·

          2024-10-16 07:00

          規(guī)劃一系列行動以實現(xiàn)期望狀態(tài)的能力,長期以來被認為是智能體的核心能力,并且自AI研究誕生以來一直是其不可分割的一部分。隨著大型語言模型(LLMs)的出現(xiàn),人們對于它們是否擁有此類規(guī)劃能力產(chǎn)生了相當大的興趣。PlanBench是我們在2022年開發(fā)的一款可擴展基準測試工具,自GPT3發(fā)布后不久首次亮相,它一直是評估LLMs規(guī)劃能力的重要工具。盡管自GPT3以來出現(xiàn)了許多新的私有和開源LLMs,但在這個基準測試上的進步卻出奇地緩慢。OpenAI聲稱他們最近的o1(草莓)模型專門構(gòu)建和訓(xùn)練,以擺脫自回歸LLMs的常規(guī)限制——使其成為一種新型模型:大型推理模型(LRM)。利用這一發(fā)展作為催化劑,本文全面審視了當前LLMs和新型LRMs在PlanBench上的表現(xiàn)。正如我們將看到的,盡管o1的表現(xiàn)在基準測試上是一個巨大的進步,超越了競爭對手,但仍然遠未達到飽和。這一進步也引發(fā)了關(guān)于準確性、效率和保證的問題,這些問題在部署這類系統(tǒng)之前必須考慮。

          我們翻譯解讀最新論文:LLMs仍然無法規(guī)劃,文末有論文鏈接。作者:張長旺,圖源:旺知識

          1 引言

          OpenAI最近發(fā)布的o1(草莓)[2]帶來了重新評估PlanBench進展的機會,并考慮擴展基準測試的方向。特別是,與之前的LLMs不同,后者大致可以被視為近似檢索器,o1似乎被訓(xùn)練成一個近似推理者。按照OpenAI的說法,我們將之前的大型語言模型與o1區(qū)分開來,后者是一種大型推理模型(或LRM),因為它的新(未知)架構(gòu)、操作和能力似乎在預(yù)訓(xùn)練階段和推理時都與普通LLMs有根本的不同。為了適當評估這種新型模型并理解其能力和局限性,將需要新的工具和評估方法,特別是如果整體模型結(jié)構(gòu)的細節(jié)保密,內(nèi)部跟蹤對外部研究人員不可見的話。

          自PlanBench于2022年首次在arXiv上亮相以來,我們一直在對一個特定子集進行重新測試:一個靜態(tài)數(shù)據(jù)集,包含600個三到五個塊的問題。盡管LLMs變得越來越大,每個模型的投資也越來越多,但它們在最簡單的規(guī)劃問題上的表現(xiàn)從未接近飽和這個測試集,我們所看到的進步并不穩(wěn)健或可推廣。因此,我們的基準測試成為了衡量LLMs在規(guī)劃和推理任務(wù)上進展(或缺乏進展)的有用標志,盡管需要注意的是,這種分析——尤其是當局限于靜態(tài)測試集時——只能作為性能的上限。當我們最初設(shè)計PlanBench時,它的意圖不僅僅是這個集合,而是成為一個可擴展的工具套件,用于評估LLMs的規(guī)劃能力。現(xiàn)在LRMs在原始測試集的某些部分上得分如此之高,這些工具對于未來的評估將變得更加重要。

          在這次初步評估中(撰寫本文時,o1-preview和o1-mini發(fā)布僅一周,完整的o1模型尚未發(fā)布),我們檢查了這些新型大型推理模型所承諾的性能提升。我們記錄了自基準測試發(fā)布以來LLMs性能的緩慢進展,討論了o1的性能,然后探討了如何擴展PlanBench的領(lǐng)域和測試,以保持作為LRMs的相關(guān)度量。我們認為,為了完整,衡量LRM推理能力的新型方法必須考慮到效率、成本和保證。

          2 現(xiàn)有的最先進LLMs仍然無法規(guī)劃:

          PlanBench對于現(xiàn)有的最先進LLMs(通過RLHF微調(diào)的龐大變換器模型)來說仍然是一個挑戰(zhàn),它們在我們最簡單的測試集上的表現(xiàn)不佳,使我們繼續(xù)相信規(guī)劃不能僅僅通過近似檢索來一般性和穩(wěn)健地解決。在表1中,我們展示了當前和之前的LLMs在靜態(tài)測試集上的表現(xiàn),該測試集包含600個語義相同但句法混淆的實例,我們稱之為神秘Blocksworld。在這些模型中,常規(guī)Blocksworld上的最佳表現(xiàn)是由LLaMA 3.1 405B實現(xiàn)的,準確率為62.6%。盡管底層問題相同,但神秘Blocksworld的表現(xiàn)卻遠遠落后——沒有LLMs在我們的測試集上達到甚至5%——并且一個版本的領(lǐng)域的表現(xiàn)并不能清楚地預(yù)測另一個版本的表現(xiàn)。

          在原始論文中,我們測試了自然語言提示和PDDL,發(fā)現(xiàn)當在前者上測試時,普通語言模型的表現(xiàn)更好,盡管自然語言提示可能會引入由于多義性和句法歧義而產(chǎn)生的不確定性。為了使對被測試模型的比較“公平”,我們一直在報告的是更高的準確率自然語言提示數(shù)字。

          LLMs非常擅長提供等價表示之間的翻譯。這一事實,加上它們在未混淆版本的Blocksworld領(lǐng)域上的顯著更高表現(xiàn),預(yù)測如果明確提供從神秘Blocksworld回譯到Blocksworld的翻譯,神秘Blocksworld和經(jīng)典Blocksworld之間的性能差距應(yīng)該會大幅度縮小。然而,當我們在提示中提供這一點時(見附錄C),性能只提高了很小的幅度:GPT-4達到了10%。

          我們還發(fā)現(xiàn),與之前的聲明相反,一次提示并不是零次提示的嚴格改進。事實上,對于許多模型來說,一次提示似乎表現(xiàn)得更糟!這一點在我們測試的LLaMA系列模型中尤為明顯。

          包括我們在內(nèi)的許多研究人員都認為,“標準”自回歸LLMs通過近似檢索生成輸出,并且,盡管它們在一系列系統(tǒng)1任務(wù)上表現(xiàn)出令人印象深刻的表現(xiàn),但它們不太可能實現(xiàn)對規(guī)劃任務(wù)至關(guān)重要的更系統(tǒng)2類的近似推理能力。到目前為止,從LLMs中誘導(dǎo)出健全規(guī)劃能力的最好方法是將它們與外部驗證器配對,在生成-測試框架中,

          所以這些結(jié)果并沒有提供太清晰的圖景。大多數(shù)模型在零次提示模式下甚至沒有解決一個實例,只有一個(LLaMA 3.1 405B)解決了多個。

          圖1:這些例子來自神秘Blocksworld。Fast Downward,一個領(lǐng)域無關(guān)的規(guī)劃器[8],幾乎瞬間解決了所有給定的實例,并保證了完美的準確性。LLMs甚至在最小的實例上也掙扎。我們測試的兩個LRMs,o1-preview和o1-mini,出奇地有效,但這種表現(xiàn)仍然不穩(wěn)定,并且隨著長度的增加迅速下降。

          表2:OpenAI的o1系列大型推理模型和Fast Downward在Blocksworld、神秘Blocksworld和隨機神秘Blocksworld領(lǐng)域600個實例上的表現(xiàn)和平均耗時。

          我們最初的基準測試迭代沒有考慮效率,因為普通LLM產(chǎn)生一些輸出所需的時間只取決于該輸出的長度,而與實例的語義內(nèi)容或難度無關(guān)。然而,由于LRMs根據(jù)輸入適應(yīng)性地改變它們每個實例的耗時和美元成本,測量效率變得重要得多。作為LRMs和LLMs之間的比較點,我們計算了模型間的提示成本,并在表4中展示。

          3 從近似檢索到近似推理:評估o1

          許多研究人員,包括我們,一直認為“標準”自回歸LLMs通過近似檢索生成輸出,并且,盡管它們在一系列系統(tǒng)1任務(wù)上表現(xiàn)出令人印象深刻的表現(xiàn),但它們不太可能實現(xiàn)對規(guī)劃任務(wù)至關(guān)重要的更系統(tǒng)2類的近似推理能力。到目前為止,從LLMs中誘導(dǎo)出健全規(guī)劃能力的最好方法是將它們與外部驗證器配對,在生成-測試框架中,這被稱為LLM-Modulo系統(tǒng)[10, 11]。o1試圖以不同的方式補充底層LLM與系統(tǒng)2類能力。

          據(jù)我們所知,o1將底層LLM(很可能是修改版的GPT-4o)與一個通過RL訓(xùn)練的系統(tǒng)結(jié)合起來,指導(dǎo)創(chuàng)建、策展和最終選擇私有推理鏈條。目前細節(jié)尚不清楚,因此我們只能推測它的確切機制。我們最好的猜測是o1與LLMs有兩個主要區(qū)別:一個額外的強化學(xué)習(xí)預(yù)訓(xùn)練階段(也許是為了從大量合成數(shù)據(jù)中學(xué)習(xí)不同推理鏈條的q值),以及一個新的自適應(yīng)推理過程(也許它通過類似滾動的方式進一步完善學(xué)習(xí)到的q值,然后選擇特定的推理鏈條;見[3])。不管怎么樣,從目前可用的細節(jié)來看,這個模型的性質(zhì)與以前的LLMs有根本的不同。

          在原始測試集上評估LRMs:我們在靜態(tài)PlanBench測試集上測試了o1-preview和o1-mini。完整結(jié)果可見表2。我們的600個Blocksworld實例范圍從三個到五個塊,需要2到16步的計劃來解決。遠遠超過任何LLM,o1正確回答了這些實例中的97.8%。在神秘Blocksworld上,模型沒有保持這種水平的表現(xiàn),但它確實遠遠超過了所有以前的模型,正確回答了52.8%。為了測試確切的混淆可能因為數(shù)據(jù)污染而受到損害,我們還使用完全隨機的字符串生成了新的混淆,并以新的、語義上等效的提示格式呈現(xiàn)這些問題,在這種格式中,領(lǐng)域和問題都使用了完全指定且不含糊的PDDL描述。這在表中被呈現(xiàn)為隨機神秘Blocksworld。雖然性能進一步下降,但有37.3%的實例被正確回答,與我們在測試以前的模型時看到的零形成鮮明對比。

          隨著問題規(guī)模的增加,準確性如何變化:標準的LLM鏈式推理提示方法在問題規(guī)模上是脆弱的,無法穩(wěn)健地擴展,并且未能誘導(dǎo)出一般算法程序遵循[6]。我們在一組更大的Blocksworld問題上測試了模型。這個問題集包含110個實例,范圍從6到20個塊,需要20到40步的最優(yōu)計劃。沒有任何混淆,我們可以看到性能迅速下降,從前面報告的97.8%下降。實際上,在這些110個實例中,o1-preview只管理了23.63%,其中大部分準確性來自于正確解決需要不到28步的問題。雖然這些模型總體上給人印象深刻,但這也表明它們的性能仍然遠未穩(wěn)健。

          無法解決實例上的表現(xiàn):雖然規(guī)劃問題通常要求智能體制定一系列行動來實現(xiàn)目標,但規(guī)劃能力的另一個同樣有效的用途是識別給定目標無法通過任何計劃實現(xiàn)。現(xiàn)實世界中的一個例子是網(wǎng)絡(luò)安全漏洞分析,智能體可能希望證明沒有針對指定系統(tǒng)的攻擊計劃[13]。到目前為止,LLMs在識別一些問題無法解決方面一直存在困難,而是自信地編造出無意義的答案。o1推出時聲稱它已經(jīng)開始克服這個問題,并且現(xiàn)在可以準確地識別出無法解決的問題[14]。為了系統(tǒng)地測試這一點,我們修改了原始三到五個塊測試集中的100個實例,通過在每個實例的目標狀態(tài)中添加一個on(x,y)類型的連接詞,使目標無法滿足。結(jié)果在表3中。在Blocksworld中,只有27%的所有實例被o1正確并明確地識別為無法解決。在19%的所有情況下,模型返回了一個點或某種“[空計劃]”標記,沒有任何解釋或表示無法解決的跡象。我們認為這些是不正確的,因為“空計劃”只有在目標已經(jīng)滿足時才是正確的答案。在剩下的54%的情況下,模型生成了一個完整的(因此是不可能的和不正確的!)計劃。

          在隨機神秘Blocksworld中,這些數(shù)字更糟:16%的案例被正確識別為無法解決,5%返回了一個空計劃,其余的79%被回答了一個完整的(不可能或目標滿足的)計劃。因此,無法解決的實例仍然是LRMs的問題。此外,這種有時正確指出不可能計劃的能力是有代價的:現(xiàn)在模型有時會錯誤地聲稱可解決的問題實際上是無法解決的。在隨機神秘Blocksworld中,11.5%的實例被錯誤地聲稱為不可能。這些結(jié)果可以在表3中看到。

          表3:OpenAI的o1-preview在Blocksworld和隨機神秘Blocksworld領(lǐng)域100個無法解決和600個可解決實例上聲稱一個問題是無法解決的比率。真陰性率是正確標記為無法解決的無法解決實例的百分比。假陰性率是錯誤地被標記為無法解決的可解決實例的百分比。以前的模型通常在整個測試中真陰性和假陰性率都是0%。

          我們確保我們的實例是明確的,提供了完整的PDDL表示,包括領(lǐng)域和實例,以避免像“由于A在C上,并且C在B上,A在B上”這樣的歧義,模型重新定義了含糊不清的自然語言陳述的含義。

          表4:每100實例的成本(以美元計)。LRMs比LLMs明顯更昂貴。

          準確性/成本權(quán)衡和保證:由于LRMs在規(guī)劃問題上表現(xiàn)出更好的性能,我們的評估必須明確考慮到選擇通用模型而不是既定的深度和狹窄系統(tǒng)所帶來的權(quán)衡。雖然o1-preview可能比LLMs提供更高的準確性,但它仍然無法提供任何正確性保證,并且它是否具有成本效益也不清楚。與以前的模型不同,以前的模型的API只根據(jù)輸入令牌的數(shù)量和輸出令牌的數(shù)量收費(通常后者的費率是前者的五倍),o1的每次調(diào)用價格包括基于它使用的“推理令牌”數(shù)量的附加費——這些令牌是在推理過程中生成的,并且不向用戶顯示——并以更高的輸出令牌費率收費。目前,最終用戶無法控制生成的這些令牌的數(shù)量,這個數(shù)量以模型自己的不透明方式擴大或限制。由于這些模型發(fā)布不到一周,我們僅僅在這項基準測試上的o1模型實驗就已經(jīng)累積了1897.55美元的賬單!

          我們能夠訪問的o1-preview的早期版本似乎在每個問題上使用的推理令牌數(shù)量有限,如圖2和附錄4中的散點圖更清晰地看到的那樣。這可能會人為地降低了總成本和最大性能。如果完整的o1版本取消了這個限制,這可能會提高整體準確性,但這也可能導(dǎo)致更不可預(yù)測的(和荒謬的高!)推理成本。o1-mini更便宜,但通常性能較差。

          沒有暴露出將推理時間擴展到特定規(guī)格的能力,以任務(wù)特定的方式影響內(nèi)部“思考”過程,或確保中間步驟由受信任的或健全的驗證器評估,o1模型是在成本、推理時間、保證和性能權(quán)衡空間中的粗粒度選擇。然而,它們并不是該空間中唯一的選擇,合理的LRM評估必須考慮到這一點(見[15, 16]中的類似論點)。

          經(jīng)典規(guī)劃器如Fast Downward[8]在我們的數(shù)據(jù)集上達到了100%的準確率,計算和成本只是一小部分,同時提供了它們的答案正確的保證。在個人電腦上運行Fast Downward在美元術(shù)語


          上基本上是免費的,平均每實例0.265秒,比表2中列出的平均o1時鐘時間快幾個數(shù)量級。它也是一般可預(yù)測的,并且可以直接擴展到更難的實例。普通的LLMs通常非常擅長在格式之間轉(zhuǎn)換問題,并且可以以LRMs成本的一小部分與經(jīng)典規(guī)劃器一起使用(例如[7])。對于沒有簡單的PDDL領(lǐng)域和實例規(guī)范的問題,LLM-Modulo系統(tǒng)可能是一個更安全、更便宜的方法:在一個循環(huán)中運行一個更小、更快的LLM與健全的驗證器一起,以便組合系統(tǒng)只輸出保證正確的解決方案(例如[10, 18, 11])。以前的測試表明,這種LLM-Modulo方法已經(jīng)能夠在我們的原始Blocksworld測試集的一個子集上達到82%的準確率,以及在物流領(lǐng)域達到70%(見[19]的結(jié)果部分的表4)。

          后兩種方法提供的準確性保證在像o1這樣的LRMs中嚴重缺乏。如果一個通用推理系統(tǒng)繼續(xù)自信地制定錯誤的計劃,那么它就不能被部署在安全關(guān)鍵和非遍歷領(lǐng)域。o1是一個完全的黑匣子系統(tǒng),甚至比之前的模型更甚,OpenAI決定不僅要對架構(gòu)保密,隱藏推理跟蹤,而且要警告甚至禁止任何試圖理解它們內(nèi)部發(fā)生了什么的人[5],這使得可解釋性幾乎是不可能的,并且降低了對系統(tǒng)的整體信任。

          o1的創(chuàng)造性理由:雖然我們的主要關(guān)注點是對o1在PlanBench上的性能進行定量評估,但我們也注意到了o1的一個特殊怪癖,值得評論。當模型給出一個錯誤答案時,它有時也會提供一個創(chuàng)造性的,但無意義的理由來解釋它的決定。幾乎就像o1已經(jīng)從幻覺變成了心理操縱!在一種情況下,它認為一個無法解決的問題是可以解決的,因為一個目標條件,雖然沒有出現(xiàn)在最終狀態(tài),但在執(zhí)行過程中的某個時刻曾經(jīng)是真的,因此應(yīng)該繼續(xù)算數(shù)。在另一種情況下,它宣稱on(a,c)是真的,因為它在括號中簡短地解釋說,a在b上,b在c上,因此a在某個地方在c上面,這應(yīng)該算作被“放在”它上面。正如我們前面提到的,我們改變了無法解決的實例提示,從自然語言變?yōu)镻DDL,以非常清楚地表明,不允許偏離我們的確切定義。

          4 結(jié)論

          我們重新審視了SOTA LLMs的規(guī)劃能力,并檢驗了OpenAI的新o1模型在PlanBench上的表現(xiàn)。隨著時間的推移,LLMs在普通Blocksworld上的表現(xiàn)有所提高——表現(xiàn)最好的模型,LlaMA 3.1 405B,達到了62.5%的準確率。然而,它們在混淆(“神秘”)版本的同一領(lǐng)域的糟糕表現(xiàn)暴露了它們本質(zhì)上的近似檢索性質(zhì)。相比之下,新的o1模型,我們稱之為LRMs(大型推理模型)——按照OpenAI自己的描述——不僅幾乎飽和了原始小型實例Blocksworld測試集,而且在混淆版本上也顯示出了進展。受到鼓舞,我們還評估了o1在更長問題和無法解決實例上的性能,發(fā)現(xiàn)這些準確性提升并不普遍或穩(wěn)健。我們還討論了由于o1使用(和收費)大量的推理時間計算,而帶來的關(guān)鍵準確性/效率權(quán)衡,以及它如何與基于LLM的方法(如LLM-Modulo[10])和專用求解器進行比較。我們希望這篇研究筆記能夠很好地展示LLMs和LRMs的規(guī)劃能力,以及對它們進行現(xiàn)實評估的有用建議。

          作者:張長旺,圖源:旺知識

          參考資料

          標題:LLMS STILL CAN’T PLAN; CAN LRMS? A PRELIMINARY EVALUATION OF OPENAI’S O1 ON PLANBENCH

          作者:Karthik Valmeekam, Kaya Stechly, Subbarao Kambhampati

          單位:SCAI, Arizona State University

          標簽:人工智能、機器學(xué)習(xí)、大型語言模型、規(guī)劃能力

          概述:這篇文章評估了OpenAI最新大型推理模型o1在規(guī)劃任務(wù)上的表現(xiàn),并與傳統(tǒng)的大型語言模型進行了比較。

          鏈接:https://arxiv.org/abs/2409.13373


          瀏覽 173
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  亚洲视频小说 | 中文字幕一区二区三区四区五区 | 99日韩视频 | 黄色一级日本品 | 麻豆久久久久久久久91 |