<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          GPT-4不是世界模型,LeCun雙手贊同!ACL力證LLM永遠無法模擬世界

          共 4742字,需瀏覽 10分鐘

           ·

          2024-06-16 12:48



            新智元報道  

          編輯:桃子 喬楊
          【新智元導讀】大模型是世界模型嗎?UA微軟等機構(gòu)最新研究發(fā)現(xiàn),GPT-4在復雜環(huán)境的模擬中,準確率甚至不及60%。對此,LeCun激動地表示,世界模型永遠都不可能是LLM。

          一直以來,對LLM的支持觀點之一,就是模型可以集成海量事實知識,作為通往「世界模擬器」的基礎。
          雖然也有不少人提出反對,但沒有真憑實據(jù)。
          那么,LLM可以作為世界模擬器嗎?
          最近,亞利桑那大學、微軟、霍普金斯大學等機構(gòu)聯(lián)合發(fā)布了一篇論文,從實證的角度得出了否定的結(jié)論。
          最新研究已被ACL 2024頂會接收。

          論文地址:https://arxiv.org/pdf/2406.06485
          研究發(fā)現(xiàn),GPT-4在模擬基于常識任務的狀態(tài)變化時,比如燒開水,準確度僅有60%。
          論文認為,盡管GPT-4這樣的模型表現(xiàn)很驚艷,但如果沒有進一步創(chuàng)新,它就不能成為可靠的世界模型。
          為了量化LLM的規(guī)劃能力,作者提出了一個全新的基準測試——bytesized32-state-prediction,并在上面運行了GPT-4模型。
          基準測試的代碼和數(shù)據(jù)也已經(jīng)在GitHub上開源,可以幫助未來的研究繼續(xù)探查LLM的能力優(yōu)缺點。

          https://github.com/cognitiveailab/GPT-simulator
          一向?qū)ψ曰貧w語言模型無感的LeCun也轉(zhuǎn)發(fā)了這篇論文。
          他用了非常強硬的語氣表示,「沒有世界模型,就沒有規(guī)劃能力」。
          雖然如此,只憑一篇論文又怎么能平息LLM界的重大分歧?支持語言模型的網(wǎng)友很快就在評論區(qū)下面反駁LeCun——
          網(wǎng)友:目前的LLM能達到約60%的準確率(不專門為任務進行訓練),這至少是某種「世界模型」了,而且每一代LLM都在提升。

          LeCun:世界模型不會是LLM。

          網(wǎng)友:也許吧。但這并不意味著LLM內(nèi)部不存在某種(不準確的)世界模型。
          不過,在Hinton看來,AI已經(jīng)不再是僅僅依賴于過去,基于統(tǒng)計模型做下一個token的預測,而是展現(xiàn)出更高的「理解」能力。
          ?然而,大模型想要成為世界終極模擬器,還很遠。

          LLM是「世界模擬器」嗎?


          模擬世界,對于AI學習和理解世界至關重要。
          以往,多數(shù)情況下,可用模擬的廣度和深度受到現(xiàn)實的限制。因需要人類專家耗費數(shù)周,甚至數(shù)月的時間做大量的工作。
          而現(xiàn)在,大模型提供了一種替代的方法,即通過預訓練數(shù)據(jù)集中大量知識,獲得對世界的深刻理解。
          但是,它們準備好,直接用作模擬器了嗎?
          對此,這項研究的團隊在「文本游戲」這一領域,來檢驗這一問題。
          一般來說,在世界建模和模擬的背景下,應用LLM有兩種方式:一是神經(jīng)符號化方法;二是直接模擬。
          論文中,作者們首次對LLM直接模擬虛擬環(huán)境的能力,進行了量化分析。
          他們利用JSON模式的結(jié)構(gòu)化表示作為腳手架(scaffold),不僅提高了模擬精度,還可以直接探查LLM在不同領域的能力。
          結(jié)果發(fā)現(xiàn),GPT-4普遍無法捕捉與智能體行為無直接關聯(lián)的「狀態(tài)轉(zhuǎn)移」(state transition)。
          甚至還包括,涉及算術(shù)、常識,或科學推理的狀態(tài)轉(zhuǎn)移。
          在各種不同條件下,對于模擬一些復雜環(huán)境變化時,GPT-4的準確率不及59.9%。
          同時也表明,LLM還不足以可靠地充當世界模擬器。
          那么,研究人員具體如何實現(xiàn)的?

          研究方法


          在文本環(huán)境中,智能體通過自然語言,完成特定的目標。
          他們將文本的虛擬環(huán)境形式化,建模為一種馬爾可夫決策過程(POMDP),共有7個元組:S, A, T , O, R, C, D。
          其中,S表示狀態(tài)空間,A表示行動空間,T:S×A→S表示狀態(tài)轉(zhuǎn)移函數(shù),O表示觀測函數(shù),R:S×A→R表示獎勵函數(shù),C表示用自然語言描述目標和動作語義的「上下文信息」,D:S×A→{0,1}表示二元指示函數(shù),用0或1標記智能體是否完成任務。
          其中,上下文C為模型提供了除環(huán)境外的額外信息,比如行動規(guī)則、物體屬性、打分規(guī)則和狀態(tài)轉(zhuǎn)換規(guī)則等等。
          然后,研究人員還提出了一個預測任務,稱為LLM-as-a-Simulator(LLM-Sim),作為定量評估大模型作為可靠模擬器的能力的一種方法。
          LLM-Sim任務被定義為實現(xiàn)一個函數(shù) 作為世界模擬器,將給定的上下文、狀態(tài)和動作(即 )映射到后續(xù)的狀態(tài)、獎勵和游戲完成狀態(tài)(即 )。
          每個狀態(tài)轉(zhuǎn)移用如下的九元組表示:
          實際上,整個狀態(tài)轉(zhuǎn)換模擬器F,應該考慮兩種類型的狀態(tài)轉(zhuǎn)移:行為驅(qū)動和環(huán)境驅(qū)動的轉(zhuǎn)移。
          對于圖1中的示例,行為驅(qū)動的狀態(tài)轉(zhuǎn)移是在執(zhí)行「打開水槽」動作后,水槽被打開。而環(huán)境驅(qū)動的轉(zhuǎn)移是,當水槽打開時,水將填滿槽中的杯子。
          此外,LLM的預測模式也分為兩種:預測下一步的完整狀態(tài),或者預測兩個時刻之間的狀態(tài)差。
          為了更好地理解LLM對于每種狀態(tài)轉(zhuǎn)移的建模能力,研究人員進一步將模擬器函數(shù)F分解為三種類型:

          評估結(jié)果


          建模了LLM的決策過程后,作者也同樣用文本構(gòu)建了一個虛擬人物場景。
          Bytesized32-SP基準測試的數(shù)據(jù)來源于公開的Bytesized32語料庫,其中有32個人類編寫的文字游戲。
          留出一個游戲作為gold label后,測試集總共涉及31個游戲場景,7.6萬多個狀態(tài)轉(zhuǎn)換。
          LLM根據(jù)上下文和前一個狀態(tài)進行單步預測,給出下一步時的物體屬性、任務進展等信息。
          規(guī)則方面,研究人員也提出了三種設定:由游戲作者撰寫、由LLM自動生成,或者根本不提供規(guī)則。
          設定好虛擬環(huán)境和任務規(guī)則后,作者運行GPT-4進行預測得到了如下結(jié)果。
          為了嚴謹起見,作者根據(jù)狀態(tài)轉(zhuǎn)移前后預測結(jié)果是否變化,分成static和dynamic兩類分開統(tǒng)計。如果前后兩個狀態(tài)中,結(jié)果并沒有發(fā)生變化,LLM也會更容易預測。
          不出意料,static一欄的準確率基本都高于dynamic。
          對于「靜態(tài)」轉(zhuǎn)移,模型在預測狀態(tài)差時表現(xiàn)更好?!竸討B(tài)轉(zhuǎn)移」則相反,在完整狀態(tài)預測中得分更高。
          作者猜測,這可能是由于預測狀態(tài)差時需要減少潛在的格式錯誤,這會為任務輸出帶來額外的復雜性。
          還可以看到,預測動作驅(qū)動的狀態(tài)轉(zhuǎn)移的準確率往往高于環(huán)境驅(qū)動類。在dynamic欄,前者預測最高分有77.1,而后者最高只有49.7。
          此外,游戲規(guī)則如何制定會很大程度上影響LLM的表現(xiàn)。
          如果不提供游戲規(guī)則,LLM預測的性能會有明顯的大幅下降,但規(guī)則由人類制定或LLM自動生成并不會顯著影響準確率。
          相比之下,規(guī)則制定對游戲進度預測的影響更加明顯。
          相比人類規(guī)則,LLM生成規(guī)則時,GPT-4的預測有超過10個百分點的提升。難道真的是LLM之間更能相互理解?
          以上結(jié)果都只是針對LLM在不同設定下的性能比較。和人類預測相比,結(jié)果如何呢?
          為此,4位論文作者親自上陣和GPT-4一較高下。
          不知道李世石看到這個結(jié)果會不會有所安慰。人類的總體準確率在80%左右,遠高于GPT-4在50%附近徘徊的成績,這顯示了規(guī)劃能力上的重大差距。
          對于規(guī)劃任務中的單步預測模型,每一步的模擬誤差都會累積并向后傳播,單步的低性能會很大程度上影響全局表現(xiàn)。
          因此LLM較低的準確率說明了,它并不能成為可靠的「文本世界模擬器」。
          此外,人類準確率的波動幅度基本不大,說明任務設定比較簡單、直接,適合人類的思維模式。
          GPT-4這種較差的性能表現(xiàn)給我們提供了一個寶貴的機會,可以更具體地剖析LLM究竟在哪方面出現(xiàn)了能力缺陷。
          因此,論文作者將LLM的預測結(jié)果拆開仔細分析,發(fā)現(xiàn)在二元布爾值屬性上(is開頭的屬性),模型通常可以做得很好。
          預測表現(xiàn)比較糟糕的,通常是一些非平凡屬性,比如需要算術(shù)運算的temprature(溫度)、需要常識的current_aperture(當前照相機光圈),或者需要科學知識的on(燈泡是否打開)。
          相比之前的基準測試,這似乎更準確地暴露了LLM在常識和科學推理方面的缺陷。
          此外,這也能反映出模型一些行為的「偏執(zhí)」之處。
          在進行完整預測時,它通常過于關注動作驅(qū)動的狀態(tài)轉(zhuǎn)移而忽略了環(huán)境驅(qū)動,出現(xiàn)了很多「未改變值」的錯誤。但是可以在分開預測的結(jié)果中看到,這些錯誤是本可以避免的。
          作者提出,這篇文章的局限性之一是只使用了GPT模型進行測試,也許其他模型可以有不同的表現(xiàn)。
          這項研究的意義更在于基準測試的提出,為探索LLM在「世界模擬器」方面的潛力提供了一套可行的問題形式定義和測試流程。

          參考資料:

          https://x.com/ylecun/status/1801978192950927511

          https://arxiv.org/pdf/2406.06485




          瀏覽 21
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  激情爱爱网 | 思思精品热视频 | 国产高清毛片 | 日韩aaa | 99视频6 |