<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          驚呆了!訓(xùn)練7萬小時后,OpenAI的模型竟然學會在「我的世界」里刨木頭

          共 2415字,需瀏覽 5分鐘

           ·

          2022-06-27 17:30



            新智元報道  

          編輯:好困 拉燕 袁榭

          【新智元導(dǎo)讀】2022年6月,OpenAI發(fā)表論文稱用「視頻預(yù)訓(xùn)練模型」,讓AI學會了在「我的世界」里從頭開始造石鎬。


          最近,似乎早已把GPT拋在腦后的OpenAI又整了個新活。

          在經(jīng)過海量無標注視頻以及一點點標注過的數(shù)據(jù)訓(xùn)練之后,AI終于學會了在「我的世界」(Minecraft)里制作鉆石鎬。

          而整套流程需要一個骨灰級玩家至少20分鐘的時間才能完成,總計要操作24000次。

          這個東西吧,看似簡單,但對AI來說卻非常困難。

          7歲小孩看10分鐘就能學會


          對于最簡單的木鎬,讓人類玩家從頭開始學過程并不太難。

          一個死宅不到3分鐘用單個視頻就能教會下一個。

          演示視頻全長2分52秒

          然而,鉆石鎬的制作就復(fù)雜多了。

          不過即便如此,一個7歲小孩也只需看上十分鐘的演示視頻,就能學會了。

          這個任務(wù)的難點,主要在如何挖到鉆石礦。

          過程大概可以概括為12個步驟:先徒手刨下像素塊「木頭」,再由原木合成木塊,木塊制作木棍,木棍制作工坊裝具臺,工臺造木鎬,木鎬敲石塊,石塊加木棍做石鎬,石鎬打造煉爐,煉爐加工鐵礦,鐵礦熔鑄鐵錠,鐵錠制作鐵鎬,鐵鎬去挖鉆石。

          現(xiàn)在,壓力來到了AI這邊。

          正巧,CMU、OpenAI、DeepMind、Microsoft Research等機構(gòu)自2019年起,就搞了一個相關(guān)的比賽——MineRL。

          參賽選手需要自研出一個「自主從零開始打造工具、自動尋找并挖掘鉆石礦」的人工智能體,而獲勝條件也很簡單—最快者勝出。

          結(jié)果如何?

          在首屆MineRL比賽結(jié)束之后,「7歲小孩看10分鐘視頻就學會,AI用了8百萬步還搞不定」,可是上了Nature雜志的。

          數(shù)據(jù)雖多,但我用不上啊


          「我的世界」作為沙盒建筑游戲,其玩家策略、游戲內(nèi)虛擬環(huán)境的高開放性,特別適合作為各種AI模型學習、決策能力的測試場和試金石。

          而且作為一款「國民級」的游戲,想在網(wǎng)上找到和「我的世界」相關(guān)的視頻簡直易如反掌。

          然而,不管是搭建教程,還是炫耀自己的作品,從某種程度上來說都只是在畫面上呈現(xiàn)出的結(jié)果。

          換句話說,看視頻的人只能知道up主干了個啥,干的怎么樣,但沒法知道是怎么干的。

          更具體點,電腦屏幕上呈現(xiàn)出來的只是結(jié)果,而操作步驟是up主在鍵盤上的不停點擊,以及鼠標的不停移動,這部分是看不到的。

          甚至,連這個過程都是經(jīng)過剪輯的,人看了估計都學不會,更別說AI了。

          雪上加霜的是,不少玩家抱怨在游戲里刨木頭的枯燥度,太像做作業(yè)完成任務(wù)。結(jié)果一波更新之后,有不少工具可以直接白撿……這下,連數(shù)據(jù)都不好找了。

          而OpenAI想要讓AI學會玩兒「我的世界」,就必須找到一個辦法,能夠讓這些海量的未標注的視頻數(shù)據(jù)派上用場。

          視頻預(yù)訓(xùn)練模型——VPT


          于是,VPT應(yīng)運而出。

          論文地址:https://cdn.openai.com/vpt/Paper.pdf

          這東西說新也新,但是卻并不復(fù)雜,是一種半監(jiān)督式的模仿學習方法。

          首先,收集一波數(shù)據(jù)標注外包們玩游戲的數(shù)據(jù),其中包含視頻和鍵鼠操作的記錄。

          VPT方法概述

          然后,研究人員用這些數(shù)據(jù)搞了個逆動力學模型(inverse dynamics model,IDM),可以推測出視頻中每一步進行的時候,鍵鼠都是怎么動的。

          這樣一來,整個任務(wù)就變得簡單多了,只需要比原來少很多的數(shù)據(jù)就可以實現(xiàn)目的。

          用一小撮外包數(shù)據(jù)搞完IDM之后,就可以用IDM接下來標注更大規(guī)模的無標記數(shù)據(jù)集了。

          基礎(chǔ)模型訓(xùn)練數(shù)據(jù)對微調(diào)的影響

          在訓(xùn)練了70000個小時以后,OpenAI的行為克隆模型就能實現(xiàn)各種別的模型做不到的工作了。

          模型學會了怎么砍樹收集木頭,怎么用木頭做木條,怎么用木條做桌子。而這一套事兒需要一個比較熟練的玩家操作小50秒的時間。

          除了做桌子,模型還能游泳,打獵,吃東西。

          甚至還有「跑跳搭」的騷操作,也就是起跳的時候腳下放個磚塊或者木塊,跳著跳著就能搭個柱子。這屬于是骨灰級玩家的必修課了。

          制作桌子(0 shot)

          打獵(0 shot)

          「跑跳搭」簡陋版(0 shot)

          而為了讓模型能完成一些更精細的任務(wù),一般還會把數(shù)據(jù)集微調(diào)成更小的規(guī)模,區(qū)分細小的方向。

          OpenAI做了一項研究,展示了用VPT訓(xùn)練過的模型,再經(jīng)過了微調(diào)之后,有多適應(yīng)下游的數(shù)據(jù)集。

          研究人員邀請人玩兒了10分鐘的「我的世界」,用基礎(chǔ)材料搭了個房子。他們希望通過這種方式可以加強模型執(zhí)行一些游戲初期的任務(wù)的能力,比如說搭一個工作臺。

          當對該數(shù)據(jù)集進行完微調(diào)以后,研究人員不僅發(fā)現(xiàn)模型在執(zhí)行初期任務(wù)時更加得心應(yīng)手,還發(fā)現(xiàn)模型自個兒研究明白了怎么分別做出一張木制的工作臺,和一張石制的工具臺。

          有時候,研究人員還能看到模型自己搭建簡陋的避難所,搜查村子,還有搶箱子。

          制作一把石鎬的全過程(下方標注的時間是一名熟練玩家執(zhí)行同樣的任務(wù)的耗時)

          制作石鎬

          然后我們來看看,OpenAI的專家們是怎么進行的微調(diào)。

          他們使用的辦法是,強化學習(RL)。

          大多數(shù)RL方法通過隨機探索先驗來解決這些挑戰(zhàn),例如模型通常被激勵通過熵獎勵隨機行動。VPT 模型應(yīng)該是RL更好的先驗?zāi)P?,因為模擬人類行為可能比采取隨機行動更有幫助。

          研究人員將模型設(shè)置為收集鉆石鎬這類艱巨任務(wù),這是「我的世界」中前所未有的功能,因為執(zhí)行整個任務(wù)時使用本機人機界面時會變得更加困難。

          制作鉆石鎬需要一系列漫長而復(fù)雜的子任務(wù)。為了使這項任務(wù)易于處理,研究人員為序列中的每個項目獎勵智能體。

          他們發(fā)現(xiàn),從隨機初始化(標準RL方法)訓(xùn)練的RL策略幾乎沒有獲得任何獎勵,從不學習收集日志,而且很少收集木棍。

          與之形成鮮明對比的是,VPT模型的微調(diào)不僅可以學習如何制作鉆石鎬,而且在收集所有物品方面的成功率,甚至達到人類水平。

          而這是第一次有人展示能夠在「我的世界」中制作鉆石工具的計算機模型。

          參考資料:

          https://openai.com/blog/vpt/



          瀏覽 51
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  黄色视屏品爱网 | 精品人兽 | 大香蕉综合在线 | 一级黄色性爱免费网站 | 无码人妻一区二区三区免费九色 |