<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          超越AlphaZero!DeepMind讓AI制霸「元宇宙」,玩轉(zhuǎn)70萬個獨立游戲

          共 2165字,需瀏覽 5分鐘

           ·

          2021-08-04 22:13




            新智元報道  

          來源:deepmind

          編輯:yaxin

          【新智元導(dǎo)讀】五年前,AlphaGo打敗李世石那一刻,全世界為之驚呼!直到AlphaZero面世,象棋、將棋一戰(zhàn)而勝。現(xiàn)在,DeepMind 為AI打造了一個「元宇宙」,宣稱能玩全宇宙的游戲。


          AlphaGo打敗李世石那一刻,全世界驚呼!

           

           

          50天不到,進(jìn)化版的最強(qiáng)圍棋 AI AlphaGo Zero 面世,卻成為了 AlphaZero 的手下敗將。

           

          從一開始只知道下圍棋的基本規(guī)則,到后來「跨界」擊敗國際象棋、日本將棋、和圍棋世界冠軍。

           

          AlphaZero 再次打破了人們的對AI玩游戲的認(rèn)知。

           

          AlphaZero登上Science封面

           

          別急,還有更重磅的!

           

          剛剛,DeepMind 說自家通過強(qiáng)化學(xué)習(xí)訓(xùn)練的AI能夠玩兒遍「全宇宙的游戲」!

           

           

          還有多人3D游戲也不在話下。

           

          在最新發(fā)布的預(yù)印本 「Open-Ended Learning Leads to General Capable Agents」中,詳細(xì)介紹了,在不需要人類交互數(shù)據(jù)的情況下,訓(xùn)練能夠玩不同游戲的智能體。

           


          別看是AI,「打怪」也需成長時間


          通過強(qiáng)化學(xué)習(xí),AlphaZero在不斷重復(fù)試錯的過程中學(xué)會了一個又一個游戲。

           

          問題在于,AlphaZero若想能夠在不同游戲中「單打獨斗」,還得在每個游戲「從頭訓(xùn)練」后才能夠?qū)崿F(xiàn)。

           

           

          包括 Atari,Capture The Flag,StarCraft II,Dota 2,和 Hide-and-Seek在內(nèi)的游戲也是如此。

           

          由于「苦于」泛化能力差,強(qiáng)化學(xué)習(xí)只能針對單個任務(wù)來從頭開始學(xué)習(xí)。

           

           

          要知道,泛化能力并不是一蹴而就。

           

          我們玩游戲的時候,也是先從簡單任務(wù)起步,逐漸變?yōu)閺?fù)雜。

           

          為此,DeepMind 研究人員創(chuàng)建了一個巨大的游戲環(huán)境,稱之為 XLand。



          讓AI玩轉(zhuǎn)「元宇宙」

           

          XLand這樣的環(huán)境,更形象地來說,便是最近我們常談的「元宇宙」。

           

           

          這個「元宇宙」的創(chuàng)建是為了讓智能體在不斷擴(kuò)展、升級的開放世界中學(xué)習(xí),AI的新任務(wù)(訓(xùn)練數(shù)據(jù))是基于舊任務(wù)不斷生成的。

           

          XLand 包含數(shù)十億個任務(wù),跨越不同的游戲、世界和玩家。

           

          從簡單到復(fù)雜的游戲,AI智能體在學(xué)習(xí)過程中不斷完善訓(xùn)練任務(wù)。

           

          簡單的比如「靠近紫色立方體」,復(fù)雜一點的比如「靠近紫色立方體或?qū)ⅫS色球體放在紅色地板上」。

           

          這些智能體甚至還可以和其他智能體玩耍,比如捉迷藏和奪取旗幟。

           

           

          每個小游戲正如宇宙中顆顆繁星,拼成了一個龐大的物理模擬世界。

           

          這個世界的任務(wù)由3個要素構(gòu)成:任務(wù)=游戲+世界+玩家。

           

          根據(jù)3個要素的不同關(guān)系,來決定任務(wù)的復(fù)雜度。那么,如何判斷任務(wù)的復(fù)雜度?

           

           

          有以下4個緯度:競爭性,平衡性,可選項,探索難度。

           

          基于這4個維度,一個任務(wù)空間的、超大規(guī)模的「元宇宙」XLand 就誕生了,而幾何地球也只是這個元宇宙的一個小角落,只是這4緯空間的一個點。


          終身學(xué)習(xí)


          「元宇宙」XLand 解決了AI訓(xùn)練的數(shù)據(jù)問題,那么,接下來,用什么樣的算法是合適的呢?

           

          研究人員發(fā)現(xiàn),目標(biāo)注意網(wǎng)絡(luò) (GOAT) 可以學(xué)習(xí)更通用的策略。

           

           

          還有,在如此廣闊的環(huán)境下,什么樣的訓(xùn)練任務(wù)分配能夠產(chǎn)生最好的AI「特工」?

           

          動態(tài)任務(wù)生成允許智能體的訓(xùn)練任務(wù)的分布不斷變化:

           

          生成的每個任務(wù)既不太難也不太容易,但正好適合訓(xùn)練。

           

          然后利用基于PBT來調(diào)整基于動態(tài)任務(wù)生成參數(shù),以提高智能體的綜合能力。

           

          最后,我們將多個訓(xùn)練運行鏈接在一起,這樣每一代代理都可以引導(dǎo)上一代代理。

           

           

           

          結(jié)果顯示,智能體在泛化能力上有很好的表現(xiàn),只需對一些新的復(fù)雜任務(wù)進(jìn)行 30 分鐘的集中訓(xùn)練,智能體就可以快速適應(yīng)。

           

          經(jīng)過5代訓(xùn)練,智能體在 XLand 的 4000 個獨立世界中玩大約 70萬個獨立游戲,涉及340 萬個獨立任務(wù)的結(jié)果,最后一代的每個智能體都經(jīng)歷了 2000 億次訓(xùn)練步驟。

           

          目前,智能體已經(jīng)能夠順利參與幾乎每個評估任務(wù),除了少數(shù)即使是人類也無法完成的任務(wù)。

           

           

          未來一天,當(dāng)AI也能夠在「元宇宙」中自己學(xué)習(xí)演化,《西部世界》那樣的場景是否會在我們身邊降臨?

           

           


          參考資料:

          https://deepmind.com/blog/article/generally-capable-agents-emerge-from-open-ended-play




          瀏覽 93
          點贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  精品 国产 | 视频一区在线播放 | 奇米视频7777 | 成人在线免费视频观看 | 91无码一区二区三区在线 |