超越AlphaZero!DeepMind讓AI制霸「元宇宙」,玩轉(zhuǎn)70萬個獨立游戲

新智元報道
新智元報道
來源:deepmind
編輯:yaxin
【新智元導(dǎo)讀】五年前,AlphaGo打敗李世石那一刻,全世界為之驚呼!直到AlphaZero面世,象棋、將棋一戰(zhàn)而勝。現(xiàn)在,DeepMind 為AI打造了一個「元宇宙」,宣稱能玩全宇宙的游戲。
AlphaGo打敗李世石那一刻,全世界驚呼!

50天不到,進(jìn)化版的最強(qiáng)圍棋 AI AlphaGo Zero 面世,卻成為了 AlphaZero 的手下敗將。
從一開始只知道下圍棋的基本規(guī)則,到后來「跨界」擊敗國際象棋、日本將棋、和圍棋世界冠軍。
AlphaZero 再次打破了人們的對AI玩游戲的認(rèn)知。

AlphaZero登上Science封面
別急,還有更重磅的!
剛剛,DeepMind 說自家通過強(qiáng)化學(xué)習(xí)訓(xùn)練的AI能夠玩兒遍「全宇宙的游戲」!

還有多人3D游戲也不在話下。
在最新發(fā)布的預(yù)印本 「Open-Ended Learning Leads to General Capable Agents」中,詳細(xì)介紹了,在不需要人類交互數(shù)據(jù)的情況下,訓(xùn)練能夠玩不同游戲的智能體。

別看是AI,「打怪」也需成長時間
通過強(qiáng)化學(xué)習(xí),AlphaZero在不斷重復(fù)試錯的過程中學(xué)會了一個又一個游戲。
問題在于,AlphaZero若想能夠在不同游戲中「單打獨斗」,還得在每個游戲「從頭訓(xùn)練」后才能夠?qū)崿F(xiàn)。

包括 Atari,Capture The Flag,StarCraft II,Dota 2,和 Hide-and-Seek在內(nèi)的游戲也是如此。
由于「苦于」泛化能力差,強(qiáng)化學(xué)習(xí)只能針對單個任務(wù)來從頭開始學(xué)習(xí)。

要知道,泛化能力并不是一蹴而就。
我們玩游戲的時候,也是先從簡單任務(wù)起步,逐漸變?yōu)閺?fù)雜。
為此,DeepMind 研究人員創(chuàng)建了一個巨大的游戲環(huán)境,稱之為 XLand。
讓AI玩轉(zhuǎn)「元宇宙」
XLand這樣的環(huán)境,更形象地來說,便是最近我們常談的「元宇宙」。

這個「元宇宙」的創(chuàng)建是為了讓智能體在不斷擴(kuò)展、升級的開放世界中學(xué)習(xí),AI的新任務(wù)(訓(xùn)練數(shù)據(jù))是基于舊任務(wù)不斷生成的。
XLand 包含數(shù)十億個任務(wù),跨越不同的游戲、世界和玩家。
從簡單到復(fù)雜的游戲,AI智能體在學(xué)習(xí)過程中不斷完善訓(xùn)練任務(wù)。
簡單的比如「靠近紫色立方體」,復(fù)雜一點的比如「靠近紫色立方體或?qū)ⅫS色球體放在紅色地板上」。
這些智能體甚至還可以和其他智能體玩耍,比如捉迷藏和奪取旗幟。

每個小游戲正如宇宙中顆顆繁星,拼成了一個龐大的物理模擬世界。
這個世界的任務(wù)由3個要素構(gòu)成:任務(wù)=游戲+世界+玩家。
根據(jù)3個要素的不同關(guān)系,來決定任務(wù)的復(fù)雜度。那么,如何判斷任務(wù)的復(fù)雜度?

有以下4個緯度:競爭性,平衡性,可選項,探索難度。
基于這4個維度,一個任務(wù)空間的、超大規(guī)模的「元宇宙」XLand 就誕生了,而幾何地球也只是這個元宇宙的一個小角落,只是這4緯空間的一個點。
終身學(xué)習(xí)
「元宇宙」XLand 解決了AI訓(xùn)練的數(shù)據(jù)問題,那么,接下來,用什么樣的算法是合適的呢?
研究人員發(fā)現(xiàn),目標(biāo)注意網(wǎng)絡(luò) (GOAT) 可以學(xué)習(xí)更通用的策略。

還有,在如此廣闊的環(huán)境下,什么樣的訓(xùn)練任務(wù)分配能夠產(chǎn)生最好的AI「特工」?
動態(tài)任務(wù)生成允許智能體的訓(xùn)練任務(wù)的分布不斷變化:
生成的每個任務(wù)既不太難也不太容易,但正好適合訓(xùn)練。
然后利用基于PBT來調(diào)整基于動態(tài)任務(wù)生成參數(shù),以提高智能體的綜合能力。
最后,我們將多個訓(xùn)練運行鏈接在一起,這樣每一代代理都可以引導(dǎo)上一代代理。

結(jié)果顯示,智能體在泛化能力上有很好的表現(xiàn),只需對一些新的復(fù)雜任務(wù)進(jìn)行 30 分鐘的集中訓(xùn)練,智能體就可以快速適應(yīng)。
經(jīng)過5代訓(xùn)練,智能體在 XLand 的 4000 個獨立世界中玩大約 70萬個獨立游戲,涉及340 萬個獨立任務(wù)的結(jié)果,最后一代的每個智能體都經(jīng)歷了 2000 億次訓(xùn)練步驟。
目前,智能體已經(jīng)能夠順利參與幾乎每個評估任務(wù),除了少數(shù)即使是人類也無法完成的任務(wù)。

未來一天,當(dāng)AI也能夠在「元宇宙」中自己學(xué)習(xí)演化,《西部世界》那樣的場景是否會在我們身邊降臨?

參考資料:
https://deepmind.com/blog/article/generally-capable-agents-emerge-from-open-ended-play

