欧美日本国产,欧美特一级,99免费在线观看视频,亚洲视频免费看,国产视频播放,亚州无码高清视频在线观看,久久急费看黄A毛片,99视频在线精品免费看

新智元報道

來源：deepmind

編輯：yaxin

【新智元導(dǎo)讀】五年前，AlphaGo打敗李世石那一刻，全世界為之驚呼！直到AlphaZero面世，象棋、將棋一戰(zhàn)而勝。現(xiàn)在，DeepMind 為AI打造了一個「元宇宙」，宣稱能玩全宇宙的游戲。

AlphaGo打敗李世石那一刻，全世界驚呼！

50天不到，進(jìn)化版的最強(qiáng)圍棋 AI AlphaGo Zero 面世，卻成為了 AlphaZero 的手下敗將。

從一開始只知道下圍棋的基本規(guī)則，到后來「跨界」擊敗國際象棋、日本將棋、和圍棋世界冠軍。

AlphaZero 再次打破了人們的對AI玩游戲的認(rèn)知。

AlphaZero登上Science封面

別急，還有更重磅的！

剛剛，DeepMind 說自家通過強(qiáng)化學(xué)習(xí)訓(xùn)練的AI能夠玩兒遍「全宇宙的游戲」！

還有多人3D游戲也不在話下。

在最新發(fā)布的預(yù)印本「Open-Ended Learning Leads to General Capable Agents」中，詳細(xì)介紹了，在不需要人類交互數(shù)據(jù)的情況下，訓(xùn)練能夠玩不同游戲的智能體。

別看是AI，「打怪」也需成長時間

通過強(qiáng)化學(xué)習(xí)，AlphaZero在不斷重復(fù)試錯的過程中學(xué)會了一個又一個游戲。

問題在于，AlphaZero若想能夠在不同游戲中「單打獨斗」，還得在每個游戲「從頭訓(xùn)練」后才能夠?qū)崿F(xiàn)。

包括 Atari，Capture The Flag，StarCraft II，Dota 2，和 Hide-and-Seek在內(nèi)的游戲也是如此。

由于「苦于」泛化能力差，強(qiáng)化學(xué)習(xí)只能針對單個任務(wù)來從頭開始學(xué)習(xí)。

要知道，泛化能力并不是一蹴而就。

我們玩游戲的時候，也是先從簡單任務(wù)起步，逐漸變?yōu)閺?fù)雜。

為此，DeepMind 研究人員創(chuàng)建了一個巨大的游戲環(huán)境，稱之為 XLand。

讓AI玩轉(zhuǎn)「元宇宙」

XLand這樣的環(huán)境，更形象地來說，便是最近我們常談的「元宇宙」。

這個「元宇宙」的創(chuàng)建是為了讓智能體在不斷擴(kuò)展、升級的開放世界中學(xué)習(xí)，AI的新任務(wù)（訓(xùn)練數(shù)據(jù)）是基于舊任務(wù)不斷生成的。

XLand 包含數(shù)十億個任務(wù)，跨越不同的游戲、世界和玩家。

從簡單到復(fù)雜的游戲，AI智能體在學(xué)習(xí)過程中不斷完善訓(xùn)練任務(wù)。

簡單的比如「靠近紫色立方體」，復(fù)雜一點的比如「靠近紫色立方體或?qū)ⅫS色球體放在紅色地板上」。

這些智能體甚至還可以和其他智能體玩耍，比如捉迷藏和奪取旗幟。

每個小游戲正如宇宙中顆顆繁星，拼成了一個龐大的物理模擬世界。

這個世界的任務(wù)由3個要素構(gòu)成：任務(wù)=游戲+世界+玩家。

根據(jù)3個要素的不同關(guān)系，來決定任務(wù)的復(fù)雜度。那么，如何判斷任務(wù)的復(fù)雜度？

有以下4個緯度：競爭性，平衡性，可選項，探索難度。

基于這4個維度，一個任務(wù)空間的、超大規(guī)模的「元宇宙」XLand 就誕生了，而幾何地球也只是這個元宇宙的一個小角落，只是這4緯空間的一個點。

終身學(xué)習(xí)

「元宇宙」XLand 解決了AI訓(xùn)練的數(shù)據(jù)問題，那么，接下來，用什么樣的算法是合適的呢？

研究人員發(fā)現(xiàn)，目標(biāo)注意網(wǎng)絡(luò) (GOAT) 可以學(xué)習(xí)更通用的策略。

還有，在如此廣闊的環(huán)境下，什么樣的訓(xùn)練任務(wù)分配能夠產(chǎn)生最好的AI「特工」？

動態(tài)任務(wù)生成允許智能體的訓(xùn)練任務(wù)的分布不斷變化:

生成的每個任務(wù)既不太難也不太容易，但正好適合訓(xùn)練。

然后利用基于PBT來調(diào)整基于動態(tài)任務(wù)生成參數(shù)，以提高智能體的綜合能力。

最后，我們將多個訓(xùn)練運行鏈接在一起，這樣每一代代理都可以引導(dǎo)上一代代理。

結(jié)果顯示，智能體在泛化能力上有很好的表現(xiàn)，只需對一些新的復(fù)雜任務(wù)進(jìn)行 30 分鐘的集中訓(xùn)練，智能體就可以快速適應(yīng)。

經(jīng)過5代訓(xùn)練，智能體在 XLand 的 4000 個獨立世界中玩大約 70萬個獨立游戲，涉及340 萬個獨立任務(wù)的結(jié)果，最后一代的每個智能體都經(jīng)歷了 2000 億次訓(xùn)練步驟。

目前，智能體已經(jīng)能夠順利參與幾乎每個評估任務(wù)，除了少數(shù)即使是人類也無法完成的任務(wù)。

未來一天，當(dāng)AI也能夠在「元宇宙」中自己學(xué)習(xí)演化，《西部世界》那樣的場景是否會在我們身邊降臨？

參考資料：

https://deepmind.com/blog/article/generally-capable-agents-emerge-from-open-ended-play

超越AlphaZero！DeepMind讓AI制霸「元宇宙」，玩轉(zhuǎn)70萬個獨立游戲

新智元報道

【新智元導(dǎo)讀】五年前，AlphaGo打敗李世石那一刻，全世界為之驚呼！直到AlphaZero面世，象棋、將棋一戰(zhàn)而勝。現(xiàn)在，DeepMind 為AI打造了一個「元宇宙」，宣稱能玩全宇宙的游戲。

超越AlphaZero！DeepMind讓AI制霸「元宇宙」，玩轉(zhuǎn)70萬個獨立游戲

【新智元導(dǎo)讀】五年前，AlphaGo打敗李世石那一刻，全世界為之驚呼！直到AlphaZero面世，象棋、將棋一戰(zhàn)而勝。現(xiàn)在，DeepMind 為AI打造了一個「元宇宙」，宣稱能玩全宇宙的游戲。