特黄AAAAAAA片免费看,日韩无码第十页,视频一区中文字幕,天天天天日夜夜夜草,亚洲图片欧美色图,成人黄色影视,久久免费观看视频,亚洲一级特黄视频

AlphaGo 論文地址：https://www.nature.com/articles/nature16961
AlphaGo Zero 論文地址：https://www.nature.com/articles/nature24270
AlphaZero 論文地址：https://arxiv.org/abs/1712.01815
MuZero 論文地址：https://arxiv.org/abs/1911.08265

DeepMind 官網(wǎng)介紹：https://deepmind.com/research/case-studies/alphago-the-story-so-far

5. MuZero

MuZero 在Deepmind 的 2019 年的初步論文中首次介紹，通過學習一個僅關注規(guī)劃環(huán)境中最重要方面的模型來解決這個問題。通過將此模型與 AlphaZero 強大的前向樹搜索相結合，MuZero 在 Atari 測試中得到了新的最先進的結果，同時在圍棋、國際象棋和將棋等經(jīng)典規(guī)劃挑戰(zhàn)中的表現(xiàn)與 AlphaZero 相媲美。MuZero 展示了強化學習算法能力的重大飛躍。

5.1 Generalising to unknown models

計劃能力是人類智能的重要組成部分，使人類能夠解決問題并對未來做出決定。例如，如果我們看到烏云正在形成，我們可能會預測會下雨，并決定在冒險之前帶上一把雨傘。人類可以快速學習這種能力，并且可以推廣到新的場景，這是作者希望算法具有的特性。

研究人員試圖通過使用兩種主要方法來應對人工智能中的這一重大挑戰(zhàn)：前向搜索或基于模型的規(guī)劃（model-based planning）。使用前向搜索的系統(tǒng)（例如 AlphaZero）在跳棋、國際象棋和撲克等經(jīng)典游戲中取得了顯著的成功，但依賴于了解其環(huán)境動態(tài)的知識，例如游戲規(guī)則或精確的模擬器。這使得很難將它們應用于混亂的現(xiàn)實世界問題，這些問題通常很復雜，很難提煉成簡單的規(guī)則。

基于模型的系統(tǒng)旨在通過學習環(huán)境動態(tài)的準確模型，然后使用它進行規(guī)劃來解決這個問題。然而，對環(huán)境的各個方面進行建模的復雜性意味著這些算法無法在視覺豐富的領域（例如 Atari）中競爭。到目前為止，Atari 上的最佳結果來自無模型系統(tǒng)，例如 DQN、R2D2 和 Agent57。顧名思義，無模型算法（model-free algorithms）不使用學習模型，而是估計下一步要采取的最佳行動。

MuZero 使用不同的方法來克服以前方法的局限性。MuZero 沒有嘗試對整個環(huán)境進行建模，而是對代理決策過程中重要的方面進行建模。畢竟，知道雨傘避免淋濕比了解空氣中雨滴形狀更有意義。

具體來說，MuZero 模擬了對規(guī)劃至關重要的三個環(huán)境因素：

The value: how good is the current position?
The policy: which action is the best to take?
The reward: how good was the last action?

這些都是基于深度神經(jīng)網(wǎng)絡學習的， MuZero 了解當它采取某種行動時會發(fā)生什么并做出對應的計劃。

A. MuZero 如何讓模型學會“計劃”？

下圖說明如何使用蒙特卡洛樹搜索與 MuZero 神經(jīng)網(wǎng)絡進行規(guī)劃。從游戲中的當前位置（頂部的示意圖圍棋棋盤）開始，MuZero 使用表示函數(shù) () 從觀察映射到神經(jīng)網(wǎng)絡使用的 Embedding ?()。使用動態(tài)函數(shù) () 和預測函數(shù) ()，MuZero 可以考慮未來可能的動作序列 ()，并選擇最佳動作。

給定前一個狀態(tài) 和一個候選動作，動態(tài)函數(shù) 得到一個即時獎勵值和一個新的狀態(tài) ，輸入到預測函數(shù) 中得到策略和價值函數(shù) ，而最初的狀態(tài) 表示是通過預先訓練的表示函數(shù) （例如：圍棋和 Atari ）進行 embedding。

B. MuZero 如何對未知環(huán)境做出相應動作？

MuZero 使用它在與環(huán)境交互時收集的經(jīng)驗來訓練其神經(jīng)網(wǎng)絡。這種經(jīng)驗包括來自環(huán)境的觀察和獎勵，以及在決定最佳行動時執(zhí)行的搜索結果。

在每個時間步執(zhí)行蒙特卡洛樹搜索。搜索策略網(wǎng)絡采樣一個動作（與從根節(jié)點對每個動作的訪問次數(shù)成正比），環(huán)境接收到動作并生成一個新的觀察和獎勵。結束時所有軌跡數(shù)據(jù)均被存儲到緩沖區(qū)。

C. MuZero 如何訓練網(wǎng)絡？

在訓練期間，模型與收集的經(jīng)驗一起展開，在每一步預測先前保存的信息：價值函數(shù) 預測觀察到的獎勵的總和 ()，策略估計 () 預測先前的搜索結果 (π)，獎勵估計預測最后觀察到的獎勵 ()。

將軌跡從緩沖區(qū)采樣。對于初始步驟，表示函數(shù) 接收來自所選軌跡的過去觀察值作為輸入。該模型隨后被循環(huán)展開步。在每一步，動態(tài)函數(shù) 接收來自上一步的狀態(tài) 和實際動作作為輸入。表示函數(shù)、動態(tài)函數(shù)和預測函數(shù)的參數(shù)通過時間反向傳播進行端到端聯(lián)合訓練，以預測三個量：策略網(wǎng)絡 π 、價值網(wǎng)絡和獎勵，其中是 sample return：最終獎勵（棋盤游戲）或步回報（Atari）。

MuZero 可以重復使用其學習模型來改進其規(guī)劃，而不是從環(huán)境中收集新數(shù)據(jù)。例如，在 Atari 的測試中，這個變體 - 稱為 MuZero Reanalyze - 在 90% 的時間里使用學習模型來重新規(guī)劃過去幾個場景應該做的事情。

5.2 MuZero 算法

在每個時間步，對于每個時間步，以過去的觀察和未來的動作為條件，由參數(shù)為 θ 的模型 μθ 進行預測。該模型預測三個未來量：策略，價值函數(shù) ，獎勵，其中是真實觀察到的獎勵，π 是用于選擇實際行動的策略，γ 是環(huán)境的折損函數(shù)。

在每個時間步（為簡單起見，下標被忽略），模型由一個表示函數(shù)、一個動態(tài)函數(shù)和一個預測函數(shù)的組合來表示。動態(tài)函數(shù) θ，是一個循環(huán)過程，在每個假設的步驟，計算一個即時獎勵和一個內(nèi)部狀態(tài) 。它反映了一個 MDP 模型的結構，該模型計算給定狀態(tài)和動作的預期獎勵和狀態(tài)轉(zhuǎn)換。然而，與基于模型的 RL 的傳統(tǒng)方法不同，這個內(nèi)部狀態(tài) 沒有附加環(huán)境狀態(tài)的語義（它只是整個模型的隱藏狀態(tài)，其唯一目的是準確預測相關的、未來的值：策略、價值和獎勵）。在 MuZero 中，動態(tài)函數(shù)是以確定的方式表示的；隨機轉(zhuǎn)換的擴展是后續(xù)進一步工作。策略和價值函數(shù)是通過預測函數(shù) θ 從內(nèi)部狀態(tài) 計算出來的，類似于 AlphaZero 的聯(lián)合策略和價值網(wǎng)絡。根狀態(tài) 使用一個對過去觀察結果進行 embedding 的表示函數(shù)來初始化，θ；同樣，除了對未來預測的支持外，這沒有特殊的語義。

給定這樣一個模型，就有可能在給定過去的觀察值的情況下，對假設的未來軌跡進行搜索。例如，一個樸素的搜索可以簡單地選擇使價值函數(shù)最大化的步動作序列。更一般地說，可以將任何 MDP 規(guī)劃算法應用于動態(tài)函數(shù)所引起的內(nèi)部獎勵和狀態(tài)空間。具體來說，作者使用一種類似于 AlphaZero 搜索的 MCTS 算法，它的生成允許單一代理域（single agent domains）和中間獎勵。在每個內(nèi)部節(jié)點，它利用當前模型參數(shù) θ 產(chǎn)生的策略、價值和獎勵估計。MCTS 算法輸出一個推薦的策略 π 和估計的價值 ν。然后選擇一個行動 π

模型的所有參數(shù)都經(jīng)過聯(lián)合訓練，以準確地將每個假設步驟的策略、價值和獎勵與經(jīng)過個實際時間步驟后觀察到的相應目標值相匹配。與 AlphaZero 類似，改進的策略目標是由 MCTS 搜索生成的；第一個目標是最小化預測策略和搜索策略 π 之間的誤差。與 AlphaZero 一樣，改進的價值目標是通過玩游戲或 MDP 生成的。然而，與 AlphaZero 不同，作者通過從搜索值引導步到未來以允許具有折損和中間獎勵的長時間跨度， .棋盤游戲中的最終結果 {敗局，平局，贏局} 被視為在劇集最后一步發(fā)生的獎勵。具體來說，第二個目標是最小化預測價值和價值目標之間的誤差。獎勵目標只是觀察到的獎勵；因此，第三個目標是最小化預測獎勵和觀察到的獎勵之間的誤差。最后，還添加了一個 L2 正則化項，復合損失為：

其中、和分別是獎勵、價值和策略的損失函數(shù)。

5.3 MuZero 性能

作者選擇了四個不同的域來測試 MuZeros 的功能。圍棋、國際象棋和將棋用于評估其在具有挑戰(zhàn)性的規(guī)劃問題上的表現(xiàn)，并且作者使用 Atari 作為更復雜的視覺問題的基準。在所有情況下，MuZero 均為強化學習算法的 SOTA，優(yōu)于 Atari 上的所有先前算法，并在圍棋、國際象棋和將棋上與 AlphaZero 的超人性能相媲美。

每次訓練運行使用 200M 或 20B 幀在 Atari 上的性能。MuZero 在這兩種設置中都達到了 SOTA。所有分數(shù)都根據(jù)測試人員的表現(xiàn)進行了標準化。

作者還更詳細地測試了 MuZero 使用其學習模型進行規(guī)劃的能力。作者從圍棋中經(jīng)典的精確規(guī)劃挑戰(zhàn)開始，一步棋就意味著輸贏。為了確認更多的計劃應該帶來更好的結果的直覺，作者測量了一個完全訓練的 MuZero 版本在有更多的時間來計劃每個動作時可以變得更強大（見下圖左圖）。結果表明，隨著作者將每步走的時間從 0.1 秒增加到 50 秒，增加了 1000 多 Elo（衡量玩家相對技能的指標）。這類似于強大的業(yè)余選手和最強的職業(yè)選手之間的區(qū)別。

左圖：隨著計劃每一步棋的時間增加，圍棋的實力顯著增加。注意 MuZero 的縮放比例與 AlphaZero 的縮放比例幾乎完美匹配，AlphaZero 可以訪問完美的模擬器。右圖：Atari 游戲 Ms Pac-Man 中的得分也隨著訓練期間每一步的計劃數(shù)量而增加。每個圖都顯示了不同的訓練運行，其中 MuZero 被允許考慮每次移動的不同數(shù)量的模擬。

有趣的是，當 MuZero 每次移動只允許考慮六或七個模擬時——這個數(shù)字太小而無法涵蓋 Ms Pac-Man 中所有可用的動作——它仍然取得了良好的性能。這表明 MuZero 能夠在動作和情況之間進行概括，并且不需要窮舉搜索所有可能性來有效學習。

參考資料

http://tromp.github.io/go.html
https://towardsdatascience.com/the-upper-confidence-bound-ucb-bandit-algorithm-c05c2bf4c13f
https://en.wikipedia.org/wiki/AlphaGo
https://deepmind.com/blog/article/alphago-zero-starting-scratch
https://towardsdatascience.com/the-evolution-of-alphago-to-muzero-c2c37306bf9

與 AI 博弈:從 AlphaGo 到 MuZero(四)

5. MuZero

5.1 Generalising to unknown models

5.2 MuZero 算法

5.3 MuZero 性能

參考資料