<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          王者榮耀的覺悟AI是怎么訓(xùn)練的?

          共 3344字,需瀏覽 7分鐘

           ·

          2021-08-01 03:04

          ↑↑↑點擊上方藍字,回復(fù)資料,10個G的驚喜

          在機器學(xué)習領(lǐng)域,監(jiān)督學(xué)習和無監(jiān)督學(xué)習兩大學(xué)習范式已經(jīng)被從業(yè)者廣為熟知且應(yīng)用。隨著近年來新技術(shù)的不斷涌現(xiàn),對于那些需要進行決策的問題,強化學(xué)習作為新的學(xué)習范式逐漸取得了很多驚人的成就。比如應(yīng)用深度強化學(xué)習的 AlphaGo 戰(zhàn)勝了人類的頂尖圍棋選手,OpenAI Five 在 DOTA 2 上戰(zhàn)勝了世界冠軍戰(zhàn)隊,等等。強化學(xué)習在游戲領(lǐng)域披荊斬棘,讓越來越多的從業(yè)者對該技術(shù)產(chǎn)生了強烈興趣,并希望將其應(yīng)用到工作中。


          經(jīng)過 MOBA 游戲《王者榮耀》的測試,訓(xùn)練有素的 AI agent 可以在完整的 1v1 游戲中擊敗頂尖的職業(yè)人類玩家



          01

          什么是強化學(xué)習?




           這里我們可以參考一下 Thomas Simonini 的解釋:


          強化學(xué)習的中心思想,就是讓智能體在環(huán)境里學(xué)習。每個行動會對應(yīng)各自的獎勵,智能體通過分析數(shù)據(jù)來學(xué)習,怎樣的情況下應(yīng)該做怎樣的事情。



          其實,這樣的學(xué)習過程和我們自然的經(jīng)歷非常相似。想象自己是個小孩子,第一次看到了火,然后走到了火邊。你感受到了溫暖。火是個好東西 (+1) 。



          然后就試著去摸。臥槽,這么燙 (-1)  。

           

          結(jié)論是,在稍遠的地方火是好的,靠得太近就不好。這就是人類學(xué)習的方式,與環(huán)境交互。強化學(xué)習也是一樣的道理,只是主角換成了計算機。


          注:以上內(nèi)容由量子位編譯整理





          02

          強化學(xué)習與機器學(xué)習、人工智能有什么關(guān)系?


          首先,機器學(xué)習是實現(xiàn)人工智能的一種技術(shù)。不同的人對人工智能的定義有不同的理解,這里不進行深入說明。不過,對于“機器學(xué)習是實現(xiàn)人工智能的一種技術(shù)”這一點,人們意見一致。 


          顧名思義,機器學(xué)習是讓“機器”進行“學(xué)習”的方法。這里的“機器”叫作模型,實際上是含有參數(shù)的數(shù)學(xué)式。對模型的參數(shù)進行調(diào)整,使之與給定的數(shù)據(jù)擬合的行為叫作“學(xué)習”。



          各關(guān)鍵詞之間的關(guān)系



          機器學(xué)習的機制



          深度學(xué)習是機器學(xué)習中的一種模型。將神經(jīng)網(wǎng)絡(luò)模型疊加成多層模型(使之變深),就形成了深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN)。通過某些學(xué)習方法讓 DNN 進行學(xué)習,就叫作深度學(xué)習。 

          對模型的參數(shù)進行調(diào)整,使之與數(shù)據(jù)擬合的學(xué)習方法一共有 3 種,分別是監(jiān)督學(xué)習、無監(jiān)督學(xué)習和強化學(xué)習。 

          ■ 監(jiān)督學(xué)習 

          事先給定數(shù)據(jù)和答案(標簽),然后對模型的參數(shù)進行調(diào)整,讓輸出(標簽)與給定的數(shù)據(jù)一致。 


          ■ 無監(jiān)督學(xué)習 

          事先僅給定數(shù)據(jù),然后對模型的參數(shù)進行調(diào)整,以提取數(shù)據(jù)的特征(結(jié)構(gòu)或表征)。


          ■ 強化學(xué)習 

          事先給定一個可以根據(jù)行動得到獎勵的環(huán)境(任務(wù)),然后對模型的參數(shù)進行調(diào)整,以便讓不同狀態(tài)下的行動與獎勵聯(lián)系起來。 


          監(jiān)督學(xué)習是最容易理解且使用最廣泛的學(xué)習方法。這里我們以圖像分類為例來介紹一下。首先準備一個數(shù)據(jù)集,在這個數(shù)據(jù)集中,每張圖像都有對應(yīng)的標簽,用來表明這張圖像是哪種動物(這稱為監(jiān)督數(shù)據(jù))。然后,為了在輸入圖像后讓模型輸出正確的標簽,對模型的參數(shù)進行調(diào)整。

          無監(jiān)督學(xué)習不會事先給定標簽。因為給定的只有數(shù)據(jù),所以叫作“無監(jiān)督”。由于沒有標簽,所以模型學(xué)習的是數(shù)據(jù)內(nèi)部的結(jié)構(gòu)(structure)和表征(representation)等。比如,在輸入某個樣本后,模型會根據(jù)該樣本在全體數(shù)據(jù)中的位置調(diào)整參數(shù),輸出表示該數(shù)據(jù)的表征(向量)。

          強化學(xué)習與前面兩種機器學(xué)習方法不同,它給定的是環(huán)境,而不是數(shù)據(jù)。我們可以把環(huán)境理解為到達某種狀態(tài)即可獲取獎勵的空間,其中定義了“行動”以及與行動對應(yīng)的“狀態(tài)”的變化。

          簡單來說,強化學(xué)習就像游戲一樣。比如,在游戲中,按下按鈕后角色會跳躍,那么“按下按鈕” 就相當于行動,“角色跳躍”就相當于狀態(tài)的變化。到達終點之后,就可以獲得“獎勵”。 

          實際上,強化學(xué)習中使用的“環(huán)境”以游戲為主。在研究領(lǐng)域,Atari 2600 游戲機的游戲經(jīng)常被用于測試強化學(xué)習模型的性能。


          03

          強化學(xué)習的優(yōu)點和弱點


          強化學(xué)習在根據(jù)行動給予獎勵(≈正確答案)這一點上和監(jiān)督學(xué)習非常相似。二者的不同點在于,強化學(xué)習不是根據(jù)單次的立即獎勵進行優(yōu)化的,其優(yōu)化的目的是使整體獎勵最大化。假設(shè) 1 天能得到 1000 元,但如果等待 3 天,就能得到 10 000 元。在這種情況下,行動分為“等待”與“不等待”。因為監(jiān)督學(xué)習評價的是單次的行動結(jié)果,所以會選擇“不等待”,每天得到 1000 元就是最優(yōu)的選擇。而強化學(xué)習把從環(huán)境開始到結(jié)束的整個期間(這個例子中是 3 天)叫作一個回合(episode),它的目的是使這一個回合內(nèi)的整體獎勵最大化,所以在強化學(xué)習中,“等待 3 天,得到 10 000 元”才是最優(yōu)的選擇。 


          也就是說,強化學(xué)習是根據(jù)能否讓整體獎勵最大化來評價行動的。至于如何進行評價,需要模型自己去學(xué)習。總結(jié)一下,強化學(xué)習的模型需要學(xué)習兩項內(nèi)容,分別是行動的評價方法和基于評價方法對行動進行選擇的方法(策略)。


          能對行動的評價方法進行學(xué)習是強化學(xué)習的一個優(yōu)點。比如,對于圍棋和象棋這樣復(fù)雜的游戲,我們很難評價現(xiàn)在這一步下得有多好。但是,強化學(xué)習可以自己去學(xué)習評價方法。因此,對于人類通過感官和直覺來判斷的過程,強化學(xué)習也是可以學(xué)習的。 


          但是,這也意味著行動的評價方法完全交給了模型。因為我們沒有提供“標簽”這樣的正確答案,模型進行什么樣的判斷完全基于模型自己。 


          這個弱點和無監(jiān)督學(xué)習的弱點是一致的。因此,強化學(xué)習有可能學(xué)習到違反人類直覺的評價方法,并采取違反人類直覺的行動。



          04

          如何學(xué)習強化學(xué)習?



          強化學(xué)習是機器學(xué)習的重要分支之一,頗以入門困難、學(xué)習曲線陡峭著稱。與監(jiān)督學(xué)習和無監(jiān)督學(xué)習算法相比,強化學(xué)習相關(guān)資料少、背景知識多、入門不友好。那有沒有適合初學(xué)者入門強化學(xué)習的圖書呢?今天就給大家推薦一本:《用Python動手學(xué)強化學(xué)習》

           

          如果你想把強化學(xué)習這門有趣的技術(shù)應(yīng)用到自己的服務(wù)或項目中,那么本書就是為你量身定制的。因此,要想理解本書,需要能夠看懂程序代碼。不過本書的代碼實現(xiàn)力求能讓讀者像讀文章一樣輕松看懂,所以大家不必太過擔心。代碼實現(xiàn)使用了 Python,但是本書并不包含 Python 語法的相關(guān)解說。

           

          至于數(shù)學(xué),各位也無須過于擔心,只要具備初高中的數(shù)學(xué)水平,就可以讀懂本書。不過,在學(xué)習第 4 章中的策略梯度、第 6 章中的逆強化學(xué)習的相關(guān)內(nèi)容時,需要讀者具備一些在大學(xué)階段學(xué)習的線性代數(shù)和微分的知識。

           

          最后,在本書中,一些已經(jīng)非常普及的方法將僅使用中文表示,其他方法則同時給出中文和英文名稱。這是因為強化學(xué)習的最新信息大多是英文的,給出英文名稱可以方便大家檢索。

           

          本書的一大特色就是含有大量示例和可以直接運行的代碼,比如第 1 章中給出了迷宮探索的具體示例,并通過對應(yīng)的代碼讓讀者明白如何解決這些探索問題。通過代碼,讀者可以直觀理解強化學(xué)習的運作過程,而不是陷在公式的泥潭里無法自拔。這種寫作風格也是為了實現(xiàn)讓從業(yè)者快速入門并實踐這一目標。

           

          另外,本書涉及的知識點也較為全面:第 1 章介紹強化學(xué)習與其他技術(shù)的關(guān)系,并通過一個簡單的示例讓讀者對強化學(xué)習有一個初步的了解;第 2 ~ 3 章分別介紹根據(jù)環(huán)境和經(jīng)驗制訂計劃的學(xué)習方法,是了解強化學(xué)習這一范式最為基礎(chǔ)的兩個章節(jié);第 4 章著重介紹強化學(xué)習和神經(jīng)網(wǎng)絡(luò)的組合,以及深度強化學(xué)習;第 5 ~ 6 章分別介紹強化學(xué)習的一些弱點和克服弱點的方法;最后的第 7 章介紹強化學(xué)習的一些應(yīng)用事例。

          推薦閱讀

          (點擊標題可跳轉(zhuǎn)閱讀)

          神經(jīng)網(wǎng)絡(luò)入門

          統(tǒng) 計 學(xué) 無 用 了 ???

          測評:《機器學(xué)習中的數(shù)學(xué)》

          測評:《數(shù)據(jù)科學(xué)工程實踐》

          統(tǒng)治世界的 10 大算法,你知道幾個?

          清華大學(xué)出版!《機器學(xué)習導(dǎo)論》PDF下載

          老鐵,三連支持一下,好嗎?↓↓↓

          瀏覽 69
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  色五月婷婷俺来也 | 亚洲高清有码无码视频 | 日韩三级片在线看 | 久久 AV电影 | 黄色成人视频在线观看 |