王者榮耀的覺悟AI是怎么訓(xùn)練的?
↑↑↑點擊上方藍字,回復(fù)資料,10個G的驚喜

這里我們可以參考一下 Thomas Simonini 的解釋:
強化學(xué)習的中心思想,就是讓智能體在環(huán)境里學(xué)習。每個行動會對應(yīng)各自的獎勵,智能體通過分析數(shù)據(jù)來學(xué)習,怎樣的情況下應(yīng)該做怎樣的事情。

其實,這樣的學(xué)習過程和我們自然的經(jīng)歷非常相似。想象自己是個小孩子,第一次看到了火,然后走到了火邊。你感受到了溫暖。火是個好東西 (+1) 。

然后就試著去摸。臥槽,這么燙 (-1) 。

結(jié)論是,在稍遠的地方火是好的,靠得太近就不好。這就是人類學(xué)習的方式,與環(huán)境交互。強化學(xué)習也是一樣的道理,只是主角換成了計算機。
注:以上內(nèi)容由量子位編譯整理
顧名思義,機器學(xué)習是讓“機器”進行“學(xué)習”的方法。這里的“機器”叫作模型,實際上是含有參數(shù)的數(shù)學(xué)式。對模型的參數(shù)進行調(diào)整,使之與給定的數(shù)據(jù)擬合的行為叫作“學(xué)習”。

各關(guān)鍵詞之間的關(guān)系

機器學(xué)習的機制
■ 監(jiān)督學(xué)習
事先給定數(shù)據(jù)和答案(標簽),然后對模型的參數(shù)進行調(diào)整,讓輸出(標簽)與給定的數(shù)據(jù)一致。
■ 無監(jiān)督學(xué)習
事先僅給定數(shù)據(jù),然后對模型的參數(shù)進行調(diào)整,以提取數(shù)據(jù)的特征(結(jié)構(gòu)或表征)。
■ 強化學(xué)習
事先給定一個可以根據(jù)行動得到獎勵的環(huán)境(任務(wù)),然后對模型的參數(shù)進行調(diào)整,以便讓不同狀態(tài)下的行動與獎勵聯(lián)系起來。
強化學(xué)習在根據(jù)行動給予獎勵(≈正確答案)這一點上和監(jiān)督學(xué)習非常相似。二者的不同點在于,強化學(xué)習不是根據(jù)單次的立即獎勵進行優(yōu)化的,其優(yōu)化的目的是使整體獎勵最大化。假設(shè) 1 天能得到 1000 元,但如果等待 3 天,就能得到 10 000 元。在這種情況下,行動分為“等待”與“不等待”。因為監(jiān)督學(xué)習評價的是單次的行動結(jié)果,所以會選擇“不等待”,每天得到 1000 元就是最優(yōu)的選擇。而強化學(xué)習把從環(huán)境開始到結(jié)束的整個期間(這個例子中是 3 天)叫作一個回合(episode),它的目的是使這一個回合內(nèi)的整體獎勵最大化,所以在強化學(xué)習中,“等待 3 天,得到 10 000 元”才是最優(yōu)的選擇。
也就是說,強化學(xué)習是根據(jù)能否讓整體獎勵最大化來評價行動的。至于如何進行評價,需要模型自己去學(xué)習。總結(jié)一下,強化學(xué)習的模型需要學(xué)習兩項內(nèi)容,分別是行動的評價方法和基于評價方法對行動進行選擇的方法(策略)。
能對行動的評價方法進行學(xué)習是強化學(xué)習的一個優(yōu)點。比如,對于圍棋和象棋這樣復(fù)雜的游戲,我們很難評價現(xiàn)在這一步下得有多好。但是,強化學(xué)習可以自己去學(xué)習評價方法。因此,對于人類通過感官和直覺來判斷的過程,強化學(xué)習也是可以學(xué)習的。
但是,這也意味著行動的評價方法完全交給了模型。因為我們沒有提供“標簽”這樣的正確答案,模型進行什么樣的判斷完全基于模型自己。
這個弱點和無監(jiān)督學(xué)習的弱點是一致的。因此,強化學(xué)習有可能學(xué)習到違反人類直覺的評價方法,并采取違反人類直覺的行動。
強化學(xué)習是機器學(xué)習的重要分支之一,頗以入門困難、學(xué)習曲線陡峭著稱。與監(jiān)督學(xué)習和無監(jiān)督學(xué)習算法相比,強化學(xué)習相關(guān)資料少、背景知識多、入門不友好。那有沒有適合初學(xué)者入門強化學(xué)習的圖書呢?今天就給大家推薦一本:《用Python動手學(xué)強化學(xué)習》。
如果你想把強化學(xué)習這門有趣的技術(shù)應(yīng)用到自己的服務(wù)或項目中,那么本書就是為你量身定制的。因此,要想理解本書,需要能夠看懂程序代碼。不過本書的代碼實現(xiàn)力求能讓讀者像讀文章一樣輕松看懂,所以大家不必太過擔心。代碼實現(xiàn)使用了 Python,但是本書并不包含 Python 語法的相關(guān)解說。
至于數(shù)學(xué),各位也無須過于擔心,只要具備初高中的數(shù)學(xué)水平,就可以讀懂本書。不過,在學(xué)習第 4 章中的策略梯度、第 6 章中的逆強化學(xué)習的相關(guān)內(nèi)容時,需要讀者具備一些在大學(xué)階段學(xué)習的線性代數(shù)和微分的知識。
最后,在本書中,一些已經(jīng)非常普及的方法將僅使用中文表示,其他方法則同時給出中文和英文名稱。這是因為強化學(xué)習的最新信息大多是英文的,給出英文名稱可以方便大家檢索。
本書的一大特色就是含有大量示例和可以直接運行的代碼,比如第 1 章中給出了迷宮探索的具體示例,并通過對應(yīng)的代碼讓讀者明白如何解決這些探索問題。通過代碼,讀者可以直觀理解強化學(xué)習的運作過程,而不是陷在公式的泥潭里無法自拔。這種寫作風格也是為了實現(xiàn)讓從業(yè)者快速入門并實踐這一目標。
另外,本書涉及的知識點也較為全面:第 1 章介紹強化學(xué)習與其他技術(shù)的關(guān)系,并通過一個簡單的示例讓讀者對強化學(xué)習有一個初步的了解;第 2 ~ 3 章分別介紹根據(jù)環(huán)境和經(jīng)驗制訂計劃的學(xué)習方法,是了解強化學(xué)習這一范式最為基礎(chǔ)的兩個章節(jié);第 4 章著重介紹強化學(xué)習和神經(jīng)網(wǎng)絡(luò)的組合,以及深度強化學(xué)習;第 5 ~ 6 章分別介紹強化學(xué)習的一些弱點和克服弱點的方法;最后的第 7 章介紹強化學(xué)習的一些應(yīng)用事例。
推薦閱讀
(點擊標題可跳轉(zhuǎn)閱讀)
老鐵,三連支持一下,好嗎?↓↓↓
