<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          一文入門 深度強化學(xué)習(xí)

          共 3681字,需瀏覽 8分鐘

           ·

          2021-10-22 15:59

          深度強化學(xué)習(xí)是人工智能最有趣的分支之一。它是人工智能社區(qū)許多顯著成就的基石,它在棋盤、視頻游戲、自動駕駛、機器人硬件設(shè)計等領(lǐng)域擊敗了人類冠軍。
          深度強化學(xué)習(xí)利用深度神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)能力,可以解決對于經(jīng)典強化學(xué)習(xí)(RL)技術(shù)來說過于復(fù)雜的問題。深度強化學(xué)習(xí)比機器學(xué)習(xí)的其他分支要復(fù)雜得多。在這篇文章中,我們將嘗試在不涉及技術(shù)細節(jié)的情況下,揭開它的神秘面紗。

          狀態(tài)、獎勵和行動

          每個強化學(xué)習(xí)問題的核心都是代理和環(huán)境。環(huán)境提供有關(guān)系統(tǒng)狀態(tài)的信息。代理觀察這些狀態(tài)并通過采取行動與環(huán)境交互。動作可以是離散的(例如,撥動開關(guān))或連續(xù)的(例如,轉(zhuǎn)動旋鈕)。這些操作會使環(huán)境轉(zhuǎn)換到新狀態(tài)。根據(jù)新狀態(tài)與系統(tǒng)目標相關(guān)性的大小,代理會收到不同程度的獎勵(如果它使代理遠離其目標,則獎勵也可以為零或負)。

          「狀態(tài)-動作-獎勵」的每個循環(huán)都稱為一個步驟。強化學(xué)習(xí)系統(tǒng)持續(xù)循環(huán)迭代,直到達到所需狀態(tài)或達到最大步數(shù)。這一系列的步驟稱為一個「情節(jié)」或者「集」。在每一個情節(jié)開始時,環(huán)境設(shè)置為初始狀態(tài),代理的獎勵重置為零。

          強化學(xué)習(xí)的目標是訓(xùn)練智能體采取行動,以最大化其回報。代理的行動功能稱為策略。一個代理通常需要很多情節(jié)來學(xué)習(xí)一個好的策略。對于更簡單的問題,幾百個情節(jié)可能足以讓代理學(xué)習(xí)到一個體面的策略。而對于更復(fù)雜的問題,代理可能需要數(shù)百萬次訓(xùn)練。
          強化學(xué)習(xí)系統(tǒng)有更微妙的細微差別。例如,RL 環(huán)境可以是確定性的或非確定性的。在確定性環(huán)境中,多次運行一系列「狀態(tài)-動作對」總是會產(chǎn)生相同的結(jié)果。相比之下,在非確定性 RL 問題中,環(huán)境狀態(tài)可能會因代理行為以外的事物(例如,時間的流逝、天氣、環(huán)境中的其他代理)而發(fā)生變化。
          強化學(xué)習(xí)應(yīng)用

          為了更好地理解強化學(xué)習(xí)的組成部分,讓我們考慮幾個例子。

          Chess:這里的環(huán)境是棋盤,環(huán)境的狀態(tài)是棋子在棋盤上的位置;RL 代理可以是參與者之一(或者,兩個參與者都可以是 RL 代理,在同一環(huán)境中分別訓(xùn)練);一盤棋局則是一集。這一集從初始狀態(tài)開始,黑板和白板的邊緣排列著黑色和白色的棋子。在每一步,代理觀察棋盤(狀態(tài))并移動其中的一部分(采取行動),從而將環(huán)境轉(zhuǎn)換為新狀態(tài)。代理會因棋局中使對手變?yōu)椤笇⑺罓顟B(tài)」而獲得獎勵,否則將獲得零獎勵。智能體在將對手「將死」之前不會獲得任何獎勵,這使得它很難學(xué)習(xí);這是國際象棋對 AI 來說主要的挑戰(zhàn)之一。
          Atari Breakout:Breakout 是一款玩家控制球拍的游戲。有一個球在屏幕上移動,每次被球拍擊中,它都會彈向屏幕頂部,那里排列著一排排的磚塊。每次球碰到磚塊時,磚塊都會被破壞,球會反彈回來。在 Breakout 中,環(huán)境是游戲屏幕。狀態(tài)是球拍和磚塊的位置,以及球的位置和速度。代理可以采取的行動是向左移動、向右移動。每次球擊中磚塊時,代理都會收到正獎勵,如果球越過球拍并到達屏幕底部,則代理會收到負獎勵。
          自動駕駛汽車:在自動駕駛中,代理就是汽車,環(huán)境就是汽車行駛的世界。RL 代理通過攝像頭、激光雷達以及其他傳感器觀察環(huán)境狀態(tài)。代理可以執(zhí)行導(dǎo)航操作,例如加速、剎車、左轉(zhuǎn)、右轉(zhuǎn)或維持現(xiàn)狀。RL 代理因使汽車保持在道路上、避免碰撞,且遵守駕駛規(guī)則和保證路線正確,而獲得獎勵。
          強化學(xué)習(xí)功能
          強化學(xué)習(xí)的目標是用最大化獎勵的方式,將狀態(tài)映射到動作。但是 RL 代理究竟學(xué)習(xí)了什么?
          RL 系統(tǒng)的學(xué)習(xí)算法分為三類:
          基于策略的算法:這是最通用的優(yōu)化類型。策略將狀態(tài)映射到操作。學(xué)習(xí)策略的 RL 代理可以創(chuàng)建從當前狀態(tài)到目標狀態(tài)的動作軌跡。
          假設(shè)一個正在通過優(yōu)化策略來導(dǎo)航走出迷宮的代理。首先,它進行隨機移動,但不會收到任何獎勵;只有它最終到達出口時,才會獲得出口獎勵。它回溯其軌跡并根據(jù)代理與最終目標的接近程度重新調(diào)整每個狀態(tài)-動作對的獎勵。在下一集中,RL 代理進一步理解給定每個狀態(tài)需對應(yīng)采取哪些行動;它逐漸調(diào)整策略,直到收斂到最優(yōu)解。
          REINFORCE 是一種基于策略的算法。基于策略的算法,優(yōu)勢在于它們可以應(yīng)用于各種強化學(xué)習(xí)問題;但是其樣本效率很低,需要大量訓(xùn)練才能收斂得到最佳解決方案。
          基于值的算法:基于值的函數(shù)學(xué)習(xí)評估狀態(tài)和動作的值。基于值的函數(shù)可幫助 RL 代理評估當前狀態(tài)與動作的預(yù)期回報。
          基于值的函數(shù)有兩種變體:Q 值和 V 值。Q 函數(shù)估計狀態(tài)-動作對的預(yù)期回報。V 函數(shù)僅估計狀態(tài)的值。Q 函數(shù)更容易將狀態(tài)-動作對轉(zhuǎn)換為 RL 策略,所以更常見一些。
          SARSA 和 DQN 是兩種基于價值的算法。基于值的算法比基于策略的 RL 具有更高的樣本效率。它們也存在局限性,就是它們僅適用于離散的動作空間(除非你對它們進行一些更改)。
          基于模型的算法:基于模型的算法采用不同的方法進行強化學(xué)習(xí)。他們不是評估狀態(tài)和動作的價值;而是嘗試,在給定當前狀態(tài)和動作的情況下,預(yù)測環(huán)境的狀態(tài)。基于模型的強化學(xué)習(xí)允許代理在采取任何行動之前,預(yù)先模擬不同的軌跡。

          基于模型的方法為代理提供了「遠見」,減小了對手動收集數(shù)據(jù)的依賴。這在收集訓(xùn)練數(shù)據(jù)和經(jīng)驗,既昂貴又緩慢的應(yīng)用中非常有利(例如,機器人和自動駕駛汽車)。

          對于基于模型的強化學(xué)習(xí)來說,創(chuàng)建真實的環(huán)境模型可能非常困難,這可能是這類方法的主要挑戰(zhàn)。非確定性環(huán)境(例如現(xiàn)實世界)很難建模;在某些情況下,開發(fā)人員設(shè)法創(chuàng)建接近真實環(huán)境的模擬;但即使是學(xué)習(xí)這些模擬環(huán)境的模型,也非常困難。
          盡管如此,基于模型的算法已經(jīng)在諸如國際象棋和圍棋等確定性問題中廣泛應(yīng)用。蒙特卡羅樹搜索 (MTCS) 是一種比較流行的基于模型的方法,可應(yīng)用于確定性環(huán)境。
          組合方法:為了克服各類強化學(xué)習(xí)算法的缺點,科學(xué)家們開發(fā)了組合算法,這類算法包含了不同類型學(xué)習(xí)函數(shù)的元素。例如,Actor-Critic 算法結(jié)合了基于策略和基于值的函數(shù)的優(yōu)點。這些算法使用來自價值函數(shù)(好比,評論家)的反饋來引導(dǎo)策略學(xué)習(xí)者(好比,演員)朝著正確的方向前進,從而產(chǎn)生更高效的系統(tǒng)。
          為什么是深度強化學(xué)習(xí)?

          到目前為止,我們還沒有談到深度神經(jīng)網(wǎng)絡(luò)。事實上,你可以以任何你想要的方式實現(xiàn)上述所有算法。例如,Q-learning 是一種經(jīng)典的強化學(xué)習(xí)算法,它在代理與環(huán)境交互時創(chuàng)建了一個狀態(tài)-動作-獎勵值表。當你處理狀態(tài)和操作數(shù)量非常少的簡單環(huán)境時,此類方法非常有效。

          但是,當你處理一個復(fù)雜的環(huán)境時,其中動作和狀態(tài)的組合數(shù)量可能非常巨大,或者環(huán)境是不確定的,并且可能存在的狀態(tài)幾乎是無限的;這時,評估每個可能的狀態(tài)-動作對就變得不可能了。
          在這種情況下,你需要一個近似函數(shù),它可以根據(jù)有限的數(shù)據(jù)學(xué)習(xí)歸納出最佳策略。給定正確的架構(gòu)和優(yōu)化函數(shù),深度神經(jīng)網(wǎng)絡(luò)可以直接學(xué)習(xí)最優(yōu)策略,而無需遍歷系統(tǒng)的所有可能狀態(tài)。深度強化學(xué)習(xí)代理仍然需要大量數(shù)據(jù)(例如,在 Dota 和星際爭霸中進行數(shù)千小時的游戲),但它們可以解決經(jīng)典強化學(xué)習(xí)系統(tǒng)無法解決的問題。
          比如,深度強化學(xué)習(xí)模型可以使用卷積神經(jīng)網(wǎng)絡(luò),從視覺數(shù)據(jù)中提取狀態(tài)信息。循環(huán)神經(jīng)網(wǎng)絡(luò)可以從幀序列中提取有用的信息,例如球的朝向,或者汽車是否停放或移動。這種復(fù)雜的學(xué)習(xí)能力,可以幫助 RL 代理理解更復(fù)雜的環(huán)境,并將其狀態(tài)映射到動作。
          深度強化學(xué)習(xí)可與監(jiān)督機器學(xué)習(xí)相媲美。該模型生成動作,并根據(jù)來自環(huán)境的反饋調(diào)整其參數(shù)。然而,不同于傳統(tǒng)的監(jiān)督學(xué)習(xí),深度強化學(xué)習(xí)會面臨一些獨特的挑戰(zhàn)。
          與模型具有一組標記數(shù)據(jù)的監(jiān)督學(xué)習(xí)問題不同,RL 代理只能訪問其自身經(jīng)驗的結(jié)果。它能夠根據(jù)在不同訓(xùn)練階段收集的經(jīng)驗來學(xué)習(xí)最佳策略;但它也可能錯過許多其他獲得更好政策的最佳軌跡。強化學(xué)習(xí)還需要評估狀態(tài)-動作對的軌跡;這比監(jiān)督學(xué)習(xí)所要面對的,每個訓(xùn)練示例與其預(yù)期結(jié)果配對問題更難學(xué)習(xí)。
          這種復(fù)雜性增加了深度強化學(xué)習(xí)模型的數(shù)據(jù)要求。但與監(jiān)督學(xué)習(xí)不同,深度強化學(xué)習(xí)模型在訓(xùn)練期間收集數(shù)據(jù),而監(jiān)督學(xué)習(xí)需要人工提前策劃和準備訓(xùn)練數(shù)據(jù)。
          深度強化學(xué)習(xí)和通用人工智能
          AI 社區(qū)對深度強化學(xué)習(xí)的發(fā)展方向存在分歧。一些科學(xué)家認為,使用正確的 RL 架構(gòu),可以解決任何類型的問題,包括通用人工智能。這些科學(xué)家相信,強化學(xué)習(xí)與產(chǎn)生自然智能的算法相同,如果有足夠的時間和精力,并配備適當?shù)莫剟睿覀兛梢灾亟ㄈ祟惣墑e的智能。
          其他人則認為強化學(xué)習(xí)并沒有解決人工智能的一些最基本的問題。他們認為,盡管取得了許多成就,但深度強化學(xué)習(xí)代理需要明確定義問題;并且它無法自行發(fā)現(xiàn)新問題,更沒辦法提出針對新問題提出解決方案。
          無論如何,不可否認的是,深度強化學(xué)習(xí)已經(jīng)幫助解決了許多非常復(fù)雜的問題,并且將繼續(xù)成為 AI 社區(qū)的重要研究領(lǐng)域。
          相關(guān)報道:https://venturebeat.com/2021/09/04/demystifying-deep-reinforcement-learning/

          掃碼關(guān)注我的視頻號:程序員zhenguo

          瀏覽 92
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  精品久久久久久久中文字幕 | 人人干人人的 | 人人操人人摸人人透 | 欧美艹逼网 | 亚洲免费在线视频播放 |