<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          南大最新綜述論文:基于模型的強(qiáng)化學(xué)習(xí)

          共 2053字,需瀏覽 5分鐘

           ·

          2022-08-04 01:42

          來源:專知


          強(qiáng)化學(xué)習(xí)(RL)通過與環(huán)境交互的試錯過程來解決順序決策問題。雖然RL在允許大量試錯的復(fù)雜電子游戲中取得了杰出的成功,但在現(xiàn)實世界中犯錯總是不希望的。


          了提高樣本效率從而減少誤差,基于模型的強(qiáng)化學(xué)習(xí)(MBRL)被認(rèn)為是一個有前途的方向,它建立的環(huán)境模型中可以進(jìn)行試錯,而不需要實際成本。


          本文對MBRL的研究現(xiàn)狀進(jìn)行了綜述,并著重介紹了近年來研究的進(jìn)展。對于非表格環(huán)境,學(xué)習(xí)到的環(huán)境模型與實際環(huán)境之間存在泛化誤差。因此,分析環(huán)境模型中策略訓(xùn)練與實際環(huán)境中策略訓(xùn)練的差異,對算法設(shè)計、模型使用和策略訓(xùn)練具有重要的指導(dǎo)意義。


          此外,我們還討論了離線在線學(xué)習(xí)、目標(biāo)條件在線學(xué)習(xí)、多智能體在線學(xué)習(xí)和元在線學(xué)習(xí)等基于模型的在線學(xué)習(xí)技術(shù)的最新進(jìn)展,以及MBRL在實際任務(wù)中的適用性和優(yōu)勢。


          最后,我們討論了MBRL未來的發(fā)展前景。我們認(rèn)為MBRL在實際應(yīng)用中具有巨大的潛力和優(yōu)勢,但這些優(yōu)勢往往被忽視,希望本文的綜述能夠吸引更多關(guān)于MBRL的研究。


          論文地址:https://arxiv.org/abs/2206.09328


          強(qiáng)化學(xué)習(xí)(Reinforcement learning, RL)研究了提高自主智能體序列決策性能的方法。


          由于深度RL在圍棋和電子游戲中的成功展示了超越人類的決策能力,因此將其應(yīng)用范圍擴(kuò)展到現(xiàn)實任務(wù)中是非常有意義的。


          通常,深度RL算法需要大量的訓(xùn)練樣本,導(dǎo)致樣本復(fù)雜度很高。特別地,與監(jiān)督學(xué)習(xí)范式從歷史標(biāo)記數(shù)據(jù)中學(xué)習(xí)不同,典型的RL算法需要通過在環(huán)境中運行最新的策略來獲得交互數(shù)據(jù)。一旦策略更新,基礎(chǔ)數(shù)據(jù)分布就會發(fā)生變化,必須通過運行策略再次收集數(shù)據(jù)。因此,具有高樣本復(fù)雜度的RL算法很難直接應(yīng)用于現(xiàn)實世界的任務(wù)中,因為在這些任務(wù)中,試錯代價很高。

          因此,近年來深度強(qiáng)化學(xué)習(xí)(Deep Reinforcement Learning, DRL)研究的一個主要重點是提高樣本效率。


          在不同的研究分支中,基于模型的強(qiáng)化學(xué)習(xí)(MBRL)是最重要的方向之一,人們普遍認(rèn)為它具有極大的潛力使RL算法顯著提高樣本效率。這種信念直觀地來自于對人類智慧的類比。


          人類能夠在頭腦中擁有一個想象的世界,在這個世界中,隨著不同的行動,事情會如何發(fā)生可以被預(yù)測。通過這種方式,可以根據(jù)想象選擇適當(dāng)?shù)男袆?,這樣就可以降低反復(fù)試驗的成本。MBRL中的短語模型是期望扮演與想象相同角色的環(huán)境模型。


          在MBRL中,環(huán)境模型(或簡稱為模型)指的是學(xué)習(xí)智能體與之交互的環(huán)境動態(tài)的抽象。RL中的動態(tài)環(huán)境通常被表述為一個馬爾可夫決策過程(MDP),用元組(S, A, M, R, γ)表示,其中S, A和γ分別表示狀態(tài)空間、行動空間和未來獎勵的折扣因子,M: S × A→S表示狀態(tài)轉(zhuǎn)移動力學(xué),R: S × A→R表示獎勵函數(shù)。


          通常情況下,給定狀態(tài)和行為空間以及折扣因子,環(huán)境模型的關(guān)鍵組成部分是狀態(tài)轉(zhuǎn)移動力學(xué)和獎勵函數(shù)。因此,學(xué)習(xí)模型對應(yīng)于恢復(fù)狀態(tài)轉(zhuǎn)移動力學(xué)M和獎勵函數(shù)r。在許多情況下,獎勵函數(shù)也被明確定義,因此模型學(xué)習(xí)的主要任務(wù)是學(xué)習(xí)狀態(tài)轉(zhuǎn)移動力學(xué)。


          有了環(huán)境模型,智能體就有了想象的能力。它可以與模型進(jìn)行交互,以便對交互數(shù)據(jù)進(jìn)行采樣,也稱為仿真數(shù)據(jù)。理想情況下,如果模型足夠準(zhǔn)確,可以在模型中學(xué)習(xí)到一個好的策略。


          與無模型強(qiáng)化學(xué)習(xí)(model-free reinforcement learning, MFRL)方法相比,智能體只能使用從與真實環(huán)境的交互中采樣的數(shù)據(jù),稱為經(jīng)驗數(shù)據(jù),MBRL方法使智能體能夠充分利用學(xué)習(xí)模型中的經(jīng)驗數(shù)據(jù)。


          值得注意的是,除了MBRL,還有其他一些方法試圖更好地利用經(jīng)驗數(shù)據(jù),如off-policy算法(使用重放緩沖區(qū)記錄舊數(shù)據(jù))和actor-critic算法(通過學(xué)習(xí)評論家來促進(jìn)策略更新)。


          圖1描述了不同類型的RL結(jié)構(gòu)。


          圖1(a)是最簡單的on-policy RL,其中智能體使用最新的數(shù)據(jù)來更新策略。在off-policy中,如圖1(b)所示,代理在重放緩沖區(qū)中收集歷史數(shù)據(jù),在重放緩沖區(qū)中學(xué)習(xí)策略。在行動者-評論者RL中,如1(c)所示,智能體學(xué)習(xí)評論者,其是長期回報的價值函數(shù),然后學(xué)習(xí)批評者輔助的策略(行動者)。


          如圖1(d)所示,MBRL顯式地學(xué)習(xí)一個模型。與策略外RL相比,MBRL重構(gòu)了狀態(tài)轉(zhuǎn)移的動態(tài)過程,而策略外RL只是簡單地使用重放緩沖區(qū)來更穩(wěn)健地估計值。雖然價值函數(shù)或批評的計算涉及到轉(zhuǎn)移動力學(xué)的信息,但MBRL中的學(xué)習(xí)模型與策略解耦,因此可以用于評估其他策略,而價值函數(shù)與抽樣策略綁定。此外,請注意,非策略、演員-評論者和基于模型是三個并行的結(jié)構(gòu),圖1(e)顯示了它們的可能組合。


          RL算法的體系結(jié)構(gòu)。圖中顯示了RL的訓(xùn)練迭代,重點是如何利用交互數(shù)據(jù)


          通過足夠準(zhǔn)確的模型,可以直觀地看到MBRL比MFRL產(chǎn)生更高的樣本效率。


          然而,在大量具有相對復(fù)雜環(huán)境的DRL任務(wù)中,要學(xué)習(xí)一個理想的模型并非易事。因此,我們需要仔細(xì)考慮模型學(xué)習(xí)和模型使用的方法。

          瀏覽 41
          點贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  激情五月毛片 | 免费的看污片丝瓜视频 | 麻豆123区 | 欧美亚州视频 | 国产1234操逼 |