<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          谷歌大腦和DeepMind聯(lián)合發(fā)布離線強化學(xué)習(xí)基準(zhǔn),將各種RL研究從線...

          共 3172字,需瀏覽 7分鐘

           ·

          2020-06-28 23:20

          e4fda5971efd2f07053043b3fc656565.webp


          ??新智元報道??

          來源:arxiv

          編輯:白峰

          【新智元導(dǎo)讀】離線強化學(xué)習(xí)方法可以幫我們彌合強化學(xué)習(xí)研究與實際應(yīng)用之間的差距。近日,Google和DeepMind推出的RL Unplugged使從離線數(shù)據(jù)集中學(xué)習(xí)策略成為可能,從而克服了現(xiàn)實世界中與在線數(shù)據(jù)收集相關(guān)的問題,包括成本,安全性等問題。

          ?

          最近,Google Brain和DeepMind聯(lián)合提出了一個稱為RL Unplugged的基準(zhǔn),以評估和比較離線RL方法。RL Unplugged包含來自多個領(lǐng)域的數(shù)據(jù),包括游戲(例如Atari基準(zhǔn)測試)和模擬的電機控制等(例如DM Control Suite)。?RL Unplugged為每個任務(wù)域提出了詳細(xì)的評估方法,對監(jiān)督學(xué)習(xí)和離線RL方法進行了廣泛的分析,數(shù)據(jù)集包括部分或完全可觀察的任務(wù)域,使用連續(xù)或離散的動作,并且具有隨機性和非平穩(wěn)性等,能很好地評估強化學(xué)習(xí)智能體的性能。


          為什么需要離線強化學(xué)習(xí)


          近年來,強化學(xué)習(xí)(RL)取得了重要突破,包括擊敗《星際爭霸II》和DOTA人類玩家的長程決策(2019年),機器人的高維運動控制等(Akkaya等人,2019年)。?但是,這些成功很大程度上取決于智能體與環(huán)境的反復(fù)在線交互。盡管在模擬方面取得了成功,但在現(xiàn)實中很難推廣。發(fā)電廠,機器人,醫(yī)療保健系統(tǒng)或自動駕駛汽車的運行成本很高,這些場景下的試驗可能會帶來危險的后果。? ? ?ebd90032a7b26ddaf6c2b518d79bf1d7.webp? ? ? ?在實時 RL 中,算法在線收集學(xué)習(xí)經(jīng)驗? ? ? ? ?91ffc50331469af4eb4bf5ccb63d0838.webp? ? ? ?在離線 RL 中,經(jīng)驗都是離線收集?因此離線強化學(xué)習(xí)再度興起。離線RL可以從離線的數(shù)據(jù)中學(xué)習(xí)新策略,而無需與環(huán)境進行任何真實的交互。RL 算法從這些離線數(shù)據(jù)集學(xué)習(xí)的能力,對于我們未來構(gòu)建機器學(xué)習(xí)系統(tǒng)的方式有巨大的潛在影響。?

          離線強化學(xué)習(xí)的難點在哪?


          之前,對 RL 進行離線基準(zhǔn)測試的方法僅限于一個場景: 數(shù)據(jù)集來自某個隨機或先前訓(xùn)練過的策略,算法的目標(biāo)是提高原策略的性能。 這種方法的問題是,現(xiàn)實世界的數(shù)據(jù)集不可能由單一的 RL 訓(xùn)練的策略產(chǎn)生,而且這種方法不能泛化到其他的場景。?

          ?缺乏基線讓算法評估變得困難。在當(dāng)前的離線RL研究中,實際應(yīng)用領(lǐng)域的重要屬性,高維感知流(例如圖像),不同的動作空間等覆蓋不全,非平穩(wěn)性和隨機性不足,使得現(xiàn)存的基準(zhǔn)很難評估離線RL算法的實用性。?因此,比較算法并確保其可重復(fù)性顯得尤為重要,RL Unplugged的目的就是通過提出通用的基準(zhǔn),數(shù)據(jù)集,評估協(xié)議和代碼來解決這些問題。?具有強大基準(zhǔn)的大型數(shù)據(jù)集一直是機器學(xué)習(xí)成功的主要因素。例如計算機視覺中最常使用的數(shù)據(jù)集ImageNet和COCO等,而強化學(xué)習(xí)中主要使用游戲數(shù)據(jù),其中模擬器為在線RL智能體(例如AlphaGo)提供了豐富的數(shù)據(jù),而缺少明確基準(zhǔn)的數(shù)據(jù)集會阻礙RL的發(fā)展。? ? ? ?13a7c8f25772e7d31449b102cc237b8c.webp? ? ? ?現(xiàn)實世界中的RL問題都需要通用的算法解決方案,并且可以在各種挑戰(zhàn)中展現(xiàn)出強大的性能。我們的基準(zhǔn)套件旨在涵蓋一系列屬性,以確定學(xué)習(xí)問題的難度并影響解決方案策略的選擇。?

          RL Unplugged讓離線強化學(xué)習(xí)成為現(xiàn)實

          ?
          RL Unplugged的初始版本中包含了廣泛的任務(wù)域,包括Atari游戲和模擬機器人任務(wù)。盡管所用環(huán)境的性質(zhì)不同,RL Unplugged還是為數(shù)據(jù)集提供了統(tǒng)一的API。任何數(shù)據(jù)集中的每個條目都由狀態(tài)(st),動作(at),獎勵(rt),下一個狀態(tài)(st + 1)和下一個動作(at + 1)組成。對于序列數(shù)據(jù),還提供了將來的狀態(tài),動作和獎勵,從而可以訓(xùn)練需要內(nèi)存的任務(wù)。?RL Unplugged的主要貢獻:(i)統(tǒng)一的數(shù)據(jù)集API(ii)各種離線環(huán)境(iii)離線RL研究的評估協(xié)議(iv)參考基準(zhǔn)。RL Unplugged中的數(shù)據(jù)集可將各種在線RL研究轉(zhuǎn)為離線的,而無需處理RL的探索組件。?? ? ??cbc5cfe9a02949d5cce77933100e168c.webp?數(shù)據(jù)集?動作空間包括具有離散和連續(xù)動作空間以及可變動作維度(最多56個維度)的任務(wù)。?觀察空間包括可以從MDP的低維自然狀態(tài)空間解決的任務(wù),還包括由高維圖像組成的任務(wù)(例如Atari 2600)等。?部分可見性和對內(nèi)存的需求部分,包括以特征向量完整表示MDP狀態(tài)的任務(wù),以及需要智能體整合不同長度范圍內(nèi)的信息來估計狀態(tài)的任務(wù)。?探索難度包括的任務(wù)因探索難度的不同而有所變化,可調(diào)整的屬性有動作空間的大小,獎勵的稀疏性或?qū)W習(xí)問題的范圍。?為了更好地反映現(xiàn)實系統(tǒng)中遇到的困難,我們還包括「現(xiàn)實世界中的RL挑戰(zhàn)」任務(wù),涵蓋了動作延遲,隨機過渡動態(tài)性和非平穩(wěn)性等方面的內(nèi)容。?RL Unplugged引入了涵蓋不同任務(wù)的數(shù)據(jù)集。例如,在Atari 2600上,使用的大型數(shù)據(jù)集是通過對多個種子進行策略外智能體培訓(xùn)而生成的。相反,對于RWRL套件,使用了來自固定的次優(yōu)策略的數(shù)據(jù)。?評估方法?在嚴(yán)格的離線設(shè)置中,不允許進行環(huán)境交互。這使得超參數(shù)調(diào)整(包括確定何時停止訓(xùn)練過程)變得困難。這是因為我們無法采用由不同的超參數(shù)獲得的策略,并在環(huán)境中運行它們來確定哪些策略獲得更高的獎勵。理想情況下,離線RL將僅使用離線數(shù)據(jù)來評估由不同的超參數(shù)獲得的策略, 我們將此過程稱為離線策略選擇。在RL Unplugged中,我們想評估兩種設(shè)置下的離線RL性能。? ? ? ?f480b7f2135ac05fb44546794034f4be.webp(左)在線策略選擇進行評估的流程(右)離線策略選擇進行評估的流程?在線策略選擇進行評估(左),可以在線方式與環(huán)境互動來評估不同的超參數(shù)配置,讓我們能夠隔離評估離線RL方法的性能,但是它在許多現(xiàn)實環(huán)境中都是不可行的,因此,它對當(dāng)前離線RL方法的實用性過于樂觀。?離線策略選擇進行評估(右)并不受歡迎,但它確實很重要,因為它表明不完善的策略選擇的魯棒性,這更能反映離線RL對于實際問題的響應(yīng)情況。但是它也有缺點,即存在許多設(shè)計選擇,包括用于離線策略選擇的數(shù)據(jù),選擇哪種離線策略評估算法等問題。?兩種方法的優(yōu)劣還無定論,因此RL Unplugged的基準(zhǔn)可使用在線和離線策略選擇兩種方法進行評估。?任務(wù)域?對于每個任務(wù)域,RL Unplugged都對所包含的任務(wù)進行了詳細(xì)描述,指出哪些任務(wù)是針對在線和離線策略選擇的,并提供了相應(yīng)的數(shù)據(jù)描述。?
          • DM Control Suite,是在MuJoCo中實現(xiàn)的一組控制任務(wù)。

          • DM Locomotion,是涉及類人動物的運動任務(wù)。

          • Atari 2600,街機學(xué)習(xí)環(huán)境(ALE)套件,包含57套Atari 2600游戲(Atari57)。

          • Real-world Reinforcement Learning Suite,包括高維狀態(tài)和動作空間,較大的系統(tǒng)延遲,系統(tǒng)約束,多目標(biāo),處理非平穩(wěn)性和部分可觀察性等任務(wù)。


          基線模型?RL Unplugged為連續(xù)(DM Control Suite,DM Locomotion)和離散動作(Atari 2600)任務(wù)提供了基線模型。一些算法僅適用于離散或連續(xù)動作空間,因此我們僅在它們適合的任務(wù)中提供了評估算法。?? ? ??61dabaa69f2e9401d27df1f87a54374a.webpDM Control Suite Baselines.?(左)使用在線策略選擇進行評估的結(jié)果(右)使用離線策略選擇進行評估的結(jié)果?D4PG,BRAC和RABM在較輕松的任務(wù)( Cartpole swingup.)中表現(xiàn)較好。但是BC和RABM在較艱巨的任務(wù)(Humanoid run)上表現(xiàn)最佳。?展望未來,RL Unplugged將隨著RL研究社區(qū)和DeepMind貢獻的數(shù)據(jù)集逐漸發(fā)展壯大,離線學(xué)習(xí)也會在強化學(xué)習(xí)中占據(jù)自己的一席之地。?更多細(xì)節(jié)可參見:https://arxiv.org/pdf/2006.13888v1.pdf

          ?


          瀏覽 59
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  操逼视频下载 | 青娱乐亚洲无码 | 久久综合中文 | 91三级片在线播放 | 黄片在线播放免费观看a |