<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          【MIT博士論文】數(shù)據(jù)高效強化學(xué)習(xí)

          共 977字,需瀏覽 2分鐘

           ·

          2022-07-16 20:37


          來源:專知
          本文為論文介紹,建議閱讀5分鐘
          本周重要論文包括:CVPR 2022各種獲獎?wù)撐摹?/span>


          強化學(xué)習(xí)(Reinforcement learning, RL)是一種學(xué)習(xí)復(fù)雜決策策略的通用而強大的解決方案,為游戲和機器人等多個領(lǐng)域的近期成功提供了關(guān)鍵的基礎(chǔ)。然而,許多最先進的算法需要大量的數(shù)據(jù),計算成本很高,需要大量的數(shù)據(jù)才能成功。雖然這在某些情況下是可能的,例如在可用數(shù)據(jù)稀少的社會科學(xué)和醫(yī)療健康應(yīng)用程序中,這自然會昂貴或不可行的。隨著人們對將RL應(yīng)用到更廣泛的領(lǐng)域的興趣的激增,對其算法設(shè)計中涉及的數(shù)據(jù)的使用形成一種明智的觀點是勢在必行的。


          因此,本文主要從結(jié)構(gòu)的角度研究RL的數(shù)據(jù)效率。沿著這個方向發(fā)展自然需要我們理解算法何時以及為什么會成功;并在此基礎(chǔ)上進一步提高數(shù)據(jù)挖掘的數(shù)據(jù)效率。為此,本文首先從實證成功案例中汲取啟示。我們考慮了基于模擬的蒙特卡洛樹搜索(MCTS)在RL中的流行,以AlphaGo Zero的卓越成就為例,并探討了納入這一關(guān)鍵成分的數(shù)據(jù)效率。具體來說,我們研究了使用這種樹結(jié)構(gòu)來估計值和描述相應(yīng)數(shù)據(jù)復(fù)雜性的正確形式。這些結(jié)果進一步使我們能夠分析將MCTS與監(jiān)督學(xué)習(xí)相結(jié)合的RL算法的數(shù)據(jù)復(fù)雜性,就像在AlphaGo Zero中所做的那樣。


          有了更好的理解之后,下一步,我們改進了基于模擬的數(shù)據(jù)高效RL算法的算法設(shè)計,這些算法可以訪問生成模型。我們?yōu)橛薪缈臻g和無界空間都提供了這樣的改進。我們的第一個貢獻是通過一個新穎的低秩表示Q函數(shù)的結(jié)構(gòu)框架。提出的數(shù)據(jù)高效的RL算法利用低秩結(jié)構(gòu),通過一種新的矩陣估計技術(shù),只查詢/模擬狀態(tài)-動作對的一個子集來執(zhí)行偽探索。值得注意的是,這導(dǎo)致了數(shù)據(jù)復(fù)雜度的顯著(指數(shù)級)提高。說到我們對無界空間的努力,我們必須首先解決無界域引起的獨特的概念挑戰(zhàn)。受經(jīng)典排隊系統(tǒng)的啟發(fā),我們提出了一個適當(dāng)?shù)姆€(wěn)定性概念來量化策略的“好”。隨后,通過利用底層系統(tǒng)的穩(wěn)定性結(jié)構(gòu),我們設(shè)計了高效、自適應(yīng)的算法,采用改進的、高效的蒙特卡洛oracle,以良好的數(shù)據(jù)復(fù)雜度(對感興趣的參數(shù)是多項式)保證了所需的穩(wěn)定性??傊?,通過新的分析工具和結(jié)構(gòu)框架,本文有助于數(shù)據(jù)高效的RL算法的設(shè)計和分析。


          https://dspace.mit.edu/handle/1721.1/138930







          瀏覽 109
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  全国最大色综合网 | 自慰大秀 | 黄色片三级片在线看网站 | 天天搞天天射 | 中国黄色A片 |