【MIT博士論文】數(shù)據(jù)高效強化學(xué)習(xí)數(shù)據(jù)派THU關(guān)注共 977字,需瀏覽 2分鐘 ·2022-07-16 20:37 來源:專知本文為論文介紹,建議閱讀5分鐘本周重要論文包括:CVPR 2022各種獲獎?wù)撐摹?/span>強化學(xué)習(xí)(Reinforcement learning, RL)是一種學(xué)習(xí)復(fù)雜決策策略的通用而強大的解決方案,為游戲和機器人等多個領(lǐng)域的近期成功提供了關(guān)鍵的基礎(chǔ)。然而,許多最先進的算法需要大量的數(shù)據(jù),計算成本很高,需要大量的數(shù)據(jù)才能成功。雖然這在某些情況下是可能的,例如在可用數(shù)據(jù)稀少的社會科學(xué)和醫(yī)療健康應(yīng)用程序中,這自然會昂貴或不可行的。隨著人們對將RL應(yīng)用到更廣泛的領(lǐng)域的興趣的激增,對其算法設(shè)計中涉及的數(shù)據(jù)的使用形成一種明智的觀點是勢在必行的。因此,本文主要從結(jié)構(gòu)的角度研究RL的數(shù)據(jù)效率。沿著這個方向發(fā)展自然需要我們理解算法何時以及為什么會成功;并在此基礎(chǔ)上進一步提高數(shù)據(jù)挖掘的數(shù)據(jù)效率。為此,本文首先從實證成功案例中汲取啟示。我們考慮了基于模擬的蒙特卡洛樹搜索(MCTS)在RL中的流行,以AlphaGo Zero的卓越成就為例,并探討了納入這一關(guān)鍵成分的數(shù)據(jù)效率。具體來說,我們研究了使用這種樹結(jié)構(gòu)來估計值和描述相應(yīng)數(shù)據(jù)復(fù)雜性的正確形式。這些結(jié)果進一步使我們能夠分析將MCTS與監(jiān)督學(xué)習(xí)相結(jié)合的RL算法的數(shù)據(jù)復(fù)雜性,就像在AlphaGo Zero中所做的那樣。有了更好的理解之后,下一步,我們改進了基于模擬的數(shù)據(jù)高效RL算法的算法設(shè)計,這些算法可以訪問生成模型。我們?yōu)橛薪缈臻g和無界空間都提供了這樣的改進。我們的第一個貢獻是通過一個新穎的低秩表示Q函數(shù)的結(jié)構(gòu)框架。提出的數(shù)據(jù)高效的RL算法利用低秩結(jié)構(gòu),通過一種新的矩陣估計技術(shù),只查詢/模擬狀態(tài)-動作對的一個子集來執(zhí)行偽探索。值得注意的是,這導(dǎo)致了數(shù)據(jù)復(fù)雜度的顯著(指數(shù)級)提高。說到我們對無界空間的努力,我們必須首先解決無界域引起的獨特的概念挑戰(zhàn)。受經(jīng)典排隊系統(tǒng)的啟發(fā),我們提出了一個適當(dāng)?shù)姆€(wěn)定性概念來量化策略的“好”。隨后,通過利用底層系統(tǒng)的穩(wěn)定性結(jié)構(gòu),我們設(shè)計了高效、自適應(yīng)的算法,采用改進的、高效的蒙特卡洛oracle,以良好的數(shù)據(jù)復(fù)雜度(對感興趣的參數(shù)是多項式)保證了所需的穩(wěn)定性??傊?,通過新的分析工具和結(jié)構(gòu)框架,本文有助于數(shù)據(jù)高效的RL算法的設(shè)計和分析。https://dspace.mit.edu/handle/1721.1/138930 瀏覽 109點贊 評論 收藏 分享 手機掃一掃分享分享 舉報 評論圖片表情視頻評價全部評論推薦 【強化學(xué)習(xí)】深度強化學(xué)習(xí)入門介紹機器學(xué)習(xí)初學(xué)者0高效學(xué)習(xí)高效學(xué)習(xí)0高效學(xué)習(xí)高效學(xué)習(xí)0高效學(xué)習(xí)《高效學(xué)習(xí):我們所知道的理解性教學(xué)》是美國斯坦福大學(xué)教授、奧巴馬政府現(xiàn)行教育政策改革團隊領(lǐng)導(dǎo)人琳達·高效學(xué)習(xí)嘿,有一個關(guān)于學(xué)習(xí)的陷阱你可能沒有注意到。 那就是——我們其實無論是閱讀,還是通過網(wǎng)絡(luò)學(xué)習(xí),歸高效學(xué)習(xí)高效學(xué)習(xí)0強化學(xué)習(xí)綜述pytorch玩轉(zhuǎn)深度學(xué)習(xí)0強化學(xué)習(xí),開源?。?/a>NLP從入門到放棄0強化學(xué)習(xí),路在何方?Datawhale0深度學(xué)習(xí),強化學(xué)習(xí) ,遷移學(xué)習(xí)數(shù)據(jù)科學(xué)與人工智能0點贊 評論 收藏 分享 手機掃一掃分享分享 舉報