【CMU博士論文】通過記憶的元強(qiáng)化學(xué)習(xí)數(shù)據(jù)派THU關(guān)注共 983字,需瀏覽 2分鐘 ·2022-07-01 02:45 來源:專知本文為論文介紹,建議閱讀5分鐘本文中,我們查看了所有怪物統(tǒng)計數(shù)據(jù),以及它們與CR以及彼此之間的關(guān)系程度。現(xiàn)代深度強(qiáng)化學(xué)習(xí)(RL)算法,盡管處于人工智能能力的最前沿,但通常需要大量的訓(xùn)練樣本才能達(dá)到與人類相當(dāng)?shù)男阅芩?。這種嚴(yán)重的數(shù)據(jù)效率低下是深度RL實際應(yīng)用的主要障礙:在沒有模擬器的情況下,深度RL幾乎不可能應(yīng)用于任何領(lǐng)域。為了解決這種關(guān)鍵數(shù)據(jù)效率低下的問題,在本論文中,我們致力于設(shè)計能夠快速適應(yīng)新環(huán)境的元學(xué)習(xí)智能體。與標(biāo)準(zhǔn)的強(qiáng)化學(xué)習(xí)相比,元學(xué)習(xí)在特定的環(huán)境分布上進(jìn)行學(xué)習(xí),從這些環(huán)境中采樣特定的任務(wù),并直接優(yōu)化元學(xué)習(xí)器,以提高策略改進(jìn)的速度。通過利用與感興趣任務(wù)具有共同子結(jié)構(gòu)的任務(wù)分布,元學(xué)習(xí)器可以調(diào)整自己的歸納偏見,使其能夠在測試時快速適應(yīng)。本論文的重點是設(shè)計元學(xué)習(xí)算法,利用記憶作為驅(qū)動快速適應(yīng)新環(huán)境的主要機(jī)制。具有情景間記憶的元學(xué)習(xí)是一類元學(xué)習(xí)方法,利用基于特定環(huán)境的整個交互歷史的記憶架構(gòu)來產(chǎn)生策略。因此,在特定任務(wù)中驅(qū)動策略改進(jìn)的學(xué)習(xí)動態(tài)被包含在序列模型的計算過程中,本質(zhì)上把學(xué)習(xí)算法的設(shè)計交給了體系結(jié)構(gòu)。雖然概念簡單,但使用情景間記憶的元學(xué)習(xí)非常有效,仍然是最先進(jìn)的方法。我們提出并討論了幾種通過記憶進(jìn)行元學(xué)習(xí)的技術(shù)。論文的第一部分集中在“具身”類環(huán)境,其中一個主體在一個類似自然世界的環(huán)境中有物理表現(xiàn)。我們利用這種高度結(jié)構(gòu)化的環(huán)境集來設(shè)計具有快速記憶、規(guī)劃和狀態(tài)推斷能力的整體嵌入式代理體系結(jié)構(gòu)。在論文的第二部分,我們將重點放在沒有強(qiáng)公共子結(jié)構(gòu)的一般環(huán)境中應(yīng)用的方法。首先,我們重新檢查元學(xué)習(xí)代理與環(huán)境的交互模式:提出用一個并行執(zhí)行框架來取代典型的順序處理交互歷史,其中多個智能體并行地在環(huán)境中行動。接下來,我們討論了一個通用的和強(qiáng)大的序列模型的使用片段間存儲器,門控transformer,展示了性能和數(shù)據(jù)效率的巨大改進(jìn)。最后,我們開發(fā)了一種方法,可以顯著降低(元)強(qiáng)化學(xué)習(xí)設(shè)置中transformer模型的訓(xùn)練成本和作用延遲,目的是(1)使它們在研究社區(qū)中更廣泛地使用,(2)解鎖它們在實時和延遲受限的應(yīng)用中使用,如機(jī)器人。https://www.ml.cmu.edu/research/phd-dissertation-pdfs/eparisot_phd_mld_2021.pdf 瀏覽 51點贊 評論 收藏 分享 手機(jī)掃一掃分享分享 舉報 評論圖片表情視頻評價全部評論推薦 【強(qiáng)化學(xué)習(xí)】深度強(qiáng)化學(xué)習(xí)入門介紹機(jī)器學(xué)習(xí)初學(xué)者0AutoML入侵強(qiáng)化學(xué)習(xí)!Google用「元學(xué)習(xí)」來強(qiáng)化學(xué)習(xí),ICLR2021已接收新智元0強(qiáng)化學(xué)習(xí)綜述pytorch玩轉(zhuǎn)深度學(xué)習(xí)0強(qiáng)化學(xué)習(xí),開源?。?/a>NLP從入門到放棄0深度學(xué)習(xí)的發(fā)展方向: 深度強(qiáng)化學(xué)習(xí)!小白學(xué)視覺0深度學(xué)習(xí)的發(fā)展方向: 深度強(qiáng)化學(xué)習(xí)!Datawhale0強(qiáng)化學(xué)習(xí),路在何方?Datawhale0深度學(xué)習(xí),強(qiáng)化學(xué)習(xí) ,遷移學(xué)習(xí)數(shù)據(jù)科學(xué)與人工智能0【深度學(xué)習(xí)】深度學(xué)習(xí)的發(fā)展方向: 深度強(qiáng)化學(xué)習(xí)!機(jī)器學(xué)習(xí)初學(xué)者0腦的學(xué)習(xí)與記憶作者是美國伊利諾伊州皮爾利亞市的一位中學(xué)教師,在接受始于腦的(brain-compatible)教學(xué)點贊 評論 收藏 分享 手機(jī)掃一掃分享分享 舉報