<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          【ICML2022】基于對(duì)比學(xué)習(xí)的離線元強(qiáng)化學(xué)習(xí)的魯棒任務(wù)表示

          共 392字,需瀏覽 1分鐘

           ·

          2022-06-26 23:45


          來源:專知
          本文為論文介紹,建議閱讀5分鐘
          我們的方法比以前的方法更有優(yōu)勢(shì),特別是在泛化到非分布行為策略上。


          我們研究離線元強(qiáng)化學(xué)習(xí),這是一種實(shí)用的強(qiáng)化學(xué)習(xí)范式,從離線數(shù)據(jù)中學(xué)習(xí)以適應(yīng)新的任務(wù)。離線數(shù)據(jù)的分布由行為策略和任務(wù)共同決定。現(xiàn)有的離線元強(qiáng)化學(xué)習(xí)算法無法區(qū)分這些因素,導(dǎo)致任務(wù)表示對(duì)行為策略的變化不穩(wěn)定。為了解決這個(gè)問題,我們提出了一個(gè)任務(wù)表示的對(duì)比學(xué)習(xí)框架,該框架對(duì)訓(xùn)練和測(cè)試中的行為策略分布不匹配具有魯棒性。我們?cè)O(shè)計(jì)了一個(gè)雙層編碼器結(jié)構(gòu),使用互信息最大化來形式化任務(wù)表示學(xué)習(xí),導(dǎo)出了一個(gè)對(duì)比學(xué)習(xí)目標(biāo),并引入了幾種方法來近似負(fù)對(duì)的真實(shí)分布。在各種離線元強(qiáng)化學(xué)習(xí)基準(zhǔn)上的實(shí)驗(yàn)表明,我們的方法比以前的方法更有優(yōu)勢(shì),特別是在泛化到非分布行為策略上。代碼可以在https://github.com/PKU-AI-Edge/CORRO上找到。





          瀏覽 54
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  围产精品久久久久久久粉嫩 | 国产网站污 | A日本免费| 国产一级婬片A片AAA毛片炙热 | 女人被男人操黄色午夜网止 |