【ICML2022】基于對(duì)比學(xué)習(xí)的離線元強(qiáng)化學(xué)習(xí)的魯棒任務(wù)表示數(shù)據(jù)派THU關(guān)注共 392字,需瀏覽 1分鐘 ·2022-06-26 23:45 來源:專知本文為論文介紹,建議閱讀5分鐘我們的方法比以前的方法更有優(yōu)勢(shì),特別是在泛化到非分布行為策略上。我們研究離線元強(qiáng)化學(xué)習(xí),這是一種實(shí)用的強(qiáng)化學(xué)習(xí)范式,從離線數(shù)據(jù)中學(xué)習(xí)以適應(yīng)新的任務(wù)。離線數(shù)據(jù)的分布由行為策略和任務(wù)共同決定。現(xiàn)有的離線元強(qiáng)化學(xué)習(xí)算法無法區(qū)分這些因素,導(dǎo)致任務(wù)表示對(duì)行為策略的變化不穩(wěn)定。為了解決這個(gè)問題,我們提出了一個(gè)任務(wù)表示的對(duì)比學(xué)習(xí)框架,該框架對(duì)訓(xùn)練和測(cè)試中的行為策略分布不匹配具有魯棒性。我們?cè)O(shè)計(jì)了一個(gè)雙層編碼器結(jié)構(gòu),使用互信息最大化來形式化任務(wù)表示學(xué)習(xí),導(dǎo)出了一個(gè)對(duì)比學(xué)習(xí)目標(biāo),并引入了幾種方法來近似負(fù)對(duì)的真實(shí)分布。在各種離線元強(qiáng)化學(xué)習(xí)基準(zhǔn)上的實(shí)驗(yàn)表明,我們的方法比以前的方法更有優(yōu)勢(shì),特別是在泛化到非分布行為策略上。代碼可以在https://github.com/PKU-AI-Edge/CORRO上找到。 瀏覽 54點(diǎn)贊 評(píng)論 收藏 分享 手機(jī)掃一掃分享分享 舉報(bào) 評(píng)論圖片表情視頻評(píng)價(jià)全部評(píng)論推薦 Dopamine基于 Tensorflow 的強(qiáng)化學(xué)習(xí)框架Dopamine是由GoogleAI實(shí)驗(yàn)室推出的一個(gè)基于Tensorflow的強(qiáng)化學(xué)習(xí)(RL)框架,旨在為新手和資深RL研究人員提供靈活性、穩(wěn)定性和可重復(fù)性。該框架受大腦中的獎(jiǎng)勵(lì)動(dòng)機(jī)行為啟發(fā),反映了神Dopamine基于 Tensorflow 的強(qiáng)化學(xué)習(xí)框架Dopamine 是由 Google AI 實(shí)驗(yàn)室推出的一個(gè)基于 Tensorflow 的強(qiáng)化學(xué)習(xí)(基于強(qiáng)化學(xué)習(xí)的自動(dòng)化剪枝模型視學(xué)算法0深度學(xué)習(xí)的發(fā)展方向: 深度強(qiáng)化學(xué)習(xí)!小白學(xué)視覺0深度學(xué)習(xí)的發(fā)展方向: 深度強(qiáng)化學(xué)習(xí)!Datawhale0【深度學(xué)習(xí)】深度學(xué)習(xí)的發(fā)展方向: 深度強(qiáng)化學(xué)習(xí)!機(jī)器學(xué)習(xí)初學(xué)者0Tianshou(天授)基于 PyTorch 的強(qiáng)化學(xué)習(xí)平臺(tái)Tianshou(天授)是純基于?PyTorch的強(qiáng)化學(xué)習(xí)平臺(tái),與現(xiàn)有的主要基于TensorFlow的強(qiáng)化學(xué)習(xí)庫不同,Tianshou沒有繁雜的嵌套類、不友好的API和速度較慢的代碼,其提供了用于構(gòu)建Tianshou(天授)基于 PyTorch 的強(qiáng)化學(xué)習(xí)平臺(tái)Tianshou(天授)是純基于?PyTorch 的強(qiáng)化學(xué)習(xí)平臺(tái),與現(xiàn)有的主要基于 TensorFl基于視覺模型強(qiáng)化學(xué)習(xí)的通用機(jī)器人小白學(xué)視覺0TensorLayer基于TensorFlow的新型深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)庫TensorLayer是一個(gè)基于TensorFlow的新型深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)庫,專為研究人員和工程師而設(shè)計(jì)。它提供了大量可自定義的神經(jīng)層/功能,這些是構(gòu)建真實(shí)AI應(yīng)用程序的關(guān)鍵。TensorLayer點(diǎn)贊 評(píng)論 收藏 分享 手機(jī)掃一掃分享分享 舉報(bào)