<kbd id="afajh"><form id="afajh"></form></kbd><strong id="afajh"><dl id="afajh"></dl></strong>

<del id="afajh"><form id="afajh"></form></del>

<th id="afajh"><progress id="afajh"></progress></th>

<b id="afajh"><abbr id="afajh"></abbr></b>

<th id="afajh"><progress id="afajh"></progress></th>

【ICML2022】基于對(duì)比學(xué)習(xí)的離線元強(qiáng)化學(xué)習(xí)的魯棒任務(wù)表示

數(shù)據(jù)派THU

共 392字，需瀏覽 1分鐘

·

2022-06-26 23:45

來源：專知
本文為論文介紹，建議閱讀5分鐘
我們的方法比以前的方法更有優(yōu)勢(shì)，特別是在泛化到非分布行為策略上。

我們研究離線元強(qiáng)化學(xué)習(xí)，這是一種實(shí)用的強(qiáng)化學(xué)習(xí)范式，從離線數(shù)據(jù)中學(xué)習(xí)以適應(yīng)新的任務(wù)。離線數(shù)據(jù)的分布由行為策略和任務(wù)共同決定。現(xiàn)有的離線元強(qiáng)化學(xué)習(xí)算法無法區(qū)分這些因素，導(dǎo)致任務(wù)表示對(duì)行為策略的變化不穩(wěn)定。為了解決這個(gè)問題，我們提出了一個(gè)任務(wù)表示的對(duì)比學(xué)習(xí)框架，該框架對(duì)訓(xùn)練和測(cè)試中的行為策略分布不匹配具有魯棒性。我們?cè)O(shè)計(jì)了一個(gè)雙層編碼器結(jié)構(gòu)，使用互信息最大化來形式化任務(wù)表示學(xué)習(xí)，導(dǎo)出了一個(gè)對(duì)比學(xué)習(xí)目標(biāo)，并引入了幾種方法來近似負(fù)對(duì)的真實(shí)分布。在各種離線元強(qiáng)化學(xué)習(xí)基準(zhǔn)上的實(shí)驗(yàn)表明，我們的方法比以前的方法更有優(yōu)勢(shì)，特別是在泛化到非分布行為策略上。代碼可以在https://github.com/PKU-AI-Edge/CORRO上找到。

瀏覽 54

點(diǎn)贊

收藏

分享

舉報(bào)

評(píng)論

圖片

表情

Dopamine基于 Tensorflow 的強(qiáng)化學(xué)習(xí)框架

Dopamine是由GoogleAI實(shí)驗(yàn)室推出的一個(gè)基于Tensorflow的強(qiáng)化學(xué)習(xí)（RL）框架，旨在為新手和資深RL研究人員提供靈活性、穩(wěn)定性和可重復(fù)性。該框架受大腦中的獎(jiǎng)勵(lì)動(dòng)機(jī)行為啟發(fā)，反映了神

Dopamine基于 Tensorflow 的強(qiáng)化學(xué)習(xí)框架

Dopamine 是由 Google AI 實(shí)驗(yàn)室推出的一個(gè)基于 Tensorflow 的強(qiáng)化學(xué)習(xí)（

基于強(qiáng)化學(xué)習(xí)的自動(dòng)化剪枝模型

視學(xué)算法

深度學(xué)習(xí)的發(fā)展方向：深度強(qiáng)化學(xué)習(xí)！

小白學(xué)視覺

深度學(xué)習(xí)的發(fā)展方向：深度強(qiáng)化學(xué)習(xí)！

【深度學(xué)習(xí)】深度學(xué)習(xí)的發(fā)展方向：深度強(qiáng)化學(xué)習(xí)！

機(jī)器學(xué)習(xí)初學(xué)者

Tianshou（天授）基于 PyTorch 的強(qiáng)化學(xué)習(xí)平臺(tái)

Tianshou（天授）是純基于?PyTorch的強(qiáng)化學(xué)習(xí)平臺(tái)，與現(xiàn)有的主要基于TensorFlow的強(qiáng)化學(xué)習(xí)庫不同，Tianshou沒有繁雜的嵌套類、不友好的API和速度較慢的代碼，其提供了用于構(gòu)建

Tianshou（天授）基于 PyTorch 的強(qiáng)化學(xué)習(xí)平臺(tái)

Tianshou（天授）是純基于?PyTorch 的強(qiáng)化學(xué)習(xí)平臺(tái)，與現(xiàn)有的主要基于 TensorFl

基于視覺模型強(qiáng)化學(xué)習(xí)的通用機(jī)器人

小白學(xué)視覺

TensorLayer基于TensorFlow的新型深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)庫

TensorLayer是一個(gè)基于TensorFlow的新型深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)庫，專為研究人員和工程師而設(shè)計(jì)。它提供了大量可自定義的神經(jīng)層/功能，這些是構(gòu)建真實(shí)AI應(yīng)用程序的關(guān)鍵。TensorLayer

點(diǎn)贊

收藏

分享

舉報(bào)

<kbd id="afajh"><form id="afajh"></form></kbd><strong id="afajh"><dl id="afajh"></dl></strong>

<del id="afajh"><form id="afajh"></form></del>

<th id="afajh"><progress id="afajh"></progress></th>

<b id="afajh"><abbr id="afajh"></abbr></b>

<th id="afajh"><progress id="afajh"></progress></th>

围产精品久久久久久久粉嫩 | 国产网站污 | A日本免费| 国产一级婬片A片AAA毛片炙热 | 女人被男人操黄色午夜网止 |