<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          基于自適應(yīng)策略轉(zhuǎn)移的深度強(qiáng)化學(xué)習(xí)

          共 1308字,需瀏覽 3分鐘

           ·

          2021-11-15 22:10

          點(diǎn)擊上方小白學(xué)視覺”,選擇加"星標(biāo)"或“置頂

          重磅干貨,第一時間送達(dá)

          Efficient Deep Reinforcement Learning via Adaptive Policy Transfer

          • 作者:Tianpei Yang、Jianye Hao、Zhaopeng Meng 等

          • 論文鏈接:https://arxiv.org/pdf/2002.08037.pdf


          摘要:通過利用過去學(xué)得的相關(guān)任務(wù)策略的先驗(yàn)知識,遷移學(xué)習(xí)(Transfer Learning, TL)在加速強(qiáng)化學(xué)習(xí)方面表現(xiàn)出了極大的潛力。現(xiàn)有的遷移方法要么顯式地計算任務(wù)間的相似度,要么選擇合適的源策略為目標(biāo)任務(wù)提供指導(dǎo)性探索。但是,如何利用合適的源策略知識并且隱式地度量相似度,進(jìn)而直接優(yōu)化目標(biāo)策略,這種思路的研究目前是缺失的。

          因此,在本文中,來自華為諾亞方舟實(shí)驗(yàn)室等機(jī)構(gòu)的研究者提出的新型策略遷移框架(Policy Transfer Framework, PTF)通過利用上述思路來加速強(qiáng)化學(xué)習(xí)。該框架學(xué)習(xí)對于目標(biāo)策略來說何時復(fù)用以及復(fù)用哪種源策略才能達(dá)到最佳效果,以及通過將多策略遷移建模為選擇學(xué)習(xí)問題來確定何時終止這種源策略。

          本研究中策略遷移框架(PTF)示意圖。

          算法 1:PTF-A3C。

          兩種風(fēng)格的網(wǎng)格世界(Grid world)W 和 W』。

          兩種具有連續(xù)控制的評估環(huán)境。

          推薦:實(shí)驗(yàn)表明,這種新型策略遷移框架能夠顯著加速學(xué)習(xí)過程,并在獨(dú)立和連續(xù)動作空間中的學(xué)習(xí)效率和最終性能兩方面超越了當(dāng)前 SOTA 策略遷移方法。

          end


          下載1:OpenCV-Contrib擴(kuò)展模塊中文版教程
          在「小白學(xué)視覺」公眾號后臺回復(fù):擴(kuò)展模塊中文教程,即可下載全網(wǎng)第一份OpenCV擴(kuò)展模塊教程中文版,涵蓋擴(kuò)展模塊安裝、SFM算法、立體視覺、目標(biāo)跟蹤、生物視覺、超分辨率處理等二十多章內(nèi)容。

          下載2:Python視覺實(shí)戰(zhàn)項(xiàng)目52講
          小白學(xué)視覺公眾號后臺回復(fù):Python視覺實(shí)戰(zhàn)項(xiàng)目,即可下載包括圖像分割、口罩檢測、車道線檢測、車輛計數(shù)、添加眼線、車牌識別、字符識別、情緒檢測、文本內(nèi)容提取、面部識別等31個視覺實(shí)戰(zhàn)項(xiàng)目,助力快速學(xué)校計算機(jī)視覺。

          下載3:OpenCV實(shí)戰(zhàn)項(xiàng)目20講
          小白學(xué)視覺公眾號后臺回復(fù):OpenCV實(shí)戰(zhàn)項(xiàng)目20講,即可下載含有20個基于OpenCV實(shí)現(xiàn)20個實(shí)戰(zhàn)項(xiàng)目,實(shí)現(xiàn)OpenCV學(xué)習(xí)進(jìn)階。

          交流群


          歡迎加入公眾號讀者群一起和同行交流,目前有SLAM、三維視覺、傳感器、自動駕駛、計算攝影、檢測、分割、識別、醫(yī)學(xué)影像、GAN、算法競賽等微信群(以后會逐漸細(xì)分),請掃描下面微信號加群,備注:”昵稱+學(xué)校/公司+研究方向“,例如:”張三?+?上海交大?+?視覺SLAM“。請按照格式備注,否則不予通過。添加成功后會根據(jù)研究方向邀請進(jìn)入相關(guān)微信群。請勿在群內(nèi)發(fā)送廣告,否則會請出群,謝謝理解~


          瀏覽 64
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  激情内射一区 | 狼友导航 | 人妻18p | 三级片久久 | 可以免费看的成人网站 |