<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          DeepMind提出基于視覺的強化學習模型,十八般兵器對機器人不在話下

          共 1459字,需瀏覽 3分鐘

           ·

          2021-03-25 13:13



            新智元報道  

          來源:arxiv

          編輯:LRS

          【新智元導(dǎo)讀】人類能夠模仿別人的行為,根據(jù)給定的目標來規(guī)劃自己的行動。DeepMind最近發(fā)布了一個新模型,賦予機器人相同的能力,最終生成的模型與操作器、任務(wù)都無關(guān),具有更好地通用性。


          人類是擅于模仿的,我們和其他動物通過觀察行為來模仿,理解它對環(huán)境狀態(tài)的感知影響,并找出我們的身體可以采取什么行動來達到類似的結(jié)果。

           

          對于機器人學習任務(wù)來說,模仿學習是一個強大的工具。但在這類環(huán)境感知任務(wù)中,使用強化學習來指定一個回報函數(shù)卻是很困難的。

           

          DeepMind最新論文主要探索了僅從第三人稱視覺模仿操作軌跡的可能性,而不依賴action狀態(tài),團隊的靈感來自于一個機器人機械手模仿視覺上演示的復(fù)雜的行為。

           

           

          DeepMind提出的方法主要分為兩個階段:


          1、提出一種操作器無關(guān)的表示(MIR, Manipulation-Independent Representations),即不管是機械手、人手或是其他設(shè)備,保證這種表示都能夠用于后續(xù)任務(wù)的學習


          2、使用強化學習來學習action策略

           

          與操作器無關(guān)的表示


          領(lǐng)域適應(yīng)性問題是機器人模擬現(xiàn)實中最關(guān)鍵的問題,即解決視覺仿真和現(xiàn)實之間的差別。

           

           

          1、 隨機使用各種類型操作器,各種仿真環(huán)境用來模擬現(xiàn)實世界

          2、加入去除操作臂后的觀察

          3、時序平滑對抗網(wǎng)絡(luò)(TSCN, Temporally-Smooth Contrastive Networks),相比TCN來說,在softmax交叉熵目標函數(shù)中增加了一個分布系數(shù)p,使得學習過程更加平滑,尤其是在cross-domain的情況。

           


          使用強化學習 


          MIR表示空間的需求是actionable的,即可用于強化學習,表示為具體的action。

           

          一個解決方案是使用goal-conditioned來訓練策略,輸入為當前狀態(tài)o和目標狀態(tài)g。這篇文章提出一種擴展方式,cross-domain goal-conditional policies,輸入當前狀態(tài)o和跨域的目標狀態(tài)o',最小化到達目標的行動次數(shù)。

           

          數(shù)據(jù)和實驗


          研究小組在8個環(huán)境和場景(規(guī)范模擬、隱形手臂、隨機手臂、隨機域、Jaco Hand、真機器人、手杖和人手)上進行了實驗,以評估通過未知機械手模擬無約束操作軌跡的性能。

           

           

          他們還用了一些基線方法,如樸素的goal conditioned plicies (GCP)和temporal distance。

           

           

          MIR 在所有測試領(lǐng)域都取得了最好的性能。它在疊加成功率方面的表現(xiàn)顯著提高,并且以100% 的分數(shù)很好地模仿了模擬的 Jaco Hand 和 Invisible Arm。

           

          這項研究論證了視覺模仿表征在視覺模仿中的重要性,并驗證了操作無關(guān)表征在視覺模仿中的成功應(yīng)用。

           

          未來工廠中的機器人將擁有更強大的學習能力,并不局限于一種特定工具,一種特定任務(wù)。


          參考資料:

          https://arxiv.org/pdf/2103.09016.pdf



          瀏覽 55
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  亚洲精品无码视频在线观看 | 性爱大香蕉 | 深爱激情五月婷婷 | 青青蜜臀| 黄色视频大全免费看 |