新智元報道

來源：arxiv

編輯：LRS

【新智元導(dǎo)讀】人類能夠模仿別人的行為，根據(jù)給定的目標來規(guī)劃自己的行動。DeepMind最近發(fā)布了一個新模型，賦予機器人相同的能力，最終生成的模型與操作器、任務(wù)都無關(guān)，具有更好地通用性。

人類是擅于模仿的，我們和其他動物通過觀察行為來模仿，理解它對環(huán)境狀態(tài)的感知影響，并找出我們的身體可以采取什么行動來達到類似的結(jié)果。

對于機器人學習任務(wù)來說，模仿學習是一個強大的工具。但在這類環(huán)境感知任務(wù)中，使用強化學習來指定一個回報函數(shù)卻是很困難的。

DeepMind最新論文主要探索了僅從第三人稱視覺模仿操作軌跡的可能性，而不依賴action狀態(tài)，團隊的靈感來自于一個機器人機械手模仿視覺上演示的復(fù)雜的行為。

DeepMind提出的方法主要分為兩個階段：

1、提出一種操作器無關(guān)的表示(MIR, Manipulation-Independent Representations)，即不管是機械手、人手或是其他設(shè)備，保證這種表示都能夠用于后續(xù)任務(wù)的學習

2、使用強化學習來學習action策略

與操作器無關(guān)的表示

領(lǐng)域適應(yīng)性問題是機器人模擬現(xiàn)實中最關(guān)鍵的問題，即解決視覺仿真和現(xiàn)實之間的差別。

1、隨機使用各種類型操作器，各種仿真環(huán)境用來模擬現(xiàn)實世界

2、加入去除操作臂后的觀察

3、時序平滑對抗網(wǎng)絡(luò)（TSCN, Temporally-Smooth Contrastive Networks），相比TCN來說，在softmax交叉熵目標函數(shù)中增加了一個分布系數(shù)p，使得學習過程更加平滑，尤其是在cross-domain的情況。

使用強化學習

MIR表示空間的需求是actionable的，即可用于強化學習，表示為具體的action。

一個解決方案是使用goal-conditioned來訓練策略，輸入為當前狀態(tài)o和目標狀態(tài)g。這篇文章提出一種擴展方式，cross-domain goal-conditional policies，輸入當前狀態(tài)o和跨域的目標狀態(tài)o'，最小化到達目標的行動次數(shù)。