大數(shù)據(jù)文摘授權(quán)轉(zhuǎn)載自將門(mén)創(chuàng)投
在強(qiáng)化學(xué)習(xí)(RL)領(lǐng)域,一個(gè)重要的研究方向是如何巧妙的設(shè)計(jì)模型的獎(jiǎng)勵(lì)機(jī)制,傳統(tǒng)的方式是設(shè)計(jì)手工獎(jiǎng)勵(lì)函數(shù),并根據(jù)模型執(zhí)行任務(wù)的結(jié)果來(lái)反饋給模型。后來(lái)出現(xiàn)了以學(xué)習(xí)獎(jiǎng)勵(lì)函數(shù)(learned reward functions,LRF)為代表的稀疏獎(jiǎng)勵(lì)機(jī)制,這種方式通過(guò)數(shù)據(jù)驅(qū)動(dòng)學(xué)習(xí)的方式來(lái)確定具體的獎(jiǎng)勵(lì)函數(shù),這種方法在很多復(fù)雜的現(xiàn)實(shí)任務(wù)中展現(xiàn)出了良好的性能。
本文介紹一篇來(lái)自UC伯克利研究團(tuán)隊(duì)的最新論文,本文作者質(zhì)疑,使用LRF來(lái)代替任務(wù)獎(jiǎng)勵(lì)的方式是否合理。因此本文以當(dāng)下火熱的視覺(jué)語(yǔ)言模型(Vision-Language Models,VLMs)的zero-shot能力為研究對(duì)象,作者認(rèn)為這種zero-shot能力可以作為RL模型的預(yù)訓(xùn)練監(jiān)督信號(hào),而不是將其單純作為下游任務(wù)中的獎(jiǎng)勵(lì),并提出了一種稱為語(yǔ)言獎(jiǎng)勵(lì)調(diào)節(jié)預(yù)訓(xùn)練模型LAMP,LAMP首先使用參數(shù)凍結(jié)的預(yù)訓(xùn)練VLMs,并且通過(guò)在內(nèi)容豐富的語(yǔ)言指令集上與代理捕獲的視覺(jué)信息進(jìn)行對(duì)比查詢,來(lái)生成多樣化的預(yù)訓(xùn)練獎(jiǎng)勵(lì),隨后通過(guò)強(qiáng)化學(xué)習(xí)算法來(lái)優(yōu)化這些獎(jiǎng)勵(lì)。作者通過(guò)廣泛的實(shí)驗(yàn)表明,LAMP不同于以往的VLMs預(yù)訓(xùn)練方式,可以在機(jī)器人操縱任務(wù)領(lǐng)域?qū)崿F(xiàn)非常驚人的樣本高效學(xué)習(xí)。
https://arxiv.org/abs/2308.12270 代碼倉(cāng)庫(kù):
https://github.com/ademiadeniji/lamp
回過(guò)頭看,強(qiáng)化學(xué)習(xí)領(lǐng)域也經(jīng)歷了從手工設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù)到網(wǎng)絡(luò)自主學(xué)習(xí)的發(fā)展歷程。手工設(shè)計(jì)的獎(jiǎng)勵(lì)函數(shù)往往會(huì)過(guò)度工程化,這使得其無(wú)法適用于新的代理程序和新的環(huán)境,因此發(fā)展出來(lái)通過(guò)從大量演示數(shù)據(jù)中學(xué)習(xí)所需的最優(yōu)獎(jiǎng)勵(lì)函數(shù),但是這種方式也會(huì)帶來(lái)大量的噪聲和錯(cuò)誤的獎(jiǎng)勵(lì),這在高精密機(jī)器人操縱等復(fù)雜的任務(wù)領(lǐng)域是不可靠的。本文作者受現(xiàn)有大型預(yù)訓(xùn)練VLMs的啟發(fā),VLM可以在多種任務(wù)上展現(xiàn)出高效的zero-shot性能,且擁有快速適應(yīng)新任務(wù)的能力。同時(shí)VLMs的訓(xùn)練過(guò)程是通過(guò)計(jì)算代理模型對(duì)圖像的特征表示與任務(wù)特定文本語(yǔ)言之間的對(duì)齊分?jǐn)?shù)來(lái)實(shí)現(xiàn),這種方式具有一種隱含的多任務(wù)適應(yīng)能力,即其只需要使用不同的語(yǔ)言指令進(jìn)行提示,就可以生成多種不同獎(jiǎng)勵(lì)的可擴(kuò)展方法。這一特性尤其符合RL預(yù)訓(xùn)練的假設(shè),即將這種跨任務(wù)的獎(jiǎng)勵(lì)作為RL通用代理的預(yù)訓(xùn)練工具,而不再依靠之前的含噪LRF來(lái)訓(xùn)練只能在單一任務(wù)上運(yùn)行的專家RL模型。
上圖展示了本文所提LAMP模型的整體框架,在預(yù)訓(xùn)練階段,LAMP可以利用高度多樣化的語(yǔ)言提示和從代理模型中提取到的視覺(jué)特征來(lái)構(gòu)成文本視覺(jué)對(duì),并將這些數(shù)據(jù)對(duì)輸入到VLMs中進(jìn)行查詢,從而生成多樣化的、形狀各異的預(yù)訓(xùn)練獎(jiǎng)勵(lì)。而在下游任務(wù)微調(diào)階段,可以使用一種簡(jiǎn)單的以語(yǔ)言為條件的多任務(wù)強(qiáng)化學(xué)習(xí)算法來(lái)優(yōu)化這些獎(jiǎng)勵(lì),通過(guò)實(shí)驗(yàn)證明,LAMP在真實(shí)的機(jī)器人環(huán)境中可以有效的降低下游任務(wù)微調(diào)的樣本數(shù)量,但同時(shí)保持較好的操縱性能。
下圖展示了LAMP的具體實(shí)現(xiàn)過(guò)程,LAMP主要包含兩個(gè)訓(xùn)練階段:
(1)與任務(wù)無(wú)關(guān)的RL預(yù)訓(xùn)練階段,使用一系列語(yǔ)言指令來(lái)從VLMs模型中查詢獎(jiǎng)勵(lì),來(lái)對(duì)RL代理模型進(jìn)行預(yù)訓(xùn)練。
(2)下游任務(wù)的微調(diào)階段,使用新任務(wù)的指令,并以這些語(yǔ)言指令為條件調(diào)整預(yù)訓(xùn)練學(xué)習(xí)到的策略,通過(guò)最大化新任務(wù)獎(jiǎng)勵(lì)來(lái)解決目標(biāo)任務(wù)。
2.1 語(yǔ)言獎(jiǎng)勵(lì)調(diào)節(jié)
為了從VLMs中提取RL的預(yù)訓(xùn)練獎(jiǎng)勵(lì)信號(hào),作者選取了R3M[1]作為視覺(jué)語(yǔ)言特征提取器,R3M從大規(guī)模第一人稱視角的人類視頻數(shù)據(jù)集Ego4D中提取特征語(yǔ)義表示,有效提升了現(xiàn)實(shí)世界機(jī)器人領(lǐng)域中模仿學(xué)習(xí)的數(shù)據(jù)效率。語(yǔ)言輸入使用
來(lái)處理,
是一種預(yù)訓(xùn)練的DistilBERT transformer模型,可以高效的聚合文本指令中每個(gè)單詞的嵌入編碼。作者使用R3M作為文本指令與視覺(jué)觀察特征之間的獎(jiǎng)勵(lì)分?jǐn)?shù)生成器,作者認(rèn)為R3M分?jǐn)?shù)更適合于提供視覺(jué)層面上的動(dòng)作獎(jiǎng)勵(lì),因?yàn)樗谋碚鹘?jīng)過(guò)了明確的訓(xùn)練,可以理解視頻中的時(shí)序信息。具體來(lái)說(shuō),使用R3M分?jǐn)?shù)定義的獎(jiǎng)勵(lì)如下:
其中
表示R3M中的分?jǐn)?shù)預(yù)測(cè)器,
分別表示圖像
到
之間的視覺(jué)特征,作者發(fā)現(xiàn),與其他的VLMs相比,使用R3M分?jǐn)?shù)得到的獎(jiǎng)勵(lì)與專家演示中的獎(jiǎng)勵(lì)非常接近,下圖展示了R3M與其他兩種模型InternVideo[2]和ZeST[3]在RLBench下游任務(wù)上的視覺(jué)語(yǔ)言對(duì)齊效果,但是從獎(jiǎng)勵(lì)曲線來(lái)看,三種方法的獎(jiǎng)勵(lì)走向并不穩(wěn)定,這表明我們很難直接使用這些獎(jiǎng)勵(lì)來(lái)優(yōu)化最終模型,因此作者僅在預(yù)訓(xùn)練階段將這些獎(jiǎng)勵(lì)作為一種探索信號(hào)。
2.2 以語(yǔ)言為條件進(jìn)行行為學(xué)習(xí)
為了使訓(xùn)練得到的RL模型可以用于多種不同的下游任務(wù),作者為L(zhǎng)AMP設(shè)計(jì)了一組具有視覺(jué)效果和各種對(duì)象的任務(wù),首先基于RLBench仿真工具包構(gòu)建了一個(gè)自定義環(huán)境,為了模擬逼真的視覺(jué)場(chǎng)景,作者從Ego4D數(shù)據(jù)集中下載了大量的真實(shí)場(chǎng)景圖像,并將其作為紋理疊加在環(huán)境的桌面和背景上。為了制作多樣化的物體和功能,作者將大量的ShapeNet 3D物體網(wǎng)格導(dǎo)入到環(huán)境中,這樣可以使得訓(xùn)練過(guò)程中出現(xiàn)的視覺(jué)紋理和物體在每次迭代時(shí)都是隨機(jī)的。
由于LAMP得到的獎(jiǎng)勵(lì)分?jǐn)?shù)可以被用來(lái)衡量代理模型解決任務(wù)與實(shí)際任務(wù)要求之間的距離,因此它可以很容易地與一些無(wú)監(jiān)督的RL方法相結(jié)合。因此,為了激發(fā)LAMP對(duì)新任務(wù)的探索能力,作者將LAMP獎(jiǎng)勵(lì)與Plan2Explore算法[4]的內(nèi)在獎(jiǎng)勵(lì)結(jié)合起來(lái),Plan2Explore是一種傾向于探索任務(wù)新穎性的無(wú)監(jiān)督強(qiáng)化學(xué)習(xí)算法,其利用與未來(lái)時(shí)刻的隱藏狀態(tài)預(yù)測(cè)之間的差異作為新穎性得分,這個(gè)新穎性分?jǐn)?shù)可以表示為
,因而可以得到預(yù)訓(xùn)練階段的代理目標(biāo)函數(shù),表示為如下的加權(quán)獎(jiǎng)勵(lì)總和:
作者使用ChatGPT來(lái)生成一系列的機(jī)器人操縱任務(wù),例如“按下按鈕(Push Button)”、“拿起水杯(Pick up Cup)”等,LAMP每次會(huì)從這些任務(wù)中隨機(jī)抽取一些語(yǔ)言提示
,然后得到其對(duì)應(yīng)的視覺(jué)嵌入
,之后根據(jù)上一節(jié)中描述的方法計(jì)算得到最終的獎(jiǎng)勵(lì)。在預(yù)訓(xùn)練結(jié)束后,LAMP就得到了一種較為通用的語(yǔ)言條件策略,它能夠引導(dǎo)機(jī)器人完成語(yǔ)言
指定的各種行為。具體如下圖所示,預(yù)訓(xùn)練過(guò)程主要基于Ego4D紋理的隨機(jī)環(huán)境上進(jìn)行。
由于LAMP已經(jīng)學(xué)習(xí)到了一定的語(yǔ)言條件策略,因此只需要選擇與下游任務(wù)語(yǔ)義大致對(duì)應(yīng)的語(yǔ)言指令
,即可對(duì)預(yù)訓(xùn)練代理進(jìn)行下游任務(wù)的條件化,作者強(qiáng)調(diào)這是LAMP的一個(gè)顯著的優(yōu)勢(shì),它使用語(yǔ)言作為任務(wù)說(shuō)明符,這使得我們可以以極低成本的方式對(duì)模型進(jìn)行下游任務(wù)的微調(diào)。
本文的實(shí)驗(yàn)在96個(gè)隨機(jī)域環(huán)境上進(jìn)行,這些環(huán)境是通過(guò)隨機(jī)采樣不同的Ego4D紋理得到的,同時(shí)作者還以0.2的概率對(duì)RLBench默認(rèn)環(huán)境紋理的環(huán)境進(jìn)行采樣,對(duì)于機(jī)器人的操作空間,作者設(shè)置了4維的連續(xù)動(dòng)作空間,其中前三個(gè)維度表示機(jī)器人末端執(zhí)行器的位置信息,最后一個(gè)維度用來(lái)控制機(jī)械臂的夾具動(dòng)作。作者選取了一個(gè)從頭訓(xùn)練的代理模型以及Plan2Explore(P2E)方法作為對(duì)比baseline進(jìn)行實(shí)驗(yàn)
3.1 模型微調(diào)效果
作者選取了Pick Up Cup(拿起杯子)、Take Lid Off Saucepan(打開(kāi)鍋蓋)、Push Button(按下按鈕)、Close Microwave(關(guān)閉微波爐)和Turn Tap(打開(kāi)水龍頭)五個(gè)常見(jiàn)的操作任務(wù)進(jìn)行實(shí)驗(yàn),下圖展示了實(shí)驗(yàn)結(jié)果對(duì)比。
可以看出,從頭開(kāi)始對(duì)隨機(jī)初始化的代理進(jìn)行新任務(wù)訓(xùn)練會(huì)表現(xiàn)出較高的樣本復(fù)雜度,在大多數(shù)的RLBench任務(wù)中,采用無(wú)監(jiān)督探索的Plan2Explore方法明顯超過(guò)了從頭開(kāi)始訓(xùn)練的性能,進(jìn)而可以觀察到,本文提出的LAMP方法的性能更好,作者分析認(rèn)為,LAMP使用VLMs獎(jiǎng)勵(lì)進(jìn)行預(yù)訓(xùn)練,可以使代理模型得到更加多樣化的獎(jiǎng)勵(lì),這樣學(xué)習(xí)到的表征使其能夠在微調(diào)期間快速適應(yīng)到全新的任務(wù)上。
3.2 對(duì)語(yǔ)言提示進(jìn)行消融實(shí)驗(yàn)
使用預(yù)訓(xùn)練VLMs的一個(gè)優(yōu)勢(shì)是可以通過(guò)輸入多樣性的查詢文本來(lái)獲得近乎無(wú)限的獎(jiǎng)勵(lì),作者對(duì)預(yù)訓(xùn)練階段使用的不同提示樣式進(jìn)行了消融研究,使用的6種語(yǔ)言提示風(fēng)格如下:
其中提示樣式1-5主要對(duì)比了動(dòng)詞和名詞相關(guān)和多種不相關(guān)情況的對(duì)比,而提示樣式 6,作者直接選擇了較高難度的莎士比亞的文本片段,以觀察完全在預(yù)訓(xùn)練分布之外的樣本適應(yīng)情況,下圖中展示了使用不同提示樣式預(yù)訓(xùn)練之后的模型微調(diào)效果對(duì)比。
其中提示1-5都是基于任務(wù)動(dòng)作的提示,這里選擇了任務(wù)“拿起杯子”,因?yàn)樵撊蝿?wù)名稱簡(jiǎn)單,而且與預(yù)訓(xùn)練中的提示非常相似,可以看到,在這項(xiàng)任務(wù)中,語(yǔ)義相似但提示語(yǔ)呈現(xiàn)多樣化的提示樣式2達(dá)到了最佳性能。而在上圖右側(cè)作者重點(diǎn)分析了莎士比亞文本對(duì)模型微調(diào)的影響,其中作為對(duì)比的是使用最佳提示樣式2的模型,可以看到,在去除掉P2E模型后,LAMP Prompt 6和LAMP Prompt 2的性能表現(xiàn)基本上持平,但是當(dāng)加入P2E模型后,使用這些分布外的語(yǔ)言提示,會(huì)嚴(yán)重影響LAMP的性能。
3.3 與其他視覺(jué)語(yǔ)言獎(jiǎng)勵(lì)模型進(jìn)行比較
除了對(duì)語(yǔ)言提示進(jìn)行研究之外,作者還對(duì)預(yù)訓(xùn)練階段使用不同VLMs的效果進(jìn)行了對(duì)比,這里作者選擇了ZeST模型,ZeST大體上與CLIP模型的訓(xùn)練方式相同,也是通過(guò)提取文本特征與圖像特征之間的相似度來(lái)作為獎(jiǎng)勵(lì)模型。
上圖展示了LAMP使用R3M和ZeST在“Pick Up Cup”下游任務(wù)上的微調(diào)效果對(duì)比,其中R3M似乎能帶來(lái)更好的持續(xù)性能,但ZeST預(yù)訓(xùn)練的性能也不差。由此作者得出結(jié)論,本文的方法本質(zhì)上并不依賴于特定的VLM,未來(lái)可以更換更加強(qiáng)大的VLMs來(lái)進(jìn)一步提高性能。
在這項(xiàng)工作中,作者研究了如何利用VLMs的靈活性作為多樣化強(qiáng)化學(xué)習(xí)獎(jiǎng)勵(lì)生成的一種手段,并且提出了一種基于語(yǔ)言提示的獎(jiǎng)勵(lì)調(diào)節(jié)模型LAMP,LAMP突破了傳統(tǒng)深度強(qiáng)化學(xué)習(xí)中學(xué)習(xí)獎(jiǎng)勵(lì)函數(shù)的諸多限制,并且利用VLMs強(qiáng)大的zero-shot泛化能力,可以在模型預(yù)訓(xùn)練期間產(chǎn)生很多不同的獎(jiǎng)勵(lì)。此外作者發(fā)現(xiàn),基于VLMs的獎(jiǎng)勵(lì)模型可以與很多新型的RL優(yōu)化方法相結(jié)合,例如其與Plan2Explore結(jié)合可以帶來(lái)強(qiáng)大的性能。本文通過(guò)大量的實(shí)驗(yàn)表明,LAMP方法在多種具有挑戰(zhàn)性的場(chǎng)景中表現(xiàn)出了更加優(yōu)越的強(qiáng)化學(xué)習(xí)優(yōu)化能力。
參考
[1] Suraj Nair, Aravind Rajeswaran, Vikash Kumar, Chelsea Finn, and Abhinav Gupta. R3m: A universal visual representation for robot manipulation, 2022.
[2] Yi Wang, Kunchang Li, Yizhuo Li, Yinan He, Bingkun Huang, Zhiyu Zhao, Hon jie Zhang, Jilan Xu, Yi Liu, Zun Wang, Sen Xing, Guo Chen, Junting Pan, Jiashuo Yu, Yali Wang, Limin Wang, and Yu Qiao. Internvideo: General video foundation models via generative and discriminative learning, 2022.
[3] Yuchen Cui, Scott Niekum, Abhinav Gupta, Vikash Kumar, and Aravind Rajeswaran. Can foundation models perform zero-shot task specification for robot manipulation?, 2022.
[4] Ramanan Sekar, Oleh Rybkin, Kostas Daniilidis, Pieter Abbeel, Danijar Hafner, and Deepak Pathak. Planning to explore via self-supervised world models. CoRR, abs/2005.05960, 2020
運(yùn)營(yíng)商機(jī)房,服務(wù)有保障