UMI——斯坦福刷盤機(jī)器人:從手持夾持器到動(dòng)作預(yù)測(cè)Diffusion Policy(含代碼解讀)-上
共 11745字,需瀏覽 24分鐘
·
2024-05-28 20:19
新課《大模型機(jī)器人二次開發(fā)線下營(yíng)》文末開秒
前言
前言
沒(méi)想到今年年初的斯坦福mobile aloha的熱度剛過(guò),而到今年2月的下旬,斯坦福另一個(gè)團(tuán)隊(duì)又推出了UMI刷盤機(jī)器人,且這兩個(gè)團(tuán)隊(duì)還互相認(rèn)識(shí)、還在一塊共同切磋(順帶小小感嘆一下,斯坦福的氛圍是真好而且真高產(chǎn))
斯坦福UMI刷盤機(jī)器人
-
其與mobile aloha(以及AirExo: Low-Cost Exoskeletons for Learning Whole-Arm Manipulation in the Wild)最大的不同在于其收集數(shù)據(jù)處理的非真實(shí)的機(jī)器人,而是一個(gè)手持夾持器(從而大幅降低成本) -
而其與此文《模仿學(xué)習(xí)的集中爆發(fā):從Dobb·E、Gello到斯坦福Mobile ALOHA/UMI、FMB、DexCap》中第一部分的紐約大學(xué)Dobb·E最大的不同,則在于Dobb·E需要針對(duì)特定環(huán)境進(jìn)行動(dòng)作策略上的微調(diào),而UMI面對(duì)陌生環(huán)境有比較好的泛化能力
UMI的環(huán)境直接用了docker,預(yù)訓(xùn)練數(shù)據(jù)都有的
01
比Mobile Aloha成本更低的UMI刷盤機(jī)器人
01
比Mobile Aloha成本更低的UMI刷盤機(jī)器人
1.1 斯坦福UMI的主要特點(diǎn)和手持夾持器的設(shè)置
24年2.19,斯坦福和哥倫比亞大學(xué)、豐田研究所的研究者(Cheng Chi、Zhenjia Xu等8人)發(fā)布了一個(gè)通用操控界面UMI,借助這個(gè)UMI,可以自由的完成刷盤等各種任務(wù)
論文地址、項(xiàng)目地址
GitHub代碼地址(universal_manipulation_interface)
硬件安裝指南(UMI Hardware Guide)
數(shù)據(jù)收集教程(UMI Data Collection Instruction)
3D Printing Tutorial、Assembly Tutorial
其主要特點(diǎn)有:
UMI本質(zhì)是一個(gè)用于數(shù)據(jù)收集和策略學(xué)習(xí)的框架,其使用手持夾持器可以簡(jiǎn)單快速且低成本的收集一系列訓(xùn)練機(jī)器人的數(shù)據(jù)
且其更考慮了三方面的延遲:機(jī)器人觀察環(huán)境存在延遲(傳感器導(dǎo)致)、拿到環(huán)境數(shù)據(jù)后做推理有延遲、推理完成到做出動(dòng)作亦有延遲
使用魚眼鏡頭感知環(huán)境,且通過(guò)改造SLAM與GoPro內(nèi)置的IMU傳感器結(jié)合使用,并在夾持器上的兩端各自添加一面鏡子,以提供立體觀察 如下圖所示,從左到右分別表示人類做示范的手持夾持器、觀測(cè)空間、機(jī)器人設(shè)置,其中①是一個(gè)相機(jī),④是“相機(jī)① ”中自帶的IMU感知姿態(tài)跟蹤器②是帶有廣角視野的魚眼鏡頭,③是兩個(gè)側(cè)面鏡用于提供立體視覺(jué),⑤是對(duì)夾持器的跟蹤⑥是基于運(yùn)動(dòng)學(xué)的數(shù)據(jù)過(guò)濾
-
這六個(gè)部分的細(xì)節(jié)很快將在下文逐一闡述 -
使用擴(kuò)散策略進(jìn)行動(dòng)作預(yù)測(cè),當(dāng)然,也可以換成mobile aloha所用的ACT算法 擴(kuò)散策略的更多細(xì)節(jié)在本文第三部分進(jìn)行闡述
1.1.1 GoPro攝像頭、魚眼鏡頭、側(cè)面鏡、IMU感知跟蹤
首先,在手腕上安裝一個(gè)GoPro攝像頭作為輸入觀察,此外,無(wú)需任何外部攝像頭設(shè)置。之后在機(jī)器人上部署UMI時(shí),將GoPro攝像頭放置在與手持夾持器上的相同位置相對(duì)應(yīng)的同一3D打印手指處
其次,如下圖所示,如果將一個(gè)大的155°視場(chǎng)圖像矯正為針孔模型會(huì)嚴(yán)重拉伸外圍視野(藍(lán)線外),同時(shí)將中心最重要的信息壓縮到一個(gè)小區(qū)域(紅線內(nèi)),故UMI策略使用原始魚眼圖像作為觀測(cè)
接著,為看彌補(bǔ)單目相機(jī)視野中缺乏深度感知的問(wèn)題,在相機(jī)的左右兩端分別放置了一塊鏡子,如下圖所示,UMI側(cè)面鏡。超廣角相機(jī)與位置合理的鏡子相結(jié)合,實(shí)現(xiàn)了隱式立體深度估計(jì)
-
(a):每個(gè)鏡子的視角有效地創(chuàng)建了兩個(gè)虛擬相機(jī),其姿態(tài)相對(duì)于主相機(jī)沿鏡子平面反射 -
(b):盤子上的番茄醬在主相機(jī)視野中被遮擋,但在右側(cè)鏡子內(nèi)可見,證明鏡子模擬具有不同光學(xué)中心的相機(jī) -
(c):對(duì)鏡子內(nèi)的內(nèi)容進(jìn)行數(shù)字反射以進(jìn)行策略觀察。請(qǐng)注意,在反射后,杯子把手的方向在所有3個(gè)視圖中保持一致
1.1.2 連續(xù)夾持器控制與基于運(yùn)動(dòng)學(xué)的數(shù)據(jù)過(guò)濾
與之前的機(jī)器人一般使用的二進(jìn)制開合動(dòng)作(要么抓住、要么放開),但如果連續(xù)指定夾持器的夾持寬度則可以執(zhí)行更多任務(wù),比如投擲一個(gè)球時(shí),需要在一個(gè)準(zhǔn)確的時(shí)刻來(lái)扔掉物體
由于物體具有不同的寬度,二進(jìn)制的抓放動(dòng)作很難滿足精度要求。在UMI夾爪上,通過(guò)基準(zhǔn)標(biāo)記連續(xù)跟蹤指寬,從而通過(guò)使用系列-彈性末端執(zhí)行器原理,UMI可以通過(guò)調(diào)節(jié)軟手指的變形來(lái)隱式記錄和控制抓握力,最終連續(xù)控制抓手寬度(finger width is continuously tracked via fiducial markers [16] (Fig. 2 left). Using series-elastic end effectors principle [42], UMI can implicitly record and control grasp forces by regulating the deformation of soft fingers through continuous gripper width control)
此外,雖然數(shù)據(jù)收集過(guò)程是機(jī)器人不可知的,我們應(yīng)用簡(jiǎn)單的基于運(yùn)動(dòng)學(xué)的數(shù)據(jù)過(guò)濾來(lái)選擇不同機(jī)器人實(shí)體的有效軌跡
具體而言,當(dāng)知道機(jī)器人底座的位置和它的運(yùn)動(dòng)學(xué)特性時(shí),使用SLAM技術(shù)得到終端執(zhí)行器(如機(jī)器人手臂的末端)的精確位置信息,可以幫助我們對(duì)演示數(shù)據(jù)進(jìn)行運(yùn)動(dòng)學(xué)和動(dòng)力學(xué)的可行性分析。通過(guò)在這些經(jīng)過(guò)篩選的數(shù)據(jù)集上進(jìn)行訓(xùn)練,可以確保機(jī)器人的行為策略不僅是可行的,而且符合其結(jié)構(gòu)的特定運(yùn)動(dòng)限制(when the robot’s base location and kinematics are known, the absolute end-effector pose recovered by SLAM allows kinematics and dynamics feasibility filtering on the demonstration data. Training on the filtered dataset ensures policies comply with embodiment-specific kinematic constraint)
最終,UMI夾持器重量為780g,外部尺寸為 L310mm × W 175mm ×H210mm,手指行程為80mm
3D打印的夾持器的BoM成本為 $73,而GoPro相機(jī)及配件的總成本為 $298
說(shuō)白了,不含「計(jì)算電腦和那兩UR5機(jī)械臂」的僅用于數(shù)據(jù)收集的硬件成本為400刀,當(dāng)然 好的機(jī)械臂才貴
1.2 UMI的策略接口設(shè)計(jì)
-
從開始觀察到真正感知到環(huán)境時(shí) 有觀測(cè)反應(yīng)時(shí)間,即觀測(cè)延遲 而感知到環(huán)境做決策時(shí),則有決策時(shí)的反應(yīng)時(shí)間,即推理延遲 最后,決策好之后 做出行動(dòng) 也會(huì)有一個(gè)執(zhí)行時(shí)間,即執(zhí)行延遲 機(jī)器人在實(shí)際操控當(dāng)中,也是類似的,也會(huì)一一存在觀察延遲
策略推斷延遲
執(zhí)行延遲,且簡(jiǎn)單地丟棄過(guò)時(shí)的動(dòng)作,只執(zhí)行每個(gè)硬件在之后具有所需時(shí)間戳的動(dòng)作
-
(b) UMI 策略接收一系列同步觀察結(jié)果(RGB 圖像、6自由度末端執(zhí)行器姿態(tài)、和夾持器寬度),并輸出一系列期望的末端執(zhí)行器姿態(tài)和夾持器寬度作為動(dòng)作 相當(dāng)于先感知環(huán)境,然后做出動(dòng)作預(yù)測(cè) -
(a) 同步不同的觀察流,以彌補(bǔ)物理測(cè)量的延遲 -
(c) 提前發(fā)送動(dòng)作命令以補(bǔ)償機(jī)器人的執(zhí)行延遲
1.3 完成刷盤的任務(wù)
1.3.1 刷盤任務(wù)的拆解
任務(wù)機(jī)器人需要執(zhí)行7個(gè)步驟順序地獨(dú)立動(dòng)作(打開水龍頭、抓住盤子、拿起海綿、洗滌并擦拭盤子直到番茄醬被清除、放置盤子、放置海綿并關(guān)閉水龍頭),如下圖所示
能力這項(xiàng)任務(wù)從幾個(gè)方面推動(dòng)了機(jī)器人操縱能力的邊界:
這是一個(gè)超長(zhǎng)視野任務(wù),每個(gè)步驟的成功都依賴于前一個(gè)步驟
機(jī)器人需要感知和操縱復(fù)雜的流體,包括牛頓流體(即,水)和非牛頓流體(即,番茄醬)
擦拭動(dòng)-作需要使用一個(gè)可變形工具(即,海綿)同時(shí)協(xié)調(diào)雙臂相對(duì)于水流
操縱受限關(guān)節(jié)物體(即,打開和關(guān)閉水龍頭)需要由軟指提供的機(jī)械順應(yīng)性
策略也需要對(duì)“清潔度”的概念語(yǔ)義上的魯棒性。當(dāng)在洗滌過(guò)程中或即使洗滌階段完成后添加了額外的番茄醬時(shí),機(jī)器人需要繼續(xù)洗滌和擦拭
1.3.2 微調(diào)一個(gè)CLIP預(yù)訓(xùn)練的ViT-B/16視覺(jué)編碼器來(lái)訓(xùn)練擴(kuò)散策略
對(duì)于這項(xiàng)任務(wù),UMI通過(guò)微調(diào)一個(gè)CLIP 預(yù)訓(xùn)練的ViT-B/16視覺(jué)編碼器來(lái)訓(xùn)練擴(kuò)散策略
看到這句話時(shí),我的第一反應(yīng)是這個(gè)視覺(jué)編碼器和DALLE 2在CLIP階段所用的視覺(jué)編碼器是一個(gè)意思,即下圖右上角的img encoder(來(lái)自此文:從CLIP到DALLE1/2、DALLE 3、Stable Diffusion、SDXL Turbo、LCM )
02
UMI的硬件安裝指南
2.1 詳細(xì)的3D打印/組裝教程(引用來(lái)源)
-
3D打印教程: https://youtu.be/EJmAg1Bnp-k -
夾持器組裝教程:https://youtu.be/x3ko0v_xwpg
2.2 材料清單
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
||
|
|
|
|
|
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
For all-day operations, consider purchasing 2x more batteries per gripper and one battery charger per gripper.
https://amazon.com
2.3 CAD Models
UMI Gripper:Onshape
Soft Finger:Onshape
wsg50-UR5 mount:Onshape
wsg50-Franka mount:Onshape
2.4 3D printing instructions
Checkout our CURA 3mf examples for more detailed parameters:
https://drive.google.com/drive/folders/15vFeCd-fEt-NOYkRXebhpDGm5D2zX3MM?usp=sharing
Nozzle diameter: 0.6mm
Layer height: 0.3mm
Wall thickness: 1.2mm
Top-bottom thickness: 1.2mm
Infill: 20% Gyroid
Temperature: 190C for eSun PLA+
|
|
|
|
|
|
|
|
||||
|
|
||||
|
|
||||
|
|
||||
|
|
|
|
||
|
|
||||
|
|
||||
|
|
|
|||
|
|
||||
|
|
|
|
||
|
|
||||
|
|
|
|||
2.5 Photos
更多見七月的《大模型機(jī)器人二次開發(fā)線下營(yíng)》
校長(zhǎng)July寄語(yǔ)
“ 1 截止到24年5月初,我們總算把斯坦福的UMI、DexCap成功復(fù)現(xiàn)了(國(guó)內(nèi)最早復(fù)現(xiàn)這兩模型的團(tuán)隊(duì)或之一,至于Mobile Aloha則大同小異),且已把這兩者的所有硬件全部換成國(guó)產(chǎn)平替,歡迎加入本線下營(yíng)
2 通過(guò)本線下營(yíng)共同實(shí)現(xiàn)一系列主流機(jī)器人的復(fù)現(xiàn)部署、二次開發(fā)之后,如合適,歡迎和我司的大模型機(jī)器人項(xiàng)目組合作,一方面,共同為高校/公司服務(wù),二方面,共同打造世界級(jí)通用機(jī)器人 ”
課程咨詢可找蘇蘇老師VX:julyedukefu008或七月在線其他老師
點(diǎn)擊“閱讀原文”了解課程詳情~
