別再狂堆數(shù)據(jù)!ICRA'24 高通信息驅(qū)動機(jī)械臂抓取成功率提升10%!
共 5545字,需瀏覽 12分鐘
·
2024-06-19 07:00
點擊下方卡片,關(guān)注「3D視覺工坊」公眾號
選擇星標(biāo),干貨第一時間送達(dá)
來源:3D視覺工坊
添加小助理:dddvision,備注:方向+學(xué)校/公司+昵稱,拉你入群。文末附行業(yè)細(xì)分群
0.這篇文章干了啥?
這篇文章提出了一種名為IDA的方法,旨在促進(jìn)機(jī)器人操作中的可供性發(fā)現(xiàn)。他們將這一問題視為情境性賭博問題,并提出了一種基于上下文的方法來解決。在這個方法中,機(jī)器人觀察環(huán)境的當(dāng)前狀態(tài),并選擇執(zhí)行一個動作,該動作可能會帶來獎勵。他們使用信息增益準(zhǔn)則來衡量嘗試不同動作所能獲得的信息量,以便更好地學(xué)習(xí)可供性模型。為了在探索和利用之間取得平衡,他們結(jié)合了信息驅(qū)動的探索策略和環(huán)境獎勵的預(yù)期收益,采用了上置信界限(UCB)策略來選擇動作。他們還提出了一種基于自動編碼器的模型架構(gòu),用于生成環(huán)境的視覺可供性圖,并采用了輕量級集合來減少計算開銷。最后,他們通過實驗證明了他們方法的有效性,表明它在ManiSkill2中的幾項任務(wù)中表現(xiàn)出色,并能夠快速學(xué)習(xí)在現(xiàn)實世界中抓取物體。
下面一起來閱讀一下這項工作~
1. 論文信息
論文題目:Information-driven Affordance Discovery for Efficient Robotic Manipulation
作者:Pietro Mazzaglia等
作者機(jī)構(gòu):Qualcomm AI Research
論文鏈接:https://arxiv.org/pdf/2405.03865
2. 摘要
機(jī)器人的可供性提供了關(guān)于在特定情況下可以采取的行動的信息,可以幫助機(jī)器人操作。然而,了解可供性需要昂貴的大型交互或演示注釋數(shù)據(jù)集。在這項工作中,我們認(rèn)為,與環(huán)境進(jìn)行良好指導(dǎo)的互動可以緩解這個問題,并提出了一種基于信息的度量來增強(qiáng)Agent的目標(biāo)并加速可供性發(fā)現(xiàn)過程。我們提供了我們方法的理論基礎(chǔ),并在模擬和現(xiàn)實世界的任務(wù)中對該方法進(jìn)行了實證驗證。我們的方法,我們稱之為IDA,能夠有效地發(fā)現(xiàn)幾種動作原語的視覺可供性,如抓取、堆疊物體或打開抽屜,在模擬中極大地提高了數(shù)據(jù)效率,并允許我們在現(xiàn)實世界的UFACORY xArm 6機(jī)械臂上進(jìn)行少量交互來學(xué)習(xí)抓取可供性。項目網(wǎng)站:mazpie.github.io/ida。
3. 效果展示
真實世界的結(jié)果和設(shè)置。IDA學(xué)習(xí)抓取物體的速度比其他方法更快,在UFACTORY xArm 6平臺上實現(xiàn)了高達(dá)90%的抓取成功率。
真實世界的啟示和信息地圖。示能和信息圖,顯示所有可能的夾持器方向上每個像素的最高值。
4. 主要貢獻(xiàn)
-
我們提出了一種信息驅(qū)動的度量方法,以增強(qiáng)交互式環(huán)境中代理的目標(biāo),用于視覺可供性發(fā)現(xiàn),并基于信息理論提供了我們方法的動機(jī);
-
我們在模擬中驗證了IDA,在這里,代理迅速學(xué)會了抓取、堆疊物體和打開抽屜,明顯優(yōu)于以前在大型合成數(shù)據(jù)集上訓(xùn)練的方法。在這種情況下,我們還展示了良好基礎(chǔ)探索的重要性,以合理提高性能,隨著時間的推移,交互次數(shù)增加;
-
我們展示了IDA在實際機(jī)器人設(shè)置中的適用性,使用UFACORY xArm 6,我們的代理在少量交互中學(xué)會了抓取物體,而沒有任何先驗信息。
5. 基本原理是啥?
這篇文章的基本原理是使用信息驅(qū)動的方法來發(fā)現(xiàn)機(jī)器人操作中的可供性。作者將可供性發(fā)現(xiàn)問題視為情境性賭博問題,并提出了一種基于上下文的方法來解決這個問題。在這個方法中,機(jī)器人在每個時間步觀察到環(huán)境的當(dāng)前狀態(tài),并選擇執(zhí)行一個動作,該動作可能會帶來獎勵。他們使用信息增益準(zhǔn)則來衡量嘗試不同動作所能獲得的信息量,以便更好地學(xué)習(xí)可供性模型。為了在探索和利用之間取得平衡,他們結(jié)合了信息驅(qū)動的探索策略和環(huán)境獎勵的預(yù)期收益,采用了上置信界限(UCB)策略來選擇動作。作者還提出了一種基于自動編碼器的模型架構(gòu),用于生成環(huán)境的視覺可供性圖,并采用了輕量級集合來減少計算開銷。最后,他們通過實驗驗證了他們方法的有效性,表明它在ManiSkill2中的幾項任務(wù)中表現(xiàn)出色,并能夠快速學(xué)習(xí)在現(xiàn)實世界中抓取物體。
6. 實驗結(jié)果
在實驗部分,作者通過模擬和真實環(huán)境的實驗驗證了他們提出的基于信息驅(qū)動采樣的可供性發(fā)現(xiàn)方法(IDA)的有效性:
模擬實驗:
-
使用ManiSkill2基準(zhǔn)測試環(huán)境進(jìn)行模擬實驗,記錄場景的RGBD相機(jī)指向機(jī)器人和工作空間。 -
實驗中的代理在訓(xùn)練過程中交替進(jìn)行環(huán)境交互和更新可供性模型,每個交互大約需要100個模擬步驟。 -
評估表明,IDA和JSD方法在可供性成功率方面表現(xiàn)最好,顯著優(yōu)于其他基線方法,包括Where2Act、Greedy和Random。 -
對于最困難的任務(wù),如Grasp EGAD(具有大量變化)和Open Drawer(更難的探索),IDA和JSD具有最大優(yōu)勢,證實了信息驅(qū)動的可供性發(fā)現(xiàn)可以實現(xiàn)更高的最終性能。
真實世界實驗:
-
在真實世界中,使用UFAC TORY xArm 6和UFAC TORY夾爪進(jìn)行了抓取任務(wù)的實驗。 -
使用一組四個玩具物體,物體在訓(xùn)練和評估期間以順序方式重復(fù)出現(xiàn),并在每次抓取嘗試之前隨機(jī)放置在機(jī)器人手臂工作空間的隨機(jī)位置和方向。 -
實驗結(jié)果表明,IDA方法在真實世界中也取得了很好的效果,最終的抓取成功率達(dá)到了90%,遠(yuǎn)高于基線方法。
可視化:
-
為了提供關(guān)于IDA如何學(xué)習(xí)視覺可供性和隨時間如何評估信息增益的額外見解,作者展示了IDA方法在學(xué)習(xí)在真實機(jī)器人手臂上抓取(保齡球瓶)時的可供性和信息圖如何隨時間演變。 -
觀察到在訓(xùn)練初期(t = 29),可供性概率是均勻分布的。隨后,信息圖建議朝著物體邊緣探索抓取點(t = 37,t = 139),最終導(dǎo)致代理學(xué)會,靠近邊緣的區(qū)域更容易抓取(t = 242),因為它們具有較少的滑動表面。
7. 總結(jié) & 未來工作
我們提出了IDA,這是一種促進(jìn)機(jī)器人操作中可供性發(fā)現(xiàn)的方法。IDA在ManiSkill2的幾個任務(wù)中表現(xiàn)出色,并且能夠快速學(xué)習(xí)在現(xiàn)實世界中抓取物體。我們通過實證展示了有針對性的行動采樣對于提高可供性成功率的重要性,并分析了我們方法的幾個組成部分。我們測試的方法的一個局限是它依賴于運(yùn)動規(guī)劃來實現(xiàn)精確的可供性執(zhí)行。雖然這有助于探索,特別是在學(xué)習(xí)的早期階段,因為代理執(zhí)行的動作更穩(wěn)定可靠,但這個問題應(yīng)該在未來的工作中加以解決,目標(biāo)是提供更具適應(yīng)性的策略,例如使用強(qiáng)化學(xué)習(xí)。我們還希望將我們的工作擴(kuò)展到開發(fā)一個端到端系統(tǒng),能夠解決更長期的任務(wù),可能在可能的可供性行動之上實例化一個分層控制器,或者使用大型語言模型來決定哪些可供性應(yīng)該被執(zhí)行以解決任務(wù)。
本文僅做學(xué)術(shù)分享,如有侵權(quán),請聯(lián)系刪文。
3D視覺工坊交流群
目前我們已經(jīng)建立了3D視覺方向多個社群,包括2D計算機(jī)視覺、大模型、工業(yè)3D視覺、SLAM、自動駕駛、三維重建、無人機(jī)等方向,細(xì)分群包括:
2D計算機(jī)視覺:圖像分類/分割、目標(biāo)/檢測、醫(yī)學(xué)影像、GAN、OCR、2D缺陷檢測、遙感測繪、超分辨率、人臉檢測、行為識別、模型量化剪枝、遷移學(xué)習(xí)、人體姿態(tài)估計等
大模型:NLP、CV、ASR、生成對抗大模型、強(qiáng)化學(xué)習(xí)大模型、對話大模型等
工業(yè)3D視覺:相機(jī)標(biāo)定、立體匹配、三維點云、結(jié)構(gòu)光、機(jī)械臂抓取、缺陷檢測、6D位姿估計、相位偏折術(shù)、Halcon、攝影測量、陣列相機(jī)、光度立體視覺等。
SLAM:視覺SLAM、激光SLAM、語義SLAM、濾波算法、多傳感器融合、多傳感器標(biāo)定、動態(tài)SLAM、MOT SLAM、NeRF SLAM、機(jī)器人導(dǎo)航等。
自動駕駛:深度估計、Transformer、毫米波|激光雷達(dá)|視覺攝像頭傳感器、多傳感器標(biāo)定、多傳感器融合、自動駕駛綜合群等、3D目標(biāo)檢測、路徑規(guī)劃、軌跡預(yù)測、3D點云分割、模型部署、車道線檢測、Occupancy、目標(biāo)跟蹤等。
三維重建:3DGS、NeRF、多視圖幾何、OpenMVS、MVSNet、colmap、紋理貼圖等
無人機(jī):四旋翼建模、無人機(jī)飛控等
除了這些,還有求職、硬件選型、視覺產(chǎn)品落地、最新論文、3D視覺最新產(chǎn)品、3D視覺行業(yè)新聞等交流群
添加小助理: dddvision,備注:研究方向+學(xué)校/公司+昵稱(如3D點云+清華+小草莓), 拉你入群。
3D視覺工坊知識星球
3D視覺從入門到精通知識星球、國內(nèi)成立最早、6000+成員交流學(xué)習(xí)。包括:星球視頻課程近20門(價值超6000)、項目對接、3D視覺學(xué)習(xí)路線總結(jié)、最新頂會論文&代碼、3D視覺行業(yè)最新模組、3D視覺優(yōu)質(zhì)源碼匯總、書籍推薦、編程基礎(chǔ)&學(xué)習(xí)工具、實戰(zhàn)項目&作業(yè)、求職招聘&面經(jīng)&面試題等等。歡迎加入3D視覺從入門到精通知識星球,一起學(xué)習(xí)進(jìn)步。
3DGS、NeRF、結(jié)構(gòu)光、相位偏折術(shù)、機(jī)械臂抓取、點云實戰(zhàn)、Open3D、缺陷檢測、BEV感知、Occupancy、Transformer、模型部署、3D目標(biāo)檢測、深度估計、多傳感器標(biāo)定、規(guī)劃與控制、無人機(jī)仿真、三維視覺C++、三維視覺python、dToF、相機(jī)標(biāo)定、ROS2、機(jī)器人控制規(guī)劃、LeGo-LAOM、多模態(tài)融合SLAM、LOAM-SLAM、室內(nèi)室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三維重建、colmap、線面結(jié)構(gòu)光、硬件結(jié)構(gòu)光掃描儀,無人機(jī)等。
3D視覺相關(guān)硬件
點這里??關(guān)注我,記得標(biāo)星哦~
