【伯克利博士論文】零樣本機器人感知的視覺-語言表示
共 2370字,需瀏覽 5分鐘
·
2024-05-18 17:04
來源:專知 本文約2000字,建議閱讀5分鐘
隨著機器人系統進入現實世界,創(chuàng)建能夠適應真實世界的機器人感知系統的挑戰(zhàn)仍然存在。
現實世界包含視覺和語義上多樣化的環(huán)境,這些環(huán)境中充滿了更加多樣化的物體。我們可以利用大型視覺-語言模型(VLMs)來應對這種多樣性,這些模型最近在捕捉現實世界規(guī)模的語義方面顯示出了前景,因為它們是在互聯網規(guī)模的數據上預訓練的。我們希望依賴這些VLMs而無需進行額外的環(huán)境特定數據收集,因為這對許多機器人領域來說可能是昂貴的。因此,我們尋求將VLMs整合到機器人感知流程中,以便在不同任務中開箱即用或零樣本使用。我們引入了兩種利用VLMs進行零樣本機器人任務的方法,分別用于遮擋物體搜索和抓取,即語義機械搜索(SMS)和面向任務抓取的語言嵌入輻射場(LERF-TOGO)。SMS除了使用VLMs外,還利用LLMs來更好地在搜索時語義上推理視覺遮擋的物體。通過將語義理解嵌入搜索過程,SMS提高了在模擬和現實世界環(huán)境中定位物體的效率。另一方面,LERF-TOGO創(chuàng)建了一個從VLMs派生的3D視覺-語言場,用于根據自然語言輸入執(zhí)行精確的物體部分抓取。這種方法在物理試驗中顯示出高準確性和適應性,有效地抓取了各種物體上指定的部分。我們最后總結了這兩項工作的局限性和可能的未來發(fā)展方向。
評論
圖片
表情
