<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          【伯克利博士論文】零樣本機器人感知的視覺-語言表示

          共 2370字,需瀏覽 5分鐘

           ·

          2024-05-18 17:04

             
          來源:專知

          本文約2000字,建議閱讀5分鐘

          隨著機器人系統進入現實世界,創(chuàng)建能夠適應真實世界的機器人感知系統的挑戰(zhàn)仍然存在。



          現實世界包含視覺和語義上多樣化的環(huán)境,這些環(huán)境中充滿了更加多樣化的物體。我們可以利用大型視覺-語言模型(VLMs)來應對這種多樣性,這些模型最近在捕捉現實世界規(guī)模的語義方面顯示出了前景,因為它們是在互聯網規(guī)模的數據上預訓練的。我們希望依賴這些VLMs而無需進行額外的環(huán)境特定數據收集,因為這對許多機器人領域來說可能是昂貴的。因此,我們尋求將VLMs整合到機器人感知流程中,以便在不同任務中開箱即用或零樣本使用。我們引入了兩種利用VLMs進行零樣本機器人任務的方法,分別用于遮擋物體搜索和抓取,即語義機械搜索(SMS)和面向任務抓取的語言嵌入輻射場(LERF-TOGO)。SMS除了使用VLMs外,還利用LLMs來更好地在搜索時語義上推理視覺遮擋的物體。通過將語義理解嵌入搜索過程,SMS提高了在模擬和現實世界環(huán)境中定位物體的效率。另一方面,LERF-TOGO創(chuàng)建了一個從VLMs派生的3D視覺-語言場,用于根據自然語言輸入執(zhí)行精確的物體部分抓取。這種方法在物理試驗中顯示出高準確性和適應性,有效地抓取了各種物體上指定的部分。我們最后總結了這兩項工作的局限性和可能的未來發(fā)展方向。

          機器人的夢想是擁有一種通用機器人,能夠像人類一樣完成一系列任務。然而,這種類型的機器人的前提是一個健壯的感知系統,能夠應對現實世界的多樣性。開發(fā)這種感知系統是一個挑戰(zhàn)。即使僅限于單一的機器人任務,機器人也必須與視覺和語義上不同的環(huán)境和物體進行交互,其中許多物體不常見,因此系統較不可能已經見過(即長尾)。最近在大型視覺-語言模型(VLMs和LLMs)上的進展顯示出處理現實世界多樣性的希望,因為它們是在互聯網規(guī)模的數據上預訓練的,這些數據經驗性地捕捉到了語義的多樣分布,更重要的是分布的尾部(即稀有實例)。大量先前的工作表明,這些模型可以提供良好的視覺表征[1]-[5],將語言指令具體化[6]-[12],并可作為開箱即用的規(guī)劃器[13]-[18]。CLIP[19]是一個常用的界面,用于關聯視覺和語言,許多工作[20]-[23]使用它來構建語義場景表征,并在物體查詢和導航任務上表現出改善的性能。使用環(huán)境特定數據對這些模型進行微調可能非常昂貴,特別是在現實世界的機器人領域,因此目標應該是零樣本地使用這些模型。因此,在這篇論文中,我們在現有工作的基礎上進行了拓展,探討了如何零樣本使用VLMs為機器人任務創(chuàng)建有用的狀態(tài)表征的問題,特別是遮擋物體搜索和抓取。
          在第2章中,我們首先回顧了在機器人學中使用自然語言的現有工作。然后,我們深入探討如何在3D狀態(tài)表征中具體化自然語言,特別是對于下游機器人任務。最后,我們回顧了兩項機器人任務的先前工作:遮擋物體搜索(即機械搜索)和面向任務的抓取。
          在第3章中,我們討論了語義機械搜索(SMS)[24],它使用VLMs零樣本來創(chuàng)建可以用于更好搜索遮擋物體的語義占用分布。在機器人學中,移動物體以尋找完全遮擋的目標物體,被稱為機械搜索,是一個具有挑戰(zhàn)性的問題。由于物體通常以語義方式組織,我們推測關于物體關系的語義信息可以促進機械搜索并減少搜索時間。VLMs和LLMs在概括不常見物體和以前未見過的現實世界環(huán)境方面顯示出了希望。SMS通過使用LLMs進行場景理解并明確生成語義占用分布。與依賴CLIP嵌入提供的視覺相似性的方法相比,SMS利用了LLMs的深度推理能力。與使用VLMs和LLMs作為端到端規(guī)劃器的先前工作不同,后者可能無法與專門的幾何規(guī)劃器很好地集成,SMS可以作為下游操縱或導航策略的插件語義模塊。對于諸如貨架之類的封閉世界環(huán)境中的機械搜索,我們與基于幾何的規(guī)劃器進行了比較,并表明SMS在模擬中和藥店、廚房和辦公室領域的機械搜索性能提高了24%,在物理實驗中提高了47.1%。對于開放世界的真實環(huán)境,SMS可以產生比基于CLIP的方法更好的語義分布,有可能與更多下游搜索策略集成。
          在第4章中,我們討論了面向任務的零樣本抓取的語言嵌入輻射場(LERF-TOGO)[25],它使用VLMs零樣本創(chuàng)建用于面向任務的抓取的3D表征。通過特定的子部件抓取物體通常對安全至關重要,也是執(zhí)行下游任務的關鍵。LERF-TOGO根據自然語言查詢輸出一個物體上的抓取分布。為了實現這一點,我們首先構建了場景的LERF,將CLIP嵌入蒸餾成一個可通過文本查詢的多尺度3D語言場。然而,LERF沒有物體邊界感,因此其相關性輸出通常在一個物體上返回不完整的激活,這對抓取來說是不夠的。LERF-TOGO通過提取DINO特征的3D物體遮罩來緩解這種空間分組的缺乏,然后有條件地查詢這個遮罩上的LERF以獲得物體上的語義分布,從而對來自現成抓取規(guī)劃器的抓取進行排名。我們評估了LERF-TOGO在31個物理物體上抓取面向任務的物體部件的能力,并發(fā)現它在81%的試驗中選擇了正確部分的抓取,并在69%的試驗中成功抓取。
          在第5章中,我們總結了兩種算法的限制,討論了未來的工作

          瀏覽 46
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  黄色直播在线观看 | 肉搏丝袜一区 | 无码A∨| 黄色的一级的操逼的 | 亚洲最大免费在线播放视频 |