<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          基于視覺模型強化學習的通用機器人

          共 3500字,需瀏覽 7分鐘

           ·

          2021-03-28 10:17

          點擊上方小白學視覺”,選擇加"星標"或“置頂

          重磅干貨,第一時間送達

          本文轉自| 新機器視覺

          人類的學習能力是無限的!


          有時候,只要看一眼,有些天分的人就能進行模仿。用學術一點的話說就是:只需少量的明確監(jiān)督和反饋,人類就可以通過簡單的交互和對世界的生理感知,來學習各種運動技能。


          機器人們“做夢”都想擁有這個技能。雖然在某些特定的方面,機器人取得了重大的進展。但是機器人獲得大量且多樣化的全部通用技能仍然是一個挑戰(zhàn)。


          現(xiàn)在,伯克利有個團隊開發(fā)一款“萬能機器人”,無需反復學習,只需看“一眼”就能執(zhí)行不同的任務,例如整理物品,挑選玩具或者折疊毛巾。




          下面,文摘菌將帶大家將看看它是如何工作的?機器人如何僅基于原始感知數(shù)據(jù)(即圖像像素,無需物體檢測器或手工設計的感知組件)來自我學習?以及展示如何使用已學到的經(jīng)驗來完成許多不同的任務。并且,將演示這種方法如何通過原始像素,執(zhí)行任務以及與機器人從未見過的物體進行交互。



          學會從無監(jiān)督的交互中進行預測



          首先需要一種收集各種數(shù)據(jù)的方法。如果訓練機器人用單個物體執(zhí)行單一技能,即使用特定的錘子擊中特定的釘子,那么它將只學習那個給定的環(huán)境, 即錘子和釘子就是它的整個宇宙。


          如何建造能夠?qū)W習更多通用技能的機器人呢?可以讓機器人在不同的環(huán)境中學習,而不是在單一給定的環(huán)境中學習單個任務,類似于孩子玩耍和探索。


          如果一個機器人可以自己收集數(shù)據(jù)并完全自主地學習,那么它就不需要監(jiān)督,因此可以一天24時刻收集經(jīng)驗并了解世界!此外,多個機器人可以同時收集數(shù)據(jù)并分享經(jīng)驗,數(shù)據(jù)收集是可擴展的,因此可以收集具有許多物體和機器人動作的各種數(shù)據(jù)。為了實現(xiàn)這一點,我們用兩個機器人隨機采樣各種物體,包括玩具和杯子等剛性物體,以及布和毛巾等可變形物體,并同時收集數(shù)據(jù):


          兩個機器人與世界交互,通過許多物體和許多動作自主地收集數(shù)據(jù)。


          在數(shù)據(jù)收集過程中,可以觀察機器人的傳感器觀測的內(nèi)容:圖像像素(視覺),手臂的位置(本體感知)以及發(fā)送到機器人的動作命令(動作)。


          但是無法直接測量物體的位置,它們對被推動的反應,速度等。此外,在這些數(shù)據(jù)中,沒有進步或成功的概念。與打磚塊游戲或敲釘子游戲不同,我們不會獲得分數(shù)或目標。在現(xiàn)實世界中進行交互時,我們學習的是自身感知(機器人的傳感器)提供的東西。


          那么,當只有我們的感知時,我們能學到什么?我們可以學習預測,如果機器人以一種方式移動其手臂而不是另一種方式,世界將會是什么樣子?


          如果機器人以不同的方式移動手臂,學習物理,物體和自身,機器人就會學會預測未來會是什么樣子。


          預測幫助我們學習關于世界的普遍事物,例如物體和物理。而這些通用知識正是玩打磚塊游戲的智能體所缺失的。預測還可以讓我們從我們擁有的所有數(shù)據(jù)中學習:動作和圖像流有許多隱式監(jiān)督信息。這很重要,因為我們沒有打分或回報函數(shù)。


          無模型強化學習系統(tǒng)通常僅從回報函數(shù)提供的監(jiān)督中學習,而基于模型的RL智能體可以利用他們觀察到的像素中可用的豐富信息進行自我學習。


          現(xiàn)在,我們?nèi)绾问褂眠@些預測呢?



          計劃執(zhí)行人類指定的任務



          如果有一個萬能的預測模型,那么可以用它來實現(xiàn)目標。也就是說,如果理解行為的后果,那么就可以預期結果來選擇相應的行為。


          使用基于采樣的過程來計劃。尤其是,可以在許多不同的候選動作序列中采樣,然后選擇最好的計劃(最有可能導致預期結果的動作),并從擬合最優(yōu)的候選動作序列的動作分布中重新采樣,用以迭代優(yōu)化。一旦找到了期望的計劃,就會在現(xiàn)實世界中執(zhí)行劃的第一步,觀察下一個圖像,如果發(fā)生意外的話就重新計劃。


          現(xiàn)在自然有一個問題,用戶如何為機器人指定目標或期望的結果?我們已經(jīng)嘗試了許多不同的方法來解決這一問題。發(fā)現(xiàn)的最簡單的機制是,簡單地單擊初始圖像中的一個像素,并通過單擊另一個像素位置來指定該像素對應的物體的移動方式。


          還可以給出一對以上的像素來指定其他所需物體的運動。雖然有些類型的目標無法以這種方式表達(已經(jīng)探索了更通用的目標指定方式,例如目標分類器),但發(fā)現(xiàn)指定像素位置可用于描述各種各樣的任務,并且它非常容易提供。需要說明的是,當機器人與現(xiàn)實世界交互時,用戶提供的目標指定方式不會在數(shù)據(jù)收集過程中使用,即當我們希望機器人使用其預測模型來實現(xiàn)某個目標。



          實驗



          伯克利團隊收集了2周的無監(jiān)督數(shù)據(jù),在Sawyer機器人上實驗了這種方法。重要的是,訓練期間唯一的人類參與是為機器人提供各種各樣的物體用于收集隨機的機器人運動的數(shù)據(jù)的編碼。


          能夠以極少的工作就可以幾乎每天24小時收集多個機器人的數(shù)據(jù)。在所有這些數(shù)據(jù)上(包括兩個攝像機視點)訓練單一動作條件的視頻預測模型,并使用前面描述的迭代計劃過程來計劃和執(zhí)行用戶指定的任務。


          由于著手實現(xiàn)通用性,在廣泛的任務中評估了相同的預測模型,這些任務涉及機器人以前從未見過的物體和機器人以前沒有遇到的目標。


          例如,要求機器人折疊短褲:


          上:目標是折疊短褲的左側。中:機器人的預測與其計劃相對應。下:機器人執(zhí)行其計劃。


          或者把蘋果放在盤子上:


          上:目標是將蘋果放在盤子上。中:機器人的預測與其計劃相對應。下:機器人執(zhí)行其計劃。


          最后,我們還可以要求機器人用毛巾蓋住勺子:


          左:目標是用毛巾蓋住勺子。中:機器人的預測與其計劃相對應。右:機器人執(zhí)行其計劃。


          有趣的是,我們發(fā)現(xiàn),即使模型的預測遠非完美,它仍然可以使用這些預測來有效地實現(xiàn)指定的目標。



          相關工作



          已有許多工作針對這個基于模型的強化學習(RL)的問題,即學習預測模型,然后使用該模型來行動或使用它來學習策略。在此類的先前工作中,許多集中在設置物體的位置或者其它可直接獲得的任務相關信息,而不是通過圖像或其他原始傳感器進行觀測。


          這種低維狀態(tài)表示是一種很強的假設,在現(xiàn)實世界中通常是不可能實現(xiàn)的。直接對原始圖像幀進行操作的基于模型的RL方法尚未得到廣泛研究。針對簡單的合成圖像和視頻游戲環(huán)境,已經(jīng)提出了幾種算法,這些算法集中在一組固定的物體和任務上。其他工作研究了現(xiàn)實世界中側重個人技能的基于模型的RL。


          最近的一些工作研究了自我監(jiān)督的機器人學習,其中大規(guī)模的未利用數(shù)據(jù)收集被用于學習個人技能,例如抓握,推動與抓握的協(xié)作或避障。


          抓握

          https://arxiv.org/abs/1603.02199

          推動與抓握的協(xié)作

          https://arxiv.org/abs/1803.09956

          避障

          https://arxiv.org/abs/1704.05588



          討論



          在視覺上多樣的設定中,泛化到許多不同的任務可以說是當今強化學習和機器人研究的最大挑戰(zhàn)之一。深度學習大大減少了部署算法所需的特定任務的工程量;然而,現(xiàn)有方法通常需要大量的監(jiān)督經(jīng)驗或集中于掌握單個任務。結果表明,伯克利的方法可以泛化到大量的任務和物體,包括以前從未見過的任務和物體。


          模型的通用性是從現(xiàn)實世界中進行大規(guī)模自我監(jiān)督學習的結果。這些結果代表了向前邁進的重要一步,即單個的機器人強化學習系統(tǒng)實現(xiàn)了任務的通用性。


           End 



          下載1:OpenCV-Contrib擴展模塊中文版教程
          在「小白學視覺」公眾號后臺回復:擴展模塊中文教程,即可下載全網(wǎng)第一份OpenCV擴展模塊教程中文版,涵蓋擴展模塊安裝、SFM算法、立體視覺、目標跟蹤、生物視覺、超分辨率處理等二十多章內(nèi)容。

          下載2:Python視覺實戰(zhàn)項目52講
          小白學視覺公眾號后臺回復:Python視覺實戰(zhàn)項目即可下載包括圖像分割、口罩檢測、車道線檢測、車輛計數(shù)、添加眼線、車牌識別、字符識別、情緒檢測、文本內(nèi)容提取、面部識別等31個視覺實戰(zhàn)項目,助力快速學校計算機視覺。

          下載3:OpenCV實戰(zhàn)項目20講
          小白學視覺公眾號后臺回復:OpenCV實戰(zhàn)項目20講,即可下載含有20個基于OpenCV實現(xiàn)20個實戰(zhàn)項目,實現(xiàn)OpenCV學習進階。

          交流群


          歡迎加入公眾號讀者群一起和同行交流,目前有SLAM、三維視覺、傳感器、自動駕駛、計算攝影、檢測、分割、識別、醫(yī)學影像、GAN、算法競賽等微信群(以后會逐漸細分),請掃描下面微信號加群,備注:”昵稱+學校/公司+研究方向“,例如:”張三 + 上海交大 + 視覺SLAM“。請按照格式備注,否則不予通過。添加成功后會根據(jù)研究方向邀請進入相關微信群。請勿在群內(nèi)發(fā)送廣告,否則會請出群,謝謝理解~


          瀏覽 27
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  最新超碰 | 精品无码蜜桃 | 欧美精品三区 | 91精品久久久久久久久久久久 | av短片在线播放婷婷 |