<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          1小時(shí)學(xué)會(huì)走路,10分鐘學(xué)會(huì)翻身!世界模型讓新生機(jī)器狗掌握多項(xiàng)技能

          共 1782字,需瀏覽 4分鐘

           ·

          2022-07-09 00:40

          大數(shù)據(jù)文摘轉(zhuǎn)載自機(jī)器人大講堂


          人類寶寶在出生后的第1年里,就會(huì)逐漸掌握協(xié)調(diào)能力,學(xué)習(xí)坐、立、翻滾和爬行。


          那么機(jī)器人呢?


          機(jī)器人能完成多復(fù)雜的任務(wù),取決于它的學(xué)習(xí)能力。在最近的一項(xiàng)研究中,來自UC伯克利大學(xué)的的研發(fā)人員利用“ Dreamer” 世界模型的最新成果訓(xùn)練了各種機(jī)器人:無需模擬器或示范學(xué)習(xí),就能實(shí)現(xiàn)現(xiàn)實(shí)世界中的在線強(qiáng)化學(xué)習(xí)。

           


          正在學(xué)習(xí)走路的機(jī)械狗

           


          開始走的像模像樣了!

           


          起身也賊6!

           


          運(yùn)用了“想象力”的Dreamer


          早在2019年,谷歌DeepMind和多倫多大學(xué)的研究人員就在NeurIPS 2019會(huì)議上介紹了AI “Dreamer”,它可以通過已知世界模型在新環(huán)境中對(duì)視覺圖像的運(yùn)動(dòng)方式進(jìn)行預(yù)測(cè)。Dreamer在觀察到圖像運(yùn)動(dòng)方式時(shí),會(huì)先構(gòu)想出一些可能的動(dòng)作,然后判斷這些構(gòu)想動(dòng)作可能得到的獎(jiǎng)勵(lì),根據(jù)獎(jiǎng)勵(lì)來最終預(yù)測(cè)動(dòng)作。


          基于谷歌提出的這種可擴(kuò)展的強(qiáng)化學(xué)習(xí)方法。在此次研究中,團(tuán)隊(duì)的目標(biāo)是在現(xiàn)實(shí)世界中推動(dòng)機(jī)器人學(xué)習(xí)的極限,并提供一個(gè)強(qiáng)大的平臺(tái)來支持未來的工作。

           


          除了教四足機(jī)器人翻身、站立并在 1 小時(shí)內(nèi)學(xué)會(huì)行走,團(tuán)隊(duì)還把 Dreamer 應(yīng)用于其他3個(gè)機(jī)器人。

           


          比如這個(gè)機(jī)械臂,在經(jīng)過8-10小時(shí)抓取學(xué)習(xí)后,表現(xiàn)接近于人類水平;

           


          這個(gè)有計(jì)算機(jī)視覺的小機(jī)器人,通過學(xué)習(xí)摸索2小時(shí)后,可以“順滑”的滾動(dòng)到指定地點(diǎn)。

           


          研發(fā)團(tuán)隊(duì)還公開發(fā)布了所有實(shí)驗(yàn)的軟件基礎(chǔ)架構(gòu),感興趣的小伙伴們可以移步開源地址↓↓↓

          https://blog.otoro.net/2018/06/09/world-models-experiments/


          總的來說,World Model就是一個(gè)智能體模型。它包括一個(gè)視覺感知組件,能將看到的圖像壓縮成一個(gè)低維的表征向量作為模型輸入,同時(shí)還有一個(gè)記憶組件,可以基于歷史信息,對(duì)未來的表征向量做出預(yù)測(cè)。最后還包括一個(gè)決策組件,它能基于視覺感知組件、決策組件的表征向量,決定采取怎樣的動(dòng)作。

           

          三個(gè)緊密協(xié)作的組件:視覺 (V)、記憶 (M) 和控制器 (C)


          世界模型作為一個(gè)學(xué)習(xí)預(yù)測(cè)環(huán)境動(dòng)態(tài)的深度神經(jīng)網(wǎng)絡(luò),我們不難發(fā)現(xiàn),這是一個(gè)經(jīng)驗(yàn)積累到動(dòng)作輸出的過程。



          此次,研發(fā)人員們主要解決了機(jī)器人學(xué)習(xí)、訓(xùn)練中的兩項(xiàng)難題:效率和準(zhǔn)確率。


          以往訓(xùn)練機(jī)器人的常規(guī)方法是強(qiáng)化學(xué)習(xí),通過反復(fù)實(shí)驗(yàn)來調(diào)整機(jī)器人的運(yùn)作,但這種方法往往需要反復(fù)不斷的測(cè)試才能達(dá)到滿意的效果,在效率和訓(xùn)練的成本上顯得有些差強(qiáng)人意。


          通過此次研發(fā)團(tuán)隊(duì)的成果進(jìn)展,在訓(xùn)練機(jī)械狗的過程來看,效率有了明顯的提升。

           


          在訓(xùn)練機(jī)械臂學(xué)習(xí)的過程中,這一新成果還克服了視覺定位和稀疏獎(jiǎng)勵(lì)的挑戰(zhàn),訓(xùn)練成果明顯優(yōu)于其他方法。



          研發(fā)團(tuán)隊(duì)大揭秘


          此次研發(fā)項(xiàng)目中的一位核心成員十分令人矚目,他就是AI 大牛吳恩達(dá)的學(xué)生、機(jī)器人學(xué)習(xí)專家、UC 伯克利教授 Pieter Abbeel 。在今年4月,他還摘得了最新一屆 ACM 計(jì)算獎(jiǎng)的榮譽(yù),以表彰他在機(jī)器人學(xué)習(xí)方面的貢獻(xiàn),包括從演示中學(xué)習(xí)和用于機(jī)器人控制的深度強(qiáng)化學(xué)習(xí)。



          Pieter Abbeel 現(xiàn)為加州大學(xué)伯克利分校計(jì)算機(jī)科學(xué)與電氣工程教授,也是人工智能機(jī)器人公司 Covariant 的聯(lián)合創(chuàng)始人、總裁兼首席科學(xué)家。Abbeel 在比利時(shí)魯汶大學(xué)獲得電氣工程學(xué)士學(xué)位,并在斯坦福大學(xué)獲得計(jì)算機(jī)科學(xué)碩士和博士學(xué)位。

           

          Pieter Abbeel和老師吳恩達(dá)


          不愧是AI 大牛的開山大弟子,讓人看了都直呼優(yōu)秀!

           


          另一位 Ken Goldberg,也是 AI 領(lǐng)域的頂級(jí)專家。

           


          他現(xiàn)在是 UC 伯克利工程教授,研究方向?yàn)閺?qiáng)化學(xué)習(xí)、人機(jī)交互等。其卓越的科研成就使其被公認(rèn)為美國人工智能領(lǐng)域的重量級(jí)專家。他教授研發(fā)出多種讓他享有盛譽(yù)的網(wǎng)絡(luò)化遙控科研產(chǎn)品,由他主導(dǎo)的自動(dòng)化領(lǐng)域研究共獲六項(xiàng)美國專利并榮獲諸多國家級(jí)科學(xué)大獎(jiǎng)。


          此外,Philipp Wu、Alejandro Escontrela、Danijar Hafner 三人為共同一作。其中 Philipp Wu 還只是 UC 伯克利一位大四的學(xué)生。


          論文地址:

          https://danijar.com/project/daydreamer/



          點(diǎn)「在看」的人都變好看了哦!
          瀏覽 43
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  日韩免费高清一区二区 | 欧美成人性爱在线视频 | 亚洲国产中文字幕在线播放 | 成人精品三级AV在线 | 91丨豆花丨成人熟女 熟女 |