<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          李飛飛團(tuán)隊提出零樣本泛化的技術(shù),性能超越SOTA!

          共 3956字,需瀏覽 8分鐘

           ·

          2021-07-28 03:04

          點(diǎn)擊下方AI算法與圖像處理”,一起進(jìn)步!

          重磅干貨,第一時間送達(dá)

          轉(zhuǎn)載于:新智元
          沒錯!又是李飛飛!
           
          上次報道李飛飛是因為她為學(xué)界爭取到了亞馬遜谷歌云數(shù)據(jù)中心。
           
          而這次,她和研究團(tuán)隊帶著一篇論文向我們走來!
           
          走在隊伍前面的,是來自斯坦福大學(xué)的博士,李飛飛的門生!
           
          (不好意思最近重溫了一下08奧運(yùn)開幕式……)
           
          先來看看李飛飛團(tuán)隊這次在arXiv上發(fā)表了的論文題目:
           
          SECANT:用于視覺策略零樣本泛化的自專家克隆
           
          廢話少說,給大家介紹一下這篇論文的大致內(nèi)容。

          論文介紹


          簡要介紹
           
          強(qiáng)化學(xué)習(xí)中的泛化(generalization),是指通過不斷跟環(huán)境交互,產(chǎn)生出一種網(wǎng)絡(luò)的記憶性。
           
          這個網(wǎng)絡(luò)能夠根據(jù)環(huán)境中特定的信號完成相應(yīng)的動作,經(jīng)過訓(xùn)練的agent能夠記住在什么狀態(tài)下要做什么,還能通過識別狀態(tài)的細(xì)微差別來采取不同的動作。
           
          再通俗一點(diǎn),就是在未見過的測試數(shù)據(jù)上也能夠進(jìn)行預(yù)測。
           
          因此,提升模型的泛化是機(jī)器學(xué)習(xí)領(lǐng)域中的一個重要研究。
           
          特別是視覺強(qiáng)化學(xué)習(xí)方面,泛化很容易被高維觀察空間中,一些無關(guān)痛癢的因素分散了注意力。
           
          機(jī)器學(xué)習(xí)中的泛化:欠擬合、擬合、過度擬合
           
          針對這個問題,團(tuán)隊通過魯棒性策略學(xué)習(xí),對具有大分布偏移的未見視覺環(huán)境進(jìn)行零樣本泛化。
           
          因此,團(tuán)隊提出「SECANT」模型,一種可以適應(yīng)新測試環(huán)境的自專家克隆方法(Self Expert Cloning for Adaptation to Novel Test-environments)。
           
          這個方法能夠在兩個階段利用圖像增廣,分離魯棒性表征和策略優(yōu)化。
           
          首先,專家策略通過弱增廣從頭開始進(jìn)行強(qiáng)化學(xué)習(xí)的訓(xùn)練。
           
          而學(xué)生網(wǎng)絡(luò)就是通過強(qiáng)增廣的監(jiān)督學(xué)習(xí)來模仿專家策略,其表征與專家策略相比,對視覺變化更具魯棒性。
           
          實(shí)驗表明,SECANT在DMControl(Deepmind Control)、自動駕駛、機(jī)器人操作和室內(nèi)物體導(dǎo)航這四個具有挑戰(zhàn)性的領(lǐng)域中,在零樣本泛化方面超過了之前的SOTA模型,分別實(shí)現(xiàn)了26.5%、337.8%、47.7%和15.8%的提升。
           
          主要貢獻(xiàn)
           
          1. 提出了SECANT模型,可以依次解決策略學(xué)習(xí)和魯棒性表征學(xué)習(xí)問題,從而實(shí)現(xiàn)了對未見過的視覺環(huán)境的強(qiáng)大零樣本泛化性能。
           
          1. 在自動駕駛、機(jī)器人操作和室內(nèi)物體導(dǎo)航四個領(lǐng)域中,設(shè)計并制定了一套多樣化的基準(zhǔn)測試。除了DMControl外,其它3種環(huán)境都具有代表實(shí)際應(yīng)用程序的測試時視覺外觀漂移。
           
          1. 證明了SECANT在以上4個領(lǐng)域中,大多數(shù)任務(wù)都能達(dá)到SOTA。


          SECANT框架


          SECANT的主要目標(biāo)是發(fā)展自我專家克隆技術(shù),通過這種技術(shù)可以實(shí)現(xiàn)零樣本生成不一樣的視覺樣本。

          作者研究的SECANT訓(xùn)練模型可以分解為兩步,代碼已公開。
           
           
           
          專家策略
          第一步,作者在原始環(huán)境中通過弱增廣訓(xùn)練了一套高性能的專家策略。在視覺連續(xù)控制任務(wù)中,這套策略通過前饋深度卷積網(wǎng)絡(luò)進(jìn)行參數(shù)化,然后將觀察到的圖像轉(zhuǎn)化為d維連續(xù)動作向量。
           
          在實(shí)際應(yīng)用中,作者采用了幀疊加技術(shù),在時間信息維度上,連接T個連續(xù)圖像進(jìn)行觀測。然后通過語義保持圖像變換來生成數(shù)據(jù)擴(kuò)增的算子。采用隨機(jī)裁剪圖像的方法作為默認(rèn)的弱增廣方法來訓(xùn)練專家策略。
           
          這套專家策略可以通過任何標(biāo)準(zhǔn)的RL算法進(jìn)行優(yōu)化。作者選擇了Soft Actor-Critic (SAC),因為它在連續(xù)控制任務(wù)中被廣泛采用。然后采用梯度下降法對專家參數(shù)進(jìn)行優(yōu)化,使專家參數(shù)最小化。
           
          學(xué)生策略
          在第二階段,作者訓(xùn)練一個學(xué)生網(wǎng)絡(luò)來預(yù)測專家策略采取的最優(yōu)行動,在同樣的觀察的條件下,通過劇烈變化的圖像來進(jìn)行測試。在這個階段不需要進(jìn)一步接觸獎勵信號。

          從形式上來看,學(xué)生策略也是一個深度卷積神經(jīng)網(wǎng)絡(luò),但與專家策略不同的是它有著不同的架構(gòu)。本質(zhì)上來說,學(xué)生策略是根據(jù)DAgger模仿流程,從專家策略中延伸而來的。
           
          作者使用專家策略來收集軌跡的初始數(shù)據(jù)集D。接下來,在每一次迭代中,選擇一個強(qiáng)擴(kuò)增算子,并將其應(yīng)用于采樣的一批觀測數(shù)據(jù)。

           
          作者通過將原有視覺元素進(jìn)行插入色塊(Cc)、隨機(jī)卷積(Cv)、補(bǔ)充高斯噪聲(G)以及添線性混合(M)等方式來生成不同的視覺樣本。
           
          作者還研究了以上的組合,并試圖發(fā)現(xiàn)從低頻和高頻結(jié)構(gòu)噪聲中的隨機(jī)抽樣產(chǎn)生最佳的總體結(jié)果。作者注意到,在混合中添加隨機(jī)裁剪略微有利于性能的提升,可能是因為它改善了學(xué)生策略表征的空間不變性。

          實(shí)驗內(nèi)容


          四種不同場景的視覺策略泛化基準(zhǔn)測試(從上至下):DMControl Suite、CARLA、Robosuite和iGibson
           
          首先,作者提出了一個適用于四種不同領(lǐng)域的基準(zhǔn)測試,系統(tǒng)地評估視覺agent的泛化能力。
           
          在每個領(lǐng)域中,團(tuán)隊研究了在一個環(huán)境中訓(xùn)練的算法,在零樣本設(shè)置中的各種未見環(huán)境中的表現(xiàn)如何。此時沒有獎勵信號和額外的試驗。
           
          在每個任務(wù)中,SECANT以之前的SOTA算法為基準(zhǔn):SAC、SAC+crop、DR、NetRand、SAC+IDM和PAD。
           
          DMControl
           
           
          研究團(tuán)隊依照前人的設(shè)置,使用來自DMControl的8個任務(wù)進(jìn)行實(shí)驗。
           
          測量泛化能力,隨機(jī)生成背景和機(jī)器人本身的顏色,將真實(shí)的視頻作為動態(tài)背景。
           
          除了一項任務(wù)外,SECANT在所有任務(wù)中都顯著優(yōu)于先前的SOTA,通常高出88.3%。
           
          所有方法都經(jīng)過50萬步訓(xùn)練,有密集的任務(wù)特定獎勵。
           
          Robosuite:機(jī)器人操作模擬器
           
          Robosuite是用于機(jī)器人研究的模塊化模擬器。
           
          作者在4個具有挑戰(zhàn)性的單臂和雙手操作任務(wù)上對SECANT和先前方法進(jìn)行了基準(zhǔn)測試。
           
          使用具有操作空間控制的Franka Panda機(jī)器人模型,并使用特定于任務(wù)的密集獎勵進(jìn)行訓(xùn)練。
           
          所有agent都接收一個168×168以自我為中心的RGB視圖作為輸入。
           
          與之前SOTA相比,SECANT有337.8%的提升
           
          實(shí)驗表明,與之前的最佳方法相比,SECANT在簡單設(shè)置中獲得的獎勵平均增加了287.5%,在困難設(shè)置中增加了374.3%,在極端設(shè)置中增加了351.6%。
           
          CARLA:自動駕駛模擬器
           
          為了進(jìn)一步驗證SECANT對自然變化的泛化能力,作者在CARLA模擬器中構(gòu)建了一個具有視覺觀察的真實(shí)駕駛場景。
           
          測試目標(biāo)是在1000個時間步長內(nèi)沿著8字形高速公路(CARLA Town 4)行駛盡可能遠(yuǎn),不與行人或車輛發(fā)生碰撞。
           
          agent在「晴朗的中午」情景接受訓(xùn)練,并在中午和日落時對各種動態(tài)天氣和光照條件進(jìn)行評估。
           
           
           
          例如,潮濕天氣的特點(diǎn)是道路具有高反射點(diǎn)。經(jīng)過平均每個天氣超過10集和5次訓(xùn)練運(yùn)行,SECANT在測試中能夠比之前的SOTA行駛的距離增加47.7%
           
          iGibson:室內(nèi)物體導(dǎo)航
           
          iGibson是一個交互式模擬器,有高度逼真的3D房間和家具。
           
          在這個模擬器中,實(shí)驗的目標(biāo)是盡可能接近一盞燈。
           
          獎勵函數(shù)激勵agent使燈在視野中所占的像素比例最大,當(dāng)這個比例在連續(xù)10個步驟中超過5%時就算成功。
           

          在本測試中,在未見過的房間里,SECANT的成功率比之前的方法高出15.8%。


          作者簡介

           
           
          本文一作是李飛飛門下得意弟子Linxi Fan,他畢業(yè)于上海實(shí)驗中學(xué),本科就讀于紐約哥倫比亞大學(xué),目前在斯坦福大學(xué)攻讀博士,主修計算機(jī)視覺、強(qiáng)化學(xué)習(xí)以及機(jī)器人技術(shù)。在英偉達(dá)實(shí)習(xí)期間完成了本論文。
           
           
          本文二作黃德安同樣師從李飛飛,本科畢業(yè)于國立臺灣大學(xué),獲得了卡內(nèi)基梅隆大學(xué)碩士學(xué)位。目前在斯坦福大學(xué)計算機(jī)科學(xué)專業(yè)攻讀博士學(xué)位,在NVIDIA做泛化學(xué)習(xí)類研究。
           

          三作禹之鼎也是來自NVIDIA的科學(xué)家,獲得華南理工大學(xué)電機(jī)工程聯(lián)合班學(xué)士學(xué)位、香港科技大學(xué)電子工程學(xué)士學(xué)位,2017年在卡內(nèi)基梅隆大學(xué)獲得了ECE博士學(xué)位。
           
          2018年加入英偉達(dá),現(xiàn)在是英偉達(dá)機(jī)器學(xué)習(xí)研究組的高級研究科學(xué)家。
           

          參考資料:

          https://arxiv.org/abs/2106.09678


          努力分享優(yōu)質(zhì)的計算機(jī)視覺相關(guān)內(nèi)容,歡迎關(guān)注:

          個人微信(如果沒有備注不拉群!
          請注明:地區(qū)+學(xué)校/企業(yè)+研究方向+昵稱



          下載1:何愷明頂會分享


          AI算法與圖像處理」公眾號后臺回復(fù):何愷明,即可下載。總共有6份PDF,涉及 ResNet、Mask RCNN等經(jīng)典工作的總結(jié)分析


          下載2:終身受益的編程指南:Google編程風(fēng)格指南


          AI算法與圖像處理」公眾號后臺回復(fù):c++,即可下載。歷經(jīng)十年考驗,最權(quán)威的編程規(guī)范!



          下載3 CVPR2021

          AI算法與圖像處公眾號后臺回復(fù):CVPR,即可下載1467篇CVPR 2020論文 和 CVPR 2021 最新論文

          點(diǎn)亮 ,告訴大家你也在看


          瀏覽 44
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  国产夫妻精品自拍 | 欧美性爱中文字幕 | 口爆在线 | 超碰中文字幕 | 伊人成人大香蕉 |