猫咪AV成人永久网站,操逼内射网站,伊人狠狠,91久久在线,欧美风情第一页,www.jiba,大荫蒂视频另类XX,久久人人爽人人爽人人av东京热

點(diǎn)擊上方“邁微AI研習(xí)社”，選擇“星標(biāo)★”公眾號(hào)

重磅干貨，第一時(shí)間送達(dá)

沒(méi)錯(cuò)！又是李飛飛！?走在隊(duì)伍前面的，是來(lái)自斯坦福大學(xué)的博士，李飛飛的門(mén)生！?先來(lái)看看李飛飛團(tuán)隊(duì)這次在arXiv上發(fā)表了的論文題目：?

SECANT：用于視覺(jué)策略零樣本泛化的自專(zhuān)家克隆?廢話(huà)少說(shuō)，給大家介紹一下這篇論文的大致內(nèi)容。

論文介紹

簡(jiǎn)要介紹?強(qiáng)化學(xué)習(xí)中的泛化（generalization），是指通過(guò)不斷跟環(huán)境交互，產(chǎn)生出一種網(wǎng)絡(luò)的記憶性。?這個(gè)網(wǎng)絡(luò)能夠根據(jù)環(huán)境中特定的信號(hào)完成相應(yīng)的動(dòng)作，經(jīng)過(guò)訓(xùn)練的agent能夠記住在什么狀態(tài)下要做什么，還能通過(guò)識(shí)別狀態(tài)的細(xì)微差別來(lái)采取不同的動(dòng)作。?再通俗一點(diǎn)，就是在未見(jiàn)過(guò)的測(cè)試數(shù)據(jù)上也能夠進(jìn)行預(yù)測(cè)。?因此，提升模型的泛化是機(jī)器學(xué)習(xí)領(lǐng)域中的一個(gè)重要研究。?特別是視覺(jué)強(qiáng)化學(xué)習(xí)方面，泛化很容易被高維觀(guān)察空間中，一些無(wú)關(guān)痛癢的因素分散了注意力。?

機(jī)器學(xué)習(xí)中的泛化：欠擬合、擬合、過(guò)度擬合?針對(duì)這個(gè)問(wèn)題，團(tuán)隊(duì)通過(guò)魯棒性策略學(xué)習(xí)，對(duì)具有大分布偏移的未見(jiàn)視覺(jué)環(huán)境進(jìn)行零樣本泛化。?因此，團(tuán)隊(duì)提出「SECANT」模型，一種可以適應(yīng)新測(cè)試環(huán)境的自專(zhuān)家克隆方法（Self Expert Cloning for Adaptation to Novel Test-environments）。?這個(gè)方法能夠在兩個(gè)階段利用圖像增廣，分離魯棒性表征和策略?xún)?yōu)化。?首先，專(zhuān)家策略通過(guò)弱增廣從頭開(kāi)始進(jìn)行強(qiáng)化學(xué)習(xí)的訓(xùn)練。?而學(xué)生網(wǎng)絡(luò)就是通過(guò)強(qiáng)增廣的監(jiān)督學(xué)習(xí)來(lái)模仿專(zhuān)家策略，其表征與專(zhuān)家策略相比，對(duì)視覺(jué)變化更具魯棒性。?實(shí)驗(yàn)表明，SECANT在DMControl（Deepmind Control）、自動(dòng)駕駛、機(jī)器人操作和室內(nèi)物體導(dǎo)航這四個(gè)具有挑戰(zhàn)性的領(lǐng)域中，在零樣本泛化方面超過(guò)了之前的SOTA模型，分別實(shí)現(xiàn)了26.5%、337.8%、47.7%和15.8%的提升。?主要貢獻(xiàn)?

提出了SECANT模型，可以依次解決策略學(xué)習(xí)和魯棒性表征學(xué)習(xí)問(wèn)題，從而實(shí)現(xiàn)了對(duì)未見(jiàn)過(guò)的視覺(jué)環(huán)境的強(qiáng)大零樣本泛化性能。

在自動(dòng)駕駛、機(jī)器人操作和室內(nèi)物體導(dǎo)航四個(gè)領(lǐng)域中，設(shè)計(jì)并制定了一套多樣化的基準(zhǔn)測(cè)試。除了DMControl外，其它3種環(huán)境都具有代表實(shí)際應(yīng)用程序的測(cè)試時(shí)視覺(jué)外觀(guān)漂移。

證明了SECANT在以上4個(gè)領(lǐng)域中，大多數(shù)任務(wù)都能達(dá)到SOTA。

SECANT框架

SECANT的主要目標(biāo)是發(fā)展自我專(zhuān)家克隆技術(shù)，通過(guò)這種技術(shù)可以實(shí)現(xiàn)零樣本生成不一樣的視覺(jué)樣本。
作者研究的SECANT訓(xùn)練模型可以分解為兩步，代碼已公開(kāi)。??

?專(zhuān)家策略第一步，作者在原始環(huán)境中通過(guò)弱增廣訓(xùn)練了一套高性能的專(zhuān)家策略。在視覺(jué)連續(xù)控制任務(wù)中，這套策略通過(guò)前饋深度卷積網(wǎng)絡(luò)進(jìn)行參數(shù)化，然后將觀(guān)察到的圖像轉(zhuǎn)化為d維連續(xù)動(dòng)作向量。?在實(shí)際應(yīng)用中，作者采用了幀疊加技術(shù)，在時(shí)間信息維度上，連接T個(gè)連續(xù)圖像進(jìn)行觀(guān)測(cè)。然后通過(guò)語(yǔ)義保持圖像變換來(lái)生成數(shù)據(jù)擴(kuò)增的算子。采用隨機(jī)裁剪圖像的方法作為默認(rèn)的弱增廣方法來(lái)訓(xùn)練專(zhuān)家策略。?這套專(zhuān)家策略可以通過(guò)任何標(biāo)準(zhǔn)的RL算法進(jìn)行優(yōu)化。作者選擇了Soft Actor-Critic (SAC)，因?yàn)樗谶B續(xù)控制任務(wù)中被廣泛采用。然后采用梯度下降法對(duì)專(zhuān)家參數(shù)進(jìn)行優(yōu)化，使專(zhuān)家參數(shù)最小化。?學(xué)生策略在第二階段，作者訓(xùn)練一個(gè)學(xué)生網(wǎng)絡(luò)來(lái)預(yù)測(cè)專(zhuān)家策略采取的最優(yōu)行動(dòng)，在同樣的觀(guān)察的條件下，通過(guò)劇烈變化的圖像來(lái)進(jìn)行測(cè)試。在這個(gè)階段不需要進(jìn)一步接觸獎(jiǎng)勵(lì)信號(hào)。
從形式上來(lái)看，學(xué)生策略也是一個(gè)深度卷積神經(jīng)網(wǎng)絡(luò)，但與專(zhuān)家策略不同的是它有著不同的架構(gòu)。本質(zhì)上來(lái)說(shuō)，學(xué)生策略是根據(jù)DAgger模仿流程，從專(zhuān)家策略中延伸而來(lái)的。?作者使用專(zhuān)家策略來(lái)收集軌跡的初始數(shù)據(jù)集D。接下來(lái)，在每一次迭代中，選擇一個(gè)強(qiáng)擴(kuò)增算子，并將其應(yīng)用于采樣的一批觀(guān)測(cè)數(shù)據(jù)。

?作者通過(guò)將原有視覺(jué)元素進(jìn)行插入色塊（Cc）、隨機(jī)卷積（Cv）、補(bǔ)充高斯噪聲（G）以及添線(xiàn)性混合（M）等方式來(lái)生成不同的視覺(jué)樣本。?作者還研究了以上的組合，并試圖發(fā)現(xiàn)從低頻和高頻結(jié)構(gòu)噪聲中的隨機(jī)抽樣產(chǎn)生最佳的總體結(jié)果。作者注意到，在混合中添加隨機(jī)裁剪略微有利于性能的提升，可能是因?yàn)樗纳屏藢W(xué)生策略表征的空間不變性。

實(shí)驗(yàn)內(nèi)容

四種不同場(chǎng)景的視覺(jué)策略泛化基準(zhǔn)測(cè)試（從上至下）：DMControl Suite、CARLA、Robosuite和iGibson?首先，作者提出了一個(gè)適用于四種不同領(lǐng)域的基準(zhǔn)測(cè)試，系統(tǒng)地評(píng)估視覺(jué)agent的泛化能力。?在每個(gè)領(lǐng)域中，團(tuán)隊(duì)研究了在一個(gè)環(huán)境中訓(xùn)練的算法，在零樣本設(shè)置中的各種未見(jiàn)環(huán)境中的表現(xiàn)如何。此時(shí)沒(méi)有獎(jiǎng)勵(lì)信號(hào)和額外的試驗(yàn)。?在每個(gè)任務(wù)中，SECANT以之前的SOTA算法為基準(zhǔn)：SAC、SAC+crop、DR、NetRand、SAC+IDM和PAD。?DMControl?

?研究團(tuán)隊(duì)依照前人的設(shè)置，使用來(lái)自DMControl的8個(gè)任務(wù)進(jìn)行實(shí)驗(yàn)。?測(cè)量泛化能力，隨機(jī)生成背景和機(jī)器人本身的顏色，將真實(shí)的視頻作為動(dòng)態(tài)背景。?除了一項(xiàng)任務(wù)外，SECANT在所有任務(wù)中都顯著優(yōu)于先前的SOTA，通常高出88.3%。?

所有方法都經(jīng)過(guò)50萬(wàn)步訓(xùn)練，有密集的任務(wù)特定獎(jiǎng)勵(lì)。?Robosuite：機(jī)器人操作模擬器?Robosuite是用于機(jī)器人研究的模塊化模擬器。?作者在4個(gè)具有挑戰(zhàn)性的單臂和雙手操作任務(wù)上對(duì)SECANT和先前方法進(jìn)行了基準(zhǔn)測(cè)試。?使用具有操作空間控制的Franka Panda機(jī)器人模型，并使用特定于任務(wù)的密集獎(jiǎng)勵(lì)進(jìn)行訓(xùn)練。?所有agent都接收一個(gè)168×168以自我為中心的RGB視圖作為輸入。?

與之前SOTA相比，SECANT有337.8%的提升?實(shí)驗(yàn)表明，與之前的最佳方法相比，SECANT在簡(jiǎn)單設(shè)置中獲得的獎(jiǎng)勵(lì)平均增加了287.5%，在困難設(shè)置中增加了374.3%，在極端設(shè)置中增加了351.6%。?CARLA：自動(dòng)駕駛模擬器?為了進(jìn)一步驗(yàn)證SECANT對(duì)自然變化的泛化能力，作者在CARLA模擬器中構(gòu)建了一個(gè)具有視覺(jué)觀(guān)察的真實(shí)駕駛場(chǎng)景。?測(cè)試目標(biāo)是在1000個(gè)時(shí)間步長(zhǎng)內(nèi)沿著8字形高速公路（CARLA Town 4）行駛盡可能遠(yuǎn)，不與行人或車(chē)輛發(fā)生碰撞。?agent在「晴朗的中午」情景接受訓(xùn)練，并在中午和日落時(shí)對(duì)各種動(dòng)態(tài)天氣和光照條件進(jìn)行評(píng)估。?

?例如，潮濕天氣的特點(diǎn)是道路具有高反射點(diǎn)。經(jīng)過(guò)平均每個(gè)天氣超過(guò)10集和5次訓(xùn)練運(yùn)行，SECANT在測(cè)試中能夠比之前的SOTA行駛的距離增加47.7%。?iGibson：室內(nèi)物體導(dǎo)航?iGibson是一個(gè)交互式模擬器，有高度逼真的3D房間和家具。?在這個(gè)模擬器中，實(shí)驗(yàn)的目標(biāo)是盡可能接近一盞燈。?獎(jiǎng)勵(lì)函數(shù)激勵(lì)agent使燈在視野中所占的像素比例最大，當(dāng)這個(gè)比例在連續(xù)10個(gè)步驟中超過(guò)5%時(shí)就算成功。?

在本測(cè)試中，在未見(jiàn)過(guò)的房間里，SECANT的成功率比之前的方法高出15.8%。

作者簡(jiǎn)介

?本文一作是李飛飛門(mén)下得意弟子Linxi Fan，他畢業(yè)于上海實(shí)驗(yàn)中學(xué)，本科就讀于紐約哥倫比亞大學(xué)，目前在斯坦福大學(xué)攻讀博士，主修計(jì)算機(jī)視覺(jué)、強(qiáng)化學(xué)習(xí)以及機(jī)器人技術(shù)。在英偉達(dá)實(shí)習(xí)期間完成了本論文。?

?本文二作黃德安同樣師從李飛飛，本科畢業(yè)于國(guó)立臺(tái)灣大學(xué)，獲得了卡內(nèi)基梅隆大學(xué)碩士學(xué)位。目前在斯坦福大學(xué)計(jì)算機(jī)科學(xué)專(zhuān)業(yè)攻讀博士學(xué)位，在NVIDIA做泛化學(xué)習(xí)類(lèi)研究。?

三作禹之鼎也是來(lái)自NVIDIA的科學(xué)家，獲得華南理工大學(xué)電機(jī)工程聯(lián)合班學(xué)士學(xué)位、香港科技大學(xué)電子工程學(xué)士學(xué)位，2017年在卡內(nèi)基梅隆大學(xué)獲得了ECE博士學(xué)位。?2018年加入英偉達(dá)，現(xiàn)在是英偉達(dá)機(jī)器學(xué)習(xí)研究組的高級(jí)研究科學(xué)家。?

參考資料：

https://arxiv.org/abs/2106.09678

更多細(xì)節(jié)可參考論文原文，更多精彩內(nèi)容請(qǐng)關(guān)注邁微AI研習(xí)社，每天晚上七點(diǎn)不見(jiàn)不散！

??THE END?

投稿或?qū)で髨?bào)道微信：MaiweiE_com

GitHub中文開(kāi)源項(xiàng)目《計(jì)算機(jī)視覺(jué)實(shí)戰(zhàn)演練：算法與應(yīng)用》，“免費(fèi)”“全面“”前沿”，以實(shí)戰(zhàn)為主，編寫(xiě)詳細(xì)的文檔、可在線(xiàn)運(yùn)行的notebook和源代碼。

項(xiàng)目地址?https://github.com/Charmve/computer-vision-in-action
項(xiàng)目主頁(yè)?https://charmve.github.io/L0CV-web/

推薦閱讀

（更多“摳圖”最新成果）

華人團(tuán)隊(duì)用Transformer做風(fēng)格遷移，速度快、可試玩，網(wǎng)友卻不買(mǎi)賬
人人皆可二次元！小姐姐生成不同風(fēng)格動(dòng)漫形象，膚色、發(fā)型皆可變
CVPR 2020 | 北大&Futurewei提出 GraphTER：無(wú)監(jiān)督圖變換共變表征學(xué)習(xí)
圖像也能做情感遷移？羅切斯特大學(xué)團(tuán)隊(duì)提出計(jì)算機(jī)視覺(jué)新任務(wù)

邁微AI研習(xí)社

微信號(hào): MaiweiE_com

GitHub:?@Charmve

CSDN、知乎: @Charmve

投稿: [email protected]

主頁(yè): github.com/Charmve

如果覺(jué)得有用，就請(qǐng)點(diǎn)贊、轉(zhuǎn)發(fā)吧！

李飛飛團(tuán)隊(duì)提出零樣本泛化的技術(shù),性能超越SOTA!