<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          何愷明最新一作論文:無監(jiān)督勝有監(jiān)督,遷移學(xué)習(xí)無壓力,刷新7項(xiàng)檢測分割任務(wù)

          共 2490字,需瀏覽 5分鐘

           ·

          2020-09-03 11:45


          點(diǎn)擊上方AI算法與圖像處理”,選擇加"星標(biāo)"或“置頂”

          重磅干貨,第一時(shí)間送達(dá)

          作者:魚羊 發(fā)自 凹非寺
          來源:量子位(QbitAI)
          本文僅作學(xué)術(shù)分享,若侵權(quán),請(qǐng)聯(lián)系后臺(tái)刪文處理


          何愷明的一作論文,又刷新了7項(xiàng)分割檢測任務(wù)。

          這一次,涉及的是無監(jiān)督表征學(xué)習(xí)。這一方法廣泛應(yīng)用在NLP領(lǐng)域,但尚未在計(jì)算機(jī)視覺中引起注意。


          Facebook AI研究院的何愷明團(tuán)隊(duì)受此啟發(fā),采用對(duì)比損失(constrative loss)法,即從圖像數(shù)據(jù)中采樣鍵(或令牌),并由經(jīng)過訓(xùn)練、與字典相匹配的編碼器表征。


          新的方法,名叫MoCo(Momentum Contrast)。其預(yù)訓(xùn)練模型經(jīng)過微調(diào)可以遷移到不同的任務(wù)上。



          在ImageNet、CoCo等數(shù)據(jù)集上,MoCo甚至在某些情況下大大超越了監(jiān)督預(yù)訓(xùn)練模型。


          研究團(tuán)隊(duì)表示:


          這表明,在許多視覺任務(wù)中,無監(jiān)督和有監(jiān)督的表征學(xué)習(xí)之間的鴻溝已經(jīng)大大消除。


          ? 方法原理



          那么,MoCo究竟是怎么實(shí)現(xiàn)的呢?


          像查字典一樣的對(duì)比學(xué)習(xí)


          對(duì)比學(xué)習(xí)(constrastive learning),可以看做是在訓(xùn)練編碼器來完成字典查找任務(wù)。


          假設(shè)字典中有一個(gè)與編碼查詢(query)相匹配的鍵(key,表示為k+)。對(duì)比損失函數(shù)中,當(dāng)查詢與k+相似,且與所有其他鍵不同時(shí),函數(shù)值較低。


          在這篇論文中,研究人員采用的對(duì)比損失函數(shù)如下:



          這是一種無監(jiān)督目標(biāo)函數(shù),用來訓(xùn)練表征查詢和鍵的編碼器網(wǎng)絡(luò)。


          動(dòng)量對(duì)比(MoCo)


          用一句話來說,對(duì)比學(xué)習(xí)就是一種在高連續(xù)性輸入(如圖像)上構(gòu)建離散字典的方法。


          MoCo方法的核心,是將上述字典作為數(shù)據(jù)樣本隊(duì)列來進(jìn)行維護(hù),這樣一來,字典就能重復(fù)使用已編碼的鍵,字典就可以比通常更大,并且可以靈活地、獨(dú)立地設(shè)置為超參數(shù)。


          這是一本動(dòng)態(tài)字典,其樣本會(huì)逐漸被替換,但始終代表著所有數(shù)據(jù)的抽樣子集。


          其次,需要考慮的是更新編碼器的問題。


          使用隊(duì)列可以讓字典變大,但也會(huì)讓通過反向傳播來更新鍵編碼器這件事變得更困難。


          研究人員假設(shè)這種困難是編碼器的快速變化降低了鍵的表征一致性所造成的,于是,他們提出了動(dòng)量更新的方法。



          在這個(gè)公式中,只有θq是通過反向傳播更新的。動(dòng)量更新會(huì)使得θk的演化比θq更加平穩(wěn)。



          在實(shí)驗(yàn)中,研究人員還發(fā)現(xiàn),相對(duì)較大的動(dòng)量(m=0.999)會(huì)比較小的動(dòng)量(m=0.9)要好得多。這表明緩慢演變的鍵編碼器是利用隊(duì)列的關(guān)鍵所在。


          △三種不同對(duì)比損失機(jī)制,僅展示一對(duì)查詢和鍵的關(guān)系


          從這張圖中,可以看到三種不同對(duì)比損失機(jī)制的不同。


          端到端方法,是通過反向傳播對(duì)計(jì)算查詢和鍵的表征進(jìn)行端到端更新。


          Memory bank方法中,鍵的表征是從存儲(chǔ)庫中提取的。


          而MoCo方法則通過基于動(dòng)量更新的編碼器對(duì)鍵進(jìn)行動(dòng)態(tài)編碼,并維持鍵的隊(duì)列。


          ? 實(shí)驗(yàn)結(jié)果



          MoCo的表現(xiàn)究竟如何,還是要用數(shù)據(jù)說話。


          研究團(tuán)隊(duì)在ImageNet-1M和Instagram-1B這兩個(gè)數(shù)據(jù)集上進(jìn)行了測試。


          ImageNet-1M是ImageNet的訓(xùn)練集,包含1000種不同類別的128萬張圖片。而Instagram-1B數(shù)據(jù)集則包含10億(940M)Instagram上的公開圖像。



          在三種不同機(jī)制的對(duì)比中,字典規(guī)模越大,三種方法的表現(xiàn)就越好。


          當(dāng)K較小時(shí),端到端方法的表現(xiàn)與MoCo差不多,但其批處理大小受限,在8個(gè)32GB的V100上,最大的mini-batch僅為1024。并且,即使存儲(chǔ)空間足夠大,由于端到端方法必須滿足線性學(xué)習(xí)率縮放規(guī)則,否則精度會(huì)下降,其增長趨勢能否推及到更大規(guī)模是存疑的。


          而memory bank的準(zhǔn)確率則始終比MoCo低了2%以上。


          在ImageNet上,MoCo表現(xiàn)出色。



          并且在針對(duì)不同的任務(wù)進(jìn)行微調(diào)之后,MoCo可以很好地遷移到下游任務(wù)中,表現(xiàn)甚至優(yōu)于有監(jiān)督預(yù)訓(xùn)練模型。



          而PASCAL VOC,COCO等其他數(shù)據(jù)集上的7種檢測/細(xì)分任務(wù)中,MoCo的表現(xiàn)也優(yōu)于其他有監(jiān)督預(yù)訓(xùn)練模型。甚至有十分明顯的提升。



          另外,在Instagram語料庫上進(jìn)行預(yù)訓(xùn)練的MoCo性能始終優(yōu)于在ImageNet上訓(xùn)練的結(jié)果,這表明MoCo非常適合大型的、相對(duì)未整理的數(shù)據(jù)。



          ? Facebook AI研究院的華人們



          論文的研究團(tuán)隊(duì),來自Facebook AI研究院(FAIR)。


          一作何愷明,想必大家都不陌生。作為Mask R-CNN的主要提出者,他曾三次斬獲頂會(huì)最佳論文。



          何愷明大神加持,論文的其他幾位作者實(shí)力也不容小覷。


          Haoqi Fan,畢業(yè)于卡內(nèi)基梅隆大學(xué)機(jī)器人學(xué)院,是FAIR的研究工程師。研究領(lǐng)域是計(jì)算機(jī)視覺和深度學(xué)習(xí)。有多篇論文入選ICCV、CVPR、AAAI等國際頂會(huì)。



          吳育昕,F(xiàn)AIR研究工程師,本科畢業(yè)于清華大學(xué),2017年于卡內(nèi)基梅隆大學(xué)獲得計(jì)算機(jī)視覺碩士學(xué)位。本科期間就曾在谷歌、曠視實(shí)習(xí)。



          謝賽寧,本科畢業(yè)于上海交通大學(xué),18年獲加州大學(xué)圣迭戈分校CS博士學(xué)位。現(xiàn)在是FAIR的研究科學(xué)家。


          另外一位論文作者Ross Girshick,同樣是FAIR的研究科學(xué)家。博士畢業(yè)于芝加哥大學(xué),曾在UC伯克利擔(dān)任博士后研究員。



          ? 傳送門



          論文地址:
          https://arxiv.org/abs/1911.05722

          作者系網(wǎng)易新聞·網(wǎng)易號(hào)“各有態(tài)度”簽約作者


          下載1:動(dòng)手學(xué)深度學(xué)習(xí)


          AI算法與圖像處公眾號(hào)后臺(tái)回復(fù):動(dòng)手學(xué)深度學(xué)習(xí),即可下載547頁《動(dòng)手學(xué)深度學(xué)習(xí)》電子書和源碼。該書是面向中文讀者的能運(yùn)行、可討論的深度學(xué)習(xí)教科書,它將文字、公式、圖像、代碼和運(yùn)行結(jié)果結(jié)合在一起。本書將全面介紹深度學(xué)習(xí)從模型構(gòu)造到模型訓(xùn)練,以及它們?cè)谟?jì)算機(jī)視覺和自然語言處理中的應(yīng)用。



          下載2
          AI算法與圖像處公眾號(hào)后臺(tái)回復(fù):OpenCV實(shí)戰(zhàn)項(xiàng)目20講,即可下載20個(gè)有趣的OpenCV實(shí)戰(zhàn)項(xiàng)目
          個(gè)人微信(如果沒有備注不拉群!
          請(qǐng)注明:地區(qū)+學(xué)校/企業(yè)+研究方向+昵稱

          瀏覽 27
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  国产亚洲色婷婷久久99精品91 | 国产乱伦中文 | 国产三级日本三级韩国三级 | 青春草免费视频 | 日韩精品电影网 |