<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          ICCV2021|性能優(yōu)于何愷明團(tuán)隊(duì)MoCo v2,DetCo:為目標(biāo)檢測定制任務(wù)的對(duì)比學(xué)習(xí)

          共 5460字,需瀏覽 11分鐘

           ·

          2021-07-28 03:03

          點(diǎn)擊下方AI算法與圖像處理”,一起進(jìn)步!

          重磅干貨,第一時(shí)間送達(dá)

          作者丨小馬
          編輯丨極市平臺(tái)

          導(dǎo)讀

           

          作者專為目標(biāo)檢測任務(wù)“量身定制”了對(duì)比學(xué)習(xí)框架DetCo,在PASCAL VOC數(shù)據(jù)集上,DetCo在100個(gè)epoch時(shí)的性能就與MoCo V2 800個(gè)epoch的性能差不多,最終性能優(yōu)于Mask RCNN-C4/FPN/RetinaNet等監(jiān)督學(xué)習(xí)的方法。

          【寫在前面】

          深度學(xué)習(xí)兩巨頭 Bengio 和 LeCun 在 ICLR 2020 上點(diǎn)名 Self-Supervised Learning 是 AI 的未來。在Self-Supervised Learning的代表工作之一—— Contrastive Learning(對(duì)比學(xué)習(xí))上,Hinton 和 Kaiming 兩位大神在這個(gè)領(lǐng)域中提出了一系列代表工作MoCo、SimCLR、MoCo V2。而目前的對(duì)比學(xué)習(xí)工作大多是基于分類任務(wù)被提出,而由于分類任務(wù)和檢測任務(wù)的不同,在分類任務(wù)上適用對(duì)比學(xué)習(xí)框架,不一定適用于目標(biāo)檢測。因此,作者專為目標(biāo)檢測任務(wù)“量身定制”了對(duì)比學(xué)習(xí)框架DetCo,在PASCAL VOC數(shù)據(jù)集上,DetCo在100個(gè)epoch時(shí)的性能就與MoCo V2 800個(gè)epoch的性能差不多,最終性能優(yōu)于Mask RCNN-C4/FPN/RetinaNet等監(jiān)督學(xué)習(xí)的方法。

          1. 論文和代碼地址


          論文地址:https://arxiv.org/abs/2102.04803

          代碼地址:https://github.com/xieenze/DetCo

          2. Motivation

          視覺表示的自監(jiān)督學(xué)習(xí)是計(jì)算機(jī)視覺中的一個(gè)重要問題,促進(jìn)了許多下游任務(wù)。其中目前比較流行的方向之一是對(duì)比學(xué)習(xí),它將一幅圖像通過數(shù)據(jù)增強(qiáng)轉(zhuǎn)換為多個(gè)視圖,并最小化來自同一圖像的視圖之間的距離并最大化來自不同圖像的視圖之間的距離。

          目前的對(duì)比學(xué)習(xí)方法大多旨在在分類任務(wù)上達(dá)到與監(jiān)督學(xué)習(xí)類似的performance,但是由于分類任務(wù)和檢測任務(wù)存在不同,而先前的方法又忽略了這種不同,所以將以前的對(duì)比學(xué)習(xí)方法用在檢測任務(wù)上時(shí),就會(huì)產(chǎn)生suboptimal的問題。比如:

          第一,由于每張圖片只屬于一個(gè)類,圖像分類通常是使用交叉熵等1-K形式的損失函數(shù),這在目標(biāo)檢測中存在爭議,因?yàn)橐粋€(gè)圖像通常有許多不同類別的對(duì)象。

          第二,目標(biāo)檢測通常需要對(duì)局部圖像區(qū)域進(jìn)行對(duì)象分類和框回歸,但圖像分類只需要全局圖像表示。

          第三,最近先進(jìn)的目標(biāo)檢測器通常在多層次特征上預(yù)測目標(biāo),而圖像分類器通常學(xué)習(xí)高級(jí)判別特征(即最后面的特征)。

          為了能夠使得對(duì)比學(xué)習(xí)框架能夠在detection、segmentation、pose estimation等下游任務(wù)上也能表現(xiàn)出非常好的性能。本文首先研究了最新的自監(jiān)督方法存在的圖像分類精度與目標(biāo)檢測精度之間的不一致性 。然后,作者提出了三種的practice ,以適應(yīng)目標(biāo)檢測任務(wù)。最后,根據(jù)這些practice,作者設(shè)計(jì)了DetCo 。

          本文的貢獻(xiàn)點(diǎn)可以分為三個(gè)部分:

          1)證明了當(dāng)以前的自監(jiān)督學(xué)習(xí)表示被轉(zhuǎn)移到下游任務(wù)時(shí),圖像分類和目標(biāo)檢測之間準(zhǔn)確性的不一致。

          2)提出了一種新的檢測友好自監(jiān)督方法,DetCo,它能夠結(jié)合多個(gè)全局和局部對(duì)比損失,以提高目標(biāo)檢測任務(wù)中對(duì)比學(xué)習(xí)的特征表示。

          3)基于Palcal VOC、COCO和Cityscapes數(shù)據(jù)集,當(dāng)轉(zhuǎn)移到檢測、分割、姿態(tài)估計(jì)等下游任務(wù)中時(shí),DetCo優(yōu)于以前的SOTA方法。

          3. 方法

          3.1. 分類和檢測的不一致性

          作者詳細(xì)分析了最近的自監(jiān)督學(xué)習(xí)方法的圖像分類和目標(biāo)檢測方法的性能,發(fā)現(xiàn)分類任務(wù)的performance和檢測任務(wù)基本不一致。作者對(duì)比了監(jiān)督的ResNet50、Relative-Loc、MoCo v1、MoCo v2和SwAV。

          如上圖所示,在分類任務(wù)上,SwAV達(dá)到最佳的Top-1準(zhǔn)確率72.7%,但是在檢測任務(wù)中,MoCov2達(dá)到57.0%的mAP,而SwAV僅只有54.5%。這表明,同一個(gè)網(wǎng)絡(luò)結(jié)構(gòu)的分類和檢測的準(zhǔn)確性不一致,相關(guān)性較低。

          從上圖可以看出,雖然Relative-Loc的VOC分類性能遠(yuǎn)低于其他方法,但檢測性能具有競爭力。這表明,對(duì)于目前的自監(jiān)督學(xué)習(xí)方法,圖像分類的傳輸性能與目標(biāo)檢測的相關(guān)性較低。

          為什么這些方法的檢測性能如此不同?

          MoCov1和v2是對(duì)比學(xué)習(xí)的方法,而SwAV是一種基于聚類的方法 。因此,SwAV的訓(xùn)練過程在一定程度上與監(jiān)督分類方法相似 。因此,與對(duì)比學(xué)習(xí)方法相比,基于聚類的方法對(duì)圖像分類任務(wù)更友好,這就是為什么SwAV與監(jiān)督的ResNet在圖像分類和目標(biāo)檢測任務(wù)上具有相似的性能 。

          此外,作者認(rèn)為對(duì)比學(xué)習(xí)方法比基于聚類/分類的目標(biāo)檢測方法更好,還有一個(gè)原因是,基于聚類的方法假設(shè)先驗(yàn)是一個(gè)給定的圖像中只有一個(gè)對(duì)象 ,這與對(duì)象檢測的目標(biāo)不對(duì)應(yīng)的。而對(duì)比性的學(xué)習(xí)方法并不需要這樣的先驗(yàn)知識(shí),它從整體的角度來區(qū)分圖像。

          為什么不是基于對(duì)比學(xué)習(xí)的Relative-Loc也能在檢測任務(wù)上具有非常好的性能?

          從上圖可以看出,雖然Relative-Loc(結(jié)構(gòu)如下圖所示)在分類任務(wù)上表現(xiàn)一般,但是在檢測任務(wù)上性能還是比較好的。作者考慮了兩個(gè)原因:

          1)Relative-Loc不僅使用了最后的特征,而且使用了淺階段的特征,具有較強(qiáng)的識(shí)別能力。

          2)Relative-Loc專注于預(yù)測局部patch之間的相對(duì)位置,這對(duì)檢測任務(wù)有利。

          設(shè)計(jì)針對(duì)目標(biāo)檢測任務(wù)的對(duì)比學(xué)習(xí)框架,指導(dǎo)原則是什么?

          針對(duì)上面的分析,作者提出了三個(gè)原則:

          1)基于對(duì)比學(xué)習(xí)的方法比分類或聚類好。

          2)同時(shí)保持低級(jí)和高級(jí)特征來進(jìn)行目標(biāo)檢測。

          3)除了全局圖像特征外,local patch特性對(duì)目標(biāo)檢測也至關(guān)重要。

          3.2. DetCo

          根據(jù)上面提出的guideline,作者基于MoCov2結(jié)構(gòu),加入了多階段對(duì)比損失和跨局部和全局對(duì)比,提出了DetCo,如上圖所示。DetCo的損失函數(shù)函數(shù)為多階段,跨尺度的對(duì)比損失函數(shù)之和,具體表示如下:

          3.2.1.  Intermediate Contrastive Loss

          為了滿足上面的guideline2,作者將一幅圖像送到一個(gè)標(biāo)準(zhǔn)的主干ResNet-50,它輸出來自不同階段的特征,稱為Res2、Res3、Res4、Res5。MoCo只使用Res5,但本文使用所有級(jí)別的特征來計(jì)算對(duì)比損失。輸出的特征,作者分別送入到4個(gè)參數(shù)不共享的MLP中,得到4個(gè)q和4個(gè)k,對(duì)于每一層的特征,損失函數(shù)如下:

          本文的損失函數(shù)為4層特征的損失函數(shù)之和:

          3.2.2.  Cross Global and Local Contrast

          為了滿足上面的guideline3,作者增強(qiáng)了DetCo的Local Patch表示,使用jigsaw augmentation將輸入圖像轉(zhuǎn)換為9個(gè)Local Patch。這樣,就減少了全局圖像的上下文信息。這些Patch通過編碼器,就可以得到9個(gè)局部特征表示。之后,將這些特征組合為一個(gè)特征表示,并構(gòu)建一個(gè)跨全局和局部對(duì)比損失。具體方式為將這9個(gè)特征concat之后,放入到另一個(gè)MLP中,得到特征表示。

          因此就可以得到了Global - Local 和Local - Local的對(duì)比,損失函數(shù)如下:

          4.實(shí)驗(yàn)

          4.1. 消融實(shí)驗(yàn)

          4.1.1. 分層對(duì)比損失的有效性

          HIC為分層對(duì)比損失,從上表的(a)和(b)可以看出,加入多層特征之后,分類任務(wù)的準(zhǔn)確率下降了,但是檢測任務(wù)的準(zhǔn)確率上升了。

          4.1.2. 跨Local和Global對(duì)比的有效性

          CGLC為跨Local和Global對(duì)比,從上表的(c)和(b)可以看出,加入跨Local和Global對(duì)比之后,分類和檢測任務(wù)的性能都上升了。

          4.2. Transfer Results on General Object Detection

          4.2.1. PASCAL VOC

          只用100個(gè)epoch的預(yù)訓(xùn)練,DetCo幾乎達(dá)到了與MoCov2-800ep相同的性能。此外,DetCo-800ep達(dá)到了58.2mAP和65.0 AP75的SOTA性能。

          4.2.2. COCO

          上表展示了standard 1× schedule上的Mask R-CNN結(jié)果,DetCo在所有指標(biāo)中優(yōu)于MoCov2和其他方法。

          上表的2-3列展示了one-stage檢測器RetinaNet的結(jié)果。DetCo預(yù)訓(xùn)練也優(yōu)于ImageNet監(jiān)督方法和MoCov2。

          4.3. 其他下游任務(wù)

          4.3.1.Multi-Person Pose Estimation.

          上表的最后一列展示了DetCo在人體關(guān)鍵點(diǎn)檢測任務(wù)上也能達(dá)到比較好的性能。

          4.3.2. Segmentation for Autonomous Driving

          DetCo在實(shí)例分割和語義分割任務(wù)上也能達(dá)到比較好的性能。

          4.3.3. 3D Human Shape Prediction

          在3D Human Shape Prediction任務(wù)上,DetCo也達(dá)到了很好的性能。

          4.3.4. 分類

          雖然本文的結(jié)構(gòu)是為檢測任務(wù)設(shè)計(jì)的,但是在分類任務(wù)上,本文的結(jié)構(gòu)依舊能夠達(dá)到比較好的性能。

          4.4. 可視化

          上圖可視化了DetCo和MoCov2的attention map??梢钥吹剑?dāng)圖像中有多個(gè)對(duì)象時(shí),DetCo成功地定位了所有對(duì)象,而MoCov2則無法激活某些對(duì)象。

          5. 總結(jié)

          首先,作者詳細(xì)分析了一系列自監(jiān)督方法,并得出了分類和檢測任務(wù)性能不一致性的結(jié)論。其次,作者提出了三個(gè)practice來設(shè)計(jì)一個(gè)對(duì)于檢測任務(wù)友好的自我監(jiān)督學(xué)習(xí)框架。第三,按照practice的做法,作者提出加入具有分層中間對(duì)比損失和跨全局和局部對(duì)比。最終DetCo在一系列與檢測相關(guān)的任務(wù)上取得了最先進(jìn)的性能。

          本文的Motivation是解決了以前對(duì)比學(xué)習(xí)框架專注于提升分類任務(wù)的性能,從而忽略其他任務(wù)性能的問題。而作者設(shè)計(jì)了一些非常有效的結(jié)構(gòu)使得模型的泛化性提高,能夠適應(yīng)不同的任務(wù)。基于對(duì)比學(xué)習(xí)的預(yù)訓(xùn)練是為了得到一個(gè)非常general的特征,因此個(gè)人覺得,作者跳出了特定任務(wù)的性能提升,將格局放大,旨在提升更多任務(wù)的性能,使模型更具泛化性,是非常有意義的。

          努力分享優(yōu)質(zhì)的計(jì)算機(jī)視覺相關(guān)內(nèi)容,歡迎關(guān)注:

                
          個(gè)人微信(如果沒有備注不拉群!
          請(qǐng)注明:地區(qū)+學(xué)校/企業(yè)+研究方向+昵稱



          下載1:何愷明頂會(huì)分享


          AI算法與圖像處理」公眾號(hào)后臺(tái)回復(fù):何愷明,即可下載。總共有6份PDF,涉及 ResNet、Mask RCNN等經(jīng)典工作的總結(jié)分析


          下載2:終身受益的編程指南:Google編程風(fēng)格指南


          AI算法與圖像處理」公眾號(hào)后臺(tái)回復(fù):c++,即可下載。歷經(jīng)十年考驗(yàn),最權(quán)威的編程規(guī)范!



              
          下載3 CVPR2021

          AI算法與圖像處公眾號(hào)后臺(tái)回復(fù):CVPR,即可下載1467篇CVPR 2020論文 和 CVPR 2021 最新論文

          點(diǎn)亮 ,告訴大家你也在看



          瀏覽 17
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  欧美激情综合网 | 欧美色小说 | 欧美色影院 | 99免费在线视频 | 亚洲天堂综合网 |