ECCV 2022 | FPN錯(cuò)位對(duì)齊,高效半監(jiān)督目標(biāo)檢測(cè)(PseCo)
本文:https://zhuanlan.zhihu.com/p/544346080 作者:李鋼

論文鏈接:
https://arxiv.org/abs/2203.16317
代碼鏈接:https://github.com/ligang-cs/PseCo
一、Motivation
Pseudo labeling和consistency training是半監(jiān)督學(xué)習(xí)里面的兩個(gè)關(guān)鍵技術(shù),但是直接遷移到目標(biāo)檢測(cè)上,會(huì)出現(xiàn)一些不適配的現(xiàn)象。我們?cè)敿?xì)分析了一下,具體的不適配有哪些:
1.1 pseudo labeling
pseudo labeling通過(guò)設(shè)置一個(gè)較高的score threshold,把Teacher model預(yù)測(cè)的置信度較高的檢測(cè)結(jié)果保留下來(lái),作為偽標(biāo)簽(pseudo boxes)。但是在目標(biāo)檢測(cè)中,分類score和box的定位質(zhì)量往往沒(méi)有強(qiáng)相關(guān),score較高的pseudo box可能定位并不準(zhǔn)。所以,Pseudo box中難免存在一些定位不準(zhǔn)的box框。那么,定位不準(zhǔn)的pseudo box會(huì)給半監(jiān)督訓(xùn)練帶來(lái)哪些影響呢?
會(huì)影響IoU-based label assignment;如下圖1,質(zhì)量很差的proposal會(huì)被錯(cuò)誤地assign成正樣本,模糊正負(fù)樣本的分類邊界。
不準(zhǔn)確的Pseudo Box不適合用來(lái)訓(xùn)練bbox回歸的任務(wù)。
為了緩解這兩個(gè)影響,我們分別設(shè)計(jì)了Prediction-guided Label Assignment (預(yù)測(cè)引導(dǎo)的標(biāo)簽分配, PLA)和Positive-proposal Consistency Voting (正樣本一致性投票,PCV),來(lái)實(shí)現(xiàn)比較魯棒的帶噪偽標(biāo)簽學(xué)習(xí)。其中,PLA根據(jù)Teacher prediction來(lái)分配正負(fù)樣本,減少了對(duì)IoU的依賴;PCV根據(jù)proposal的預(yù)測(cè)一致性,來(lái)反映pseudo box的定位質(zhì)量,抑制定位不準(zhǔn)的pseudo box。

圖1 coarse pseudo box (黃色框)會(huì)誤導(dǎo)label assignment
1.2 consistency training
consistency training通過(guò)在student訓(xùn)練過(guò)程中,加入一些擾動(dòng),讓模型的預(yù)測(cè)結(jié)果對(duì)擾動(dòng)保持魯棒,從而學(xué)到一些重要的不變性。尺度不變性(scale invariance)作為目標(biāo)檢測(cè)最重要的幾個(gè)屬性之一,一直收到廣泛的關(guān)注。但是以前的工作,僅僅采用random resize來(lái)學(xué)習(xí)尺度不變性,對(duì)輸入圖像做比例為 的縮放,同時(shí)也會(huì)對(duì)ground truth做相應(yīng)比例 的縮放,我們把這種一致性叫作label-level consistency。除了這種label-level的尺度不變性外,其實(shí)目標(biāo)檢測(cè)網(wǎng)絡(luò)還有feature層面的尺度不變性。通俗的說(shuō)就是,對(duì)于同一張image ,我們把它放縮到兩種不同的scale (比如 ) ,如果能讓它們的feature擁有一樣的shape,即 的tensor維度和 的一模一樣,那么, 和 就可以利用相同的ground truth監(jiān)督。得益于FPN的金字塔結(jié)構(gòu),feature層面的對(duì)齊很容易實(shí)現(xiàn)。我們提出了一種Multi-view Scale-invariant Learning (多視角尺度不變性學(xué)習(xí), MSL),同時(shí)從label- and feature-level consistency的角度,學(xué)習(xí)尺度不變性,實(shí)現(xiàn)了高效的半監(jiān)督學(xué)習(xí)。
二、Method

圖2 PseCo framework
PseCo的framework如圖2所示。在unlabeled data上,我們對(duì)輸入圖像分別做不同的scale jitter,構(gòu)建出view 0和view 1,其中,view 0是teacher model的輸入,而view 1是student model的輸入,通過(guò)view 0 - view 1 pair的學(xué)習(xí),label-level consistency被實(shí)現(xiàn),這也就是之前大家常用的random resize。接著,我們對(duì)view 1做2倍下采樣,得到view 2。由于FPN的特征金字塔,view 1的P3-P7 features和view 2的P2-P6 features,可以實(shí)現(xiàn)完美的對(duì)齊。我們用相同的Pseudo Boxes來(lái)監(jiān)督view 1的P3-P7層和view 2的P2-P6層。這個(gè)可以理解成FPN的錯(cuò)位訓(xùn)練。至此,我們?cè)谝粋€(gè)網(wǎng)絡(luò)中,通過(guò)label-level and feature-level consistency,實(shí)現(xiàn)了更加全面的尺度不變性學(xué)習(xí)。關(guān)于兩種consistency的比較,可參考圖3。

圖3 label-level和feature-level consistency比較。feature level的對(duì)齊,可以通過(guò)移動(dòng)FPN pyramid level來(lái)實(shí)現(xiàn)
對(duì)于Pseudo labeling的改進(jìn),我們提出了PLA和PCV,分別從分類任務(wù)和回歸任務(wù)的角度,來(lái)實(shí)現(xiàn)魯棒帶噪標(biāo)簽學(xué)習(xí)。PLA (prediction-guided label assignment)提出了一種label assignment的方式,比傳統(tǒng)的IoU-based策略,更適合應(yīng)對(duì)帶噪的標(biāo)簽。PLA對(duì)每個(gè)GT,先構(gòu)造了一個(gè)更大的candidate bag,包含了所有的、有潛力成為正樣本的proposals (or candidates),然后根據(jù)teacher model在這些candidates上的預(yù)測(cè)結(jié)果,來(lái)評(píng)判每個(gè)candidate的質(zhì)量,最后選取質(zhì)量最高的top-N個(gè)candidates作為正樣本。PLA減少了label assignment對(duì)IoU的依賴,避免了不準(zhǔn)確的pseudo box對(duì)label assignment的消極影響。
此外,PCV(positve-proposal consistency voting) 直接對(duì)Pseudo Box的定位精度做出了判斷,定位準(zhǔn)確的Pseudo Box會(huì)被分配比較大的regression loss weight,反之,就分配小的reg loss weight。細(xì)節(jié)上,因?yàn)樵谀繕?biāo)檢測(cè)中,1個(gè)GT往往會(huì)匹配多個(gè)positive proposals,我們發(fā)現(xiàn)這些positive proposals的回歸一致性能夠反映出對(duì)應(yīng)的pseudo box的定位精度,更多細(xì)節(jié)請(qǐng)參考論文。
三、Experiments

我們?cè)趐artial labeled和full labeled settings下,都取得了SOTA的性能。此外,我們的訓(xùn)練效率也非常高,如圖4所示,在5%和10%標(biāo)簽比例下,我們都僅用了不到一半的訓(xùn)練時(shí)長(zhǎng),就達(dá)到了Soft Teacher的精度。雖然我們?cè)黾恿艘粋€(gè)view 2,但是因?yàn)関iew 2的圖片分辨率非常小,增加的訓(xùn)練開(kāi)銷(xiāo)很小,每個(gè)iteration增加的訓(xùn)練時(shí)長(zhǎng)不到20%。

圖4 PseCo收斂速度
四、碎碎念
unlabeled data上的strong augmentation,一方面可以使得模型學(xué)習(xí)到一些重要的不變性,另一方面,可以增加訓(xùn)練難度,有效緩解over-confidence。如果不加強(qiáng)aug的話,訓(xùn)練后期會(huì)出現(xiàn)一個(gè)現(xiàn)象:擬合pseudo label會(huì)擬合得越來(lái)越好,但是mAP就是不漲。本文提出的MSL,或者叫FPN錯(cuò)位訓(xùn)練,其實(shí)也是提供了一種強(qiáng)aug,讓student model同時(shí)處理兩種訓(xùn)練模式,不容易過(guò)擬合:1種是高分辨率輸入,P3-P7訓(xùn)練;另1種是低分辨率輸入,P2-P6訓(xùn)練。其實(shí),MAE的masked image也可以看做強(qiáng)aug,似乎可以融入到半監(jiān)督中。
在實(shí)際使用中,unlabeled data更可能是out-of-distribution的,和labeled data不在同一個(gè)domain。如何從ood的unlabeled data中高效學(xué)習(xí)出有用的信息,是比較難的。比如,如果做人臉檢測(cè),labele data用WiderFace,unlabeled data用MS COCO,可能這個(gè)設(shè)定下的半監(jiān)督學(xué)習(xí)就是無(wú)效的。甚至,會(huì)因?yàn)榫W(wǎng)絡(luò)更多地?cái)M合unlabeled data的domain,導(dǎo)致掉點(diǎn)。
現(xiàn)在Teacher model僅僅提供pseudo box給student model訓(xùn)練,這種pseudo box是比較稀疏的監(jiān)督信息。在此基礎(chǔ)上,我們提出了Dense Teacher Guidance ,研究如何從Teacher prediction中挖掘出更多的監(jiān)督信息。
本文來(lái)自:https://zhuanlan.zhihu.com/p/544346080
作者:李鋼
Illustration by Violetta Barsuk from icons8
猜您喜歡:
戳我,查看GAN的系列專輯~!一頓午飯外賣(mài),成為CV視覺(jué)前沿弄潮兒!
ECCV2022 | 生成對(duì)抗網(wǎng)絡(luò)GAN部分論文匯總
CVPR 2022 | 25+方向、最新50篇GAN論文
ICCV 2021 | 35個(gè)主題GAN論文匯總
超110篇!CVPR 2021最全GAN論文梳理
超100篇!CVPR 2020最全GAN論文梳理
附下載 | 《可解釋的機(jī)器學(xué)習(xí)》中文版
附下載 |《TensorFlow 2.0 深度學(xué)習(xí)算法實(shí)戰(zhàn)》
附下載 |《計(jì)算機(jī)視覺(jué)中的數(shù)學(xué)方法》分享
《基于深度學(xué)習(xí)的表面缺陷檢測(cè)方法綜述》
《基于深度神經(jīng)網(wǎng)絡(luò)的少樣本學(xué)習(xí)綜述》
本文來(lái)自:https://zhuanlan.zhihu.com/p/544346080
作者:李鋼
猜您喜歡:
戳我,查看GAN的系列專輯~!附下載 | 《可解釋的機(jī)器學(xué)習(xí)》中文版
附下載 |《TensorFlow 2.0 深度學(xué)習(xí)算法實(shí)戰(zhàn)》
附下載 |《計(jì)算機(jī)視覺(jué)中的數(shù)學(xué)方法》分享
《基于深度學(xué)習(xí)的表面缺陷檢測(cè)方法綜述》
《基于深度神經(jīng)網(wǎng)絡(luò)的少樣本學(xué)習(xí)綜述》

