【論文解讀】TOOD:任務(wù)對齊的一階段物體檢測器
導(dǎo)讀
顯式的使用loss來對齊分類和定位任務(wù)。
TOOD: Task-aligned One-stage Object Detection

論文鏈接:后臺發(fā)送“tood”獲取論文和代碼鏈接。
1、介紹
現(xiàn)有的物體檢測方法的2個(gè)局限性:
(1)分類和定位的獨(dú)立性。目前,分類和定位一般用的是2個(gè)獨(dú)立的分支,這樣使得2個(gè)任務(wù)之間缺乏交互,在預(yù)測的時(shí)候就會出現(xiàn)不一致性。得分高的預(yù)測位置不準(zhǔn),位置準(zhǔn)的預(yù)測得分不高。
(2)任務(wù)無關(guān)的樣本分配。大多數(shù)的anchor free的物體檢測器使用基于幾何的方式來分配樣本點(diǎn),anchor-based物體檢測器一般使用IoU的方式來分配樣本點(diǎn),但是對于分類最優(yōu)的anchor和對于定位最優(yōu)的anchor往往并不是同一個(gè)。這些常用的樣本分配策略都是和任務(wù)無關(guān)的,不能對這兩個(gè)任務(wù)同時(shí)做出準(zhǔn)確的預(yù)測。
針對上面的2個(gè)問題,我們提出了任務(wù)對齊的一階段物體檢測器(Task-aligned One-stage Object Detection:TOOD)。
Task-aligned head
我們設(shè)計(jì)了一個(gè)Task-aligned head (T-head) 來增強(qiáng)2個(gè)任務(wù)之間的交互。概念上很簡單:計(jì)算2個(gè)任務(wù)的交互特征。通過TAP(Task-Aligned Predictor )來做預(yù)測。
Task alignment learning
我們提出了Task Alignment Learning (TAL) 來顯式的把兩個(gè)任務(wù)的最優(yōu)anchor拉近。這是通過設(shè)計(jì)一個(gè)樣本分配策略和任務(wù)對齊loss來實(shí)現(xiàn)的。樣本分配器計(jì)算每個(gè)anchor的任務(wù)對齊度,同時(shí)任務(wù)對齊loss可以逐步將分類和定位的最佳a(bǔ)nchor統(tǒng)一起來。
2、方法
總的pipeline還是‘backbone-FPN-head’ 的形式,這里和ATSS一樣,每個(gè)位置只使用了一個(gè)anchor。這里的anchor其實(shí)和anchor free中的anchor point是一個(gè)概念??傮w結(jié)構(gòu)如下圖,T-head和TAL協(xié)同工作,提升性能。具體來說,T-head首先對FPN特征進(jìn)行預(yù)測,然后TAL對這兩個(gè)任務(wù)給出一個(gè)一致性的度量,最后T-head會自動的調(diào)整分類輸出和定位輸出。

2.1 Task-aligned Head
我們設(shè)計(jì)的這個(gè)任務(wù)對齊頭如下圖(b),目標(biāo)有兩個(gè),提高2個(gè)任務(wù)的交互性,增加檢測器學(xué)習(xí)對齊的能力。

如圖b所示,F(xiàn)PN的特征先經(jīng)過N個(gè)堆疊的卷積,并保存每次卷積的結(jié)果,這樣就得到N個(gè)輸出,稱為,其實(shí)就是N個(gè)特征group,這N個(gè)輸出具有不同尺度的感受野,其實(shí)就是多尺度的特征。然后經(jīng)過兩個(gè)TAP,進(jìn)行對齊的分類和定位預(yù)測。
TAP的結(jié)構(gòu)如圖c所示,首先經(jīng)過一個(gè)Layer attention模塊,其實(shí)就是計(jì)算每個(gè)特征group的權(quán)重,然后相乘。然后拼接起來做卷積,得到,然后得到分類得分或者包圍框。
預(yù)測對齊,在預(yù)測的時(shí)候,我們需要顯式的做一次對齊,對于分類,我們用空間概率圖來調(diào)整分類預(yù)測:

對于包圍框,我們用空間偏差圖來調(diào)整預(yù)測:

這兩個(gè)用來對齊的圖是自動學(xué)習(xí)出來的:

2.2 Task Alignment Learning
2.2.1 任務(wù)對齊樣本分配
anchor對齊度量
我們用分類得分和預(yù)測框和gt的IoU的高階組合來表示這個(gè)度量:

這里α和β可以用來控制得分和IoU對這個(gè)指標(biāo)的影響程度。
訓(xùn)練樣本分配
對于每個(gè)gt,我們選擇m個(gè)具有最大t值的anchor作為正樣本點(diǎn),其余的為負(fù)樣本。另外,訓(xùn)練的時(shí)候還會計(jì)算一個(gè)新loss,用來對齊分類和定位。
2.2.2 Task-aligned Loss
分類目標(biāo)函數(shù)
為了顯式的增加對齊的anchor的得分,減少不對齊的anchor的得分,我們用t來代替正樣本anchor的標(biāo)簽。我們發(fā)現(xiàn),當(dāng)α和β變換導(dǎo)致正樣本的標(biāo)簽變小之后,模型無法收斂,因此,我們使用了歸一化的t,這個(gè)歸一化有兩個(gè)性質(zhì):1)確??梢杂行W(xué)習(xí)困難樣本,2)保持原來的排序。

同時(shí),我們借鑒了focal loss的思想,最后的損失函數(shù)如下。

定位損失函數(shù)
和分類類似,我們使用歸一化的t來對GIoU loss進(jìn)行了加權(quán):

總的loss就是把這兩個(gè)損失加起來。
3、實(shí)驗(yàn)
3.1 消融實(shí)驗(yàn)
使用T-head的效果:

樣本分配策略的效果:

TOOD在anchor free和anchor based上的比較:

超參數(shù)的效果:

和其他的SOTA的比較:

任務(wù)對齊的質(zhì)量分析:


往期精彩回顧 本站qq群851320808,加入微信群請掃碼:
