Co-DETR突破目標(biāo)檢測大模型上限
商湯基模型團(tuán)隊(duì)提出了一種適用于DETR檢測器的訓(xùn)練框架Co-DETR,可以在不改變推理結(jié)構(gòu)和速度的情況下大幅提升模型性能。這是第一個在COCO上達(dá)到66.0AP的檢測器,僅使用304M參數(shù)的ViT-L。Co-DETR在目標(biāo)檢測的多個重要benchmark上取得了全線第一的成績。此外,本研究在長尾分布的LVIS數(shù)據(jù)集上也取得了大幅領(lǐng)先,在val和minival驗(yàn)證集上分別比之前的SOTA方法高+2.7AP和+6.1AP。
論文名稱:DETRs with Collaborative Hybrid Assignments Training
排名查看鏈接:https://paperswithcode.com/paper/detrs-with-collaborative-hybrid-assignments
概述
稀疏的監(jiān)督信號會對檢測器的學(xué)習(xí)能力造成什么影響?DETR檢測器的收斂慢問題是稀疏的監(jiān)督使得學(xué)習(xí)不充分導(dǎo)致的嗎?
當(dāng)前的DETR檢測器中,為了實(shí)現(xiàn)端到端的檢測,使用的標(biāo)簽分配策略是二分匹配,使得一個ground-truth只能分配到一個正樣本。
在這種情況下,只有非常少部分的稀疏的query作為正樣本,接收到回歸的監(jiān)督。這種稀疏的監(jiān)督信號具體會對檢測器學(xué)習(xí)能力的哪些方面造成影響目前是未知的。此外,也沒有相關(guān)的量化指標(biāo)可以來衡量這種影響究竟有多大。
為了進(jìn)一步探究這些問題,我們首先可視化了Deformable-DETR+R50 encoder輸出的特征圖。
由圖可以看出,Deformable-DETR特征的可視化一團(tuán)糟,基本無法看出其與原圖中物體的任何聯(lián)系。此外,在特征圖的邊緣還會出現(xiàn)一些奇怪的高激活pattern。
然而,與上文的二分匹配相反,在傳統(tǒng)的檢測器(如Faster-RCNN、ATSS)中,一個ground-truth會根據(jù)位置關(guān)系分配到多個anchor(為了方便闡述,本文將anchor、proposal、point等先驗(yàn)統(tǒng)稱為anchor)作為正樣本。
考慮到anchor在特征圖上密集排列,一個點(diǎn)可能對應(yīng)多個不同大小和長寬比的anchor,以及不同大小的物體會匹配到不同尺度的anchor。那么這種一對多的分配方式就能夠提供dense且尺度敏感的監(jiān)督信息,由此我們猜想,這種標(biāo)簽分配方式能夠?yàn)樘卣鲌D上的更多區(qū)域提供位置監(jiān)督,就能讓檢測器的特征學(xué)習(xí)得更好。
為了比較這兩種不同的標(biāo)簽分配方法在特征圖上的差異,我們直接把Deformable-DETR的decoder換成了ATSS head,使用相同的可視化方法進(jìn)行了比較。
如圖所示,ATSS的特征圖可視化中高激活區(qū)域很好地覆蓋了圖片中的前景部分,而背景部分則基本沒有激活。結(jié)合這些可視化結(jié)果,我們認(rèn)為正是這兩種分配方式的差異使得DETR模型中的encoder特征表達(dá)能力減弱了。
除了可視化,我們也構(gòu)造了一個衡量特征圖和attention discriminability的指標(biāo),目的是為了把可視化的結(jié)果進(jìn)行量化,其具體計(jì)算方式如下。簡單地說,就是計(jì)算出每個尺度特征的L2 norm,進(jìn)行歸一化后再在尺度上進(jìn)行平均。
在得到discriminability score后,我們計(jì)算出其對于前景和背景的響應(yīng)程度,使用IoF-IoB曲線進(jìn)行了定量分析,IoF和IoB的計(jì)算方式類似,如下公式。
簡單地說,就是把目標(biāo)框內(nèi)部的像素點(diǎn)都視為前景,框外的為背景,然后就可以得到前景和背景相應(yīng)的掩碼。根據(jù)這個掩碼和discriminability score就可以進(jìn)行IoF和IoB的計(jì)算。
通過IoF-IoB曲線,我們發(fā)現(xiàn)一對一的匹配會分別損害encoder特征和decoder中attention的學(xué)習(xí)。那么在這種情況下能不能讓DETR模型既享受到一對一匹配帶來的端到端推理能力,又能夠像一對多匹配那樣feature和attention學(xué)得更好?本文將根據(jù)可視化和指標(biāo)分析的結(jié)果,從兩方面對這些問題進(jìn)行探索。
為了能夠讓DETR檢測器利用到一對多匹配的優(yōu)勢,我們基于DETR的訓(xùn)練框架引入了兩點(diǎn)改進(jìn),分別對應(yīng)到上文提到的encoder feature learning和decoder attention learning。新加入的模塊在訓(xùn)練后不再使用。
(1)在上文的分析中,我們發(fā)現(xiàn)在encoder后插入一個傳統(tǒng)的ATSS檢測頭就能讓encoder的特征更加顯著。
受到這個的啟發(fā),為了增強(qiáng)encoder的學(xué)習(xí)能力,我們首先利用multi-scale adapter,將encoder輸出的特征轉(zhuǎn)化為多尺度的特征。
對于使用單尺度特征的DETR,這個adapter的結(jié)構(gòu)就類似于simple feature pyramid。而對于多尺度特征的DETR,這個結(jié)構(gòu)就是恒等映射。之后我們將多尺度的特征送入到多個不同的輔助檢測頭,這些檢測頭都使用一對多的標(biāo)簽分配。
由于傳統(tǒng)檢測器的檢測頭結(jié)構(gòu)輕量,因此帶來的額外訓(xùn)練開銷較少。
(2)為了增強(qiáng)decoder的attention學(xué)習(xí),我們提出了定制化的正樣本query生成。
在上文的分析中,我們發(fā)現(xiàn)傳統(tǒng)檢測器中的anchor是密集排列的,且能夠提供dense且尺度敏感的監(jiān)督信息。
那么我們能不能把傳統(tǒng)檢測器中的anchor作為query來為attention的學(xué)習(xí)提供足夠的監(jiān)督呢?當(dāng)然是可以的,在上一步中,輔助的檢測頭已經(jīng)分配好了各自的正樣本anchor及其匹配的ground-truth。
我們選擇直接繼承輔助檢測頭的標(biāo)簽分配結(jié)果,將這些正樣本anchor轉(zhuǎn)化為正樣本query送到decoder中,在loss計(jì)算時無需二分匹配,直接使用之前的分配結(jié)果。
與其他引入輔助query的方法相比,這些工作會不可避免地引入大量的負(fù)樣本query,而我們只在decoder引入了正樣本,因此帶來的額外訓(xùn)練代價也較小。
結(jié)果
我們首先在多個單尺度和多尺度DETR模型上進(jìn)行了實(shí)驗(yàn),Co-DETR均能帶來較大提升,尤其是SOTA模型DINO-5scale能從49.4漲到51.2,差不多是2個點(diǎn)的增幅。此外我們也在更大的backbone上實(shí)驗(yàn),例如Swin-L,結(jié)果顯示也能夠帶來1.7個點(diǎn)的提升。
當(dāng)我們將Co-DETR應(yīng)用到DINO上時,我們使用了R50和Swin-L作為骨干網(wǎng)絡(luò)。在相同模型規(guī)模的對比下,我們都能夠取得最佳的性能表現(xiàn)。
我們還在大模型上對所提出的Co-DETR有效性和scale up能力進(jìn)行了驗(yàn)證。進(jìn)行這個驗(yàn)證的原因是,在大模型的巨大參數(shù)加持下,許多方法之間的差異都會被直接抹平。我們使用304M參數(shù)的ViT-L作為骨干網(wǎng)絡(luò),先在Objects365數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練,再在下游進(jìn)行微調(diào)。在COCO數(shù)據(jù)集進(jìn)行微調(diào)后,Co-DETR在大模型的加持下進(jìn)一步突破目標(biāo)檢測性能上限,成為第一個到達(dá)66.0AP的檢測器。
此外,我們也在長尾分布的數(shù)據(jù)集LVIS上進(jìn)行了微調(diào),訓(xùn)練過程中只使用檢測框進(jìn)行監(jiān)督。Co-DETR分別在LVIS val和minival上取得了67.9AP和71.9AP的成績,分別比之前的SOTA方法高+2.7AP和+6.1AP,取得了非常明顯的性能領(lǐng)先。
本研究也在消融實(shí)驗(yàn)方面對提出的方法進(jìn)行了研究,例如選擇輔助頭的標(biāo)準(zhǔn)、多個不同標(biāo)簽分配策略的輔助頭帶來的沖突等等。
我們觀察到,當(dāng)使用的不同輔助頭的數(shù)量變多時,模型的性能會先上升再下降。本研究對此進(jìn)行了定量分析,指出了是輔助頭之間的沖突造成的,并且提出了衡量沖突程度的指標(biāo)。根據(jù)這個指標(biāo),我們計(jì)算了多種類型的輔助頭造成的沖突有多大以及最優(yōu)的選取策略。
