與基線FCOS（一種單階段和無錨目標(biāo)象檢測(cè)模型）相比，新提出的模型在不同的主干上始終獲得大約3 個(gè)AP的改進(jìn)，證明了新方法的簡(jiǎn)單性和效率。

一、前言

Non keypoint-based的目標(biāo)檢測(cè)模型由分類和回歸分支組成，由于不同的任務(wù)驅(qū)動(dòng)因素，這兩個(gè)分支對(duì)來自相同尺度級(jí)別和相同空間位置的特征具有不同的敏感性。point-based的預(yù)測(cè)方法，在基于高分類置信點(diǎn)具有高回歸質(zhì)量的假設(shè)上，導(dǎo)致錯(cuò)位問題。我們的分析表明，該問題進(jìn)一步具體由尺度錯(cuò)位和空間錯(cuò)位組成。

研究者的目標(biāo)是以最小的成本解決這一現(xiàn)象——對(duì)head network進(jìn)行微調(diào)，并用一種新的標(biāo)簽分配方法代替。實(shí)驗(yàn)表明，與基線FCOS（一種單階段和無錨目標(biāo)象檢測(cè)模型）相比，新提出的模型在不同的主干上始終獲得大約3 個(gè)AP的改進(jìn)，證明了新方法的簡(jiǎn)單性和效率。

二、背景

目標(biāo)檢測(cè)是深度學(xué)習(xí)時(shí)代比較發(fā)達(dá)的研究領(lǐng)域。通?？紤]兩種不同的任務(wù)，分類旨在研究跨多類的不同特征，回歸旨在繪制準(zhǔn)確的邊界框。然而，由于這兩個(gè)任務(wù)之間的巨大特征信息敏感性，TSD【Revisiting the sibling head in object detector】顯示存在空間特征錯(cuò)位問題，并損害了基于NMS的模型預(yù)測(cè)高置信度分類和高質(zhì)量回歸結(jié)果的能力。

對(duì)于空間錯(cuò)位部分，研究者在同一實(shí)例中渲染了分類損失和回歸損失的空間分布。如上圖所示，兩個(gè)分布高度錯(cuò)位。具有微小分類損失或回歸損失的點(diǎn)具有更好的特征可供這兩個(gè)分支分別利用。因此，兩個(gè)任務(wù)損失的高度錯(cuò)位分布表明這兩個(gè)任務(wù)不喜歡相同空間位置的特征。

在這些分析下，為了解決尺度特征錯(cuò)位問題，研究者為每個(gè)任務(wù)設(shè)計(jì)了一個(gè)任務(wù)驅(qū)動(dòng)的動(dòng)態(tài)感受野適配器，一個(gè)簡(jiǎn)單但有效的形變卷積模塊。為了減輕空間特征錯(cuò)位帶來的負(fù)面影響，設(shè)計(jì)了一種標(biāo)簽分配方法，挖掘空間最對(duì)齊的樣本，以增強(qiáng)模型預(yù)測(cè)具有高分類分?jǐn)?shù)的可靠回歸點(diǎn)的能力。

三、新框架

?dynamic receptive filed adaptor

在現(xiàn)代one-stage檢測(cè)器的head，為了在兩個(gè)分支上獲得相同大小的特征圖，來自兩個(gè)分支的四個(gè)卷積操作的每一步共享完全相同的內(nèi)核大小、striding和padding。每個(gè)分支的最終感受野由下式計(jì)算：

Rl是每個(gè)FPN級(jí)別饋送的初始特征圖的輸入圖像上的感受野，f(?)是關(guān)于跨四個(gè)連續(xù)卷積層的感受野的靜態(tài)計(jì)算方法。

值得注意的是，RFA模塊僅應(yīng)用于檢測(cè)器head的第一步，具有兩個(gè)單獨(dú)的形變卷積，以增強(qiáng)每個(gè)分支對(duì)尺度信息的適應(yīng)能力，并進(jìn)一步減輕尺度錯(cuò)位的差異。它不同于直接將形變卷積應(yīng)用于主干或neck，而不考慮兩個(gè)分支的不同感受野。它也不同于VFNet和RepPoints，它們通過形變卷積合并兩個(gè)分支的信息。在我們的例子中，每個(gè)分支都放寬了規(guī)模不匹配，因?yàn)槲覀兏鶕?jù)詳細(xì)的特征信息使每個(gè)分支中的每個(gè)特征點(diǎn)具有不同的個(gè)體感受野。

形變卷積（Deformable Convolution）原理

形變卷積的實(shí)現(xiàn)方法如下圖所示：

offset field通過在原圖上進(jìn)行標(biāo)準(zhǔn)卷積操作得到，通道數(shù)為2N表示N個(gè)2維的偏置量（△x，△y），N表示卷積核的個(gè)數(shù)即輸出特征層的通道數(shù)。

形變卷積過程可以描述為：首先在輸入feature map上進(jìn)行標(biāo)準(zhǔn)卷積得到N個(gè)2維的偏置量（△x，△y），然后分別對(duì)輸入feature map上各個(gè)點(diǎn)的值進(jìn)行修正：

設(shè)feature map為P，即P （ x ， y ） = P （ x + △ x ， y + △ y ），當(dāng)x+△x為分?jǐn)?shù)時(shí)，使用雙線性插值計(jì)算P（x+△x，y+△y）

形成N個(gè)feature map，然后使用N個(gè)卷積核一一對(duì)應(yīng)進(jìn)行卷積得到輸出。標(biāo)準(zhǔn)卷積與形變卷積的計(jì)算效果如下圖所示：

?Aligned Spatial Points Assignment Procedur

給定每個(gè)實(shí)例Ii的尺度分配結(jié)果l?和l?中的候選點(diǎn)Cl?，新框架的任務(wù)是進(jìn)一步挖掘Cl?中空間最對(duì)齊的點(diǎn)。每個(gè)候選點(diǎn)有兩個(gè)指標(biāo)需要考慮：（1）考慮到兩個(gè)任務(wù)的整體適應(yīng)度Sf；(2) 由空間上的未對(duì)準(zhǔn)損失分布引起的未對(duì)準(zhǔn)度Sm。

使用softmax函數(shù)將Lcls和Lreg分別重新分配到相同的可測(cè)標(biāo)準(zhǔn)中，這是由softmax函數(shù)單調(diào)且其輸出之和為一的優(yōu)點(diǎn)給出的。對(duì)于未對(duì)齊的程度Sm，由于我們發(fā)現(xiàn)sigmoid函數(shù)可以高效地將變體輸入轉(zhuǎn)換為相當(dāng)統(tǒng)一的輸出，因此將其定義如下：

四、實(shí)驗(yàn)

COCO數(shù)據(jù)集上的比較

空間標(biāo)簽分配的可視化。第一行分別顯示了兩個(gè)任務(wù)的輸入和損失分布。第二行的綠色十字是正分配點(diǎn)。

努力分享優(yōu)質(zhì)的計(jì)算機(jī)視覺相關(guān)內(nèi)容，歡迎關(guān)注：

交流群

歡迎加入公眾號(hào)讀者群一起和同行交流，目前有美顏、三維視覺、計(jì)算攝影、檢測(cè)、分割、識(shí)別、醫(yī)學(xué)影像、GAN、算法競(jìng)賽等微信群

個(gè)人微信（如果沒有備注不拉群！）
請(qǐng)注明：地區(qū)+學(xué)校/企業(yè)+研究方向+昵稱



下載1：何愷明頂會(huì)分享

在「AI算法與圖像處理」公眾號(hào)后臺(tái)回復(fù)：何愷明，即可下載。總共有6份PDF，涉及 ResNet、Mask RCNN等經(jīng)典工作的總結(jié)分析

下載2：終身受益的編程指南：Google編程風(fēng)格指南

在「AI算法與圖像處理」公眾號(hào)后臺(tái)回復(fù)：c++，即可下載。歷經(jīng)十年考驗(yàn)，最權(quán)威的編程規(guī)范！


下載3 CVPR2021

在「AI算法與圖像處理」公眾號(hào)后臺(tái)回復(fù)：CVPR，即可下載1467篇CVPR?2020論文 和 CVPR 2021 最新論文

優(yōu)于FCOS：在One-Stage和Anchor-Free目標(biāo)檢測(cè)中以最小的成本實(shí)現(xiàn)最小的錯(cuò)位（代碼待開源）

形變卷積（Deformable Convolution）原理