Anchor-free目標(biāo)檢測(cè)綜述—細(xì)數(shù)10種Dense Prediction網(wǎng)絡(luò)

極市導(dǎo)讀
anchor-free目標(biāo)檢測(cè)算法分為兩種:一種是DenseBox為代表的Dense Prediction類(lèi)型,密集地預(yù)測(cè)的框的相對(duì)位置,另一種則是以CornerNet為代表的Keypoint-bsaed Detection類(lèi)型,以檢測(cè)目標(biāo)關(guān)鍵點(diǎn)為主。本文主要列舉10種Dense Prediction類(lèi)型的網(wǎng)絡(luò)。>>加入極市CV技術(shù)交流群,走在計(jì)算機(jī)視覺(jué)的最前沿
早期目標(biāo)檢測(cè)研究以anchor-based為主,設(shè)定初始anchor,預(yù)測(cè)anchor的修正值,分為two-stage目標(biāo)檢測(cè)與one-stage目標(biāo)檢測(cè),分別以Faster R-CNN和SSD作為代表。后來(lái),有研究者覺(jué)得初始anchor的設(shè)定對(duì)準(zhǔn)確率的影響很大,而且很難找到完美的預(yù)設(shè)anchor,于是開(kāi)始不斷得研究anchor-free目標(biāo)檢測(cè)算法,意在去掉預(yù)設(shè)anchor的環(huán)節(jié),讓網(wǎng)絡(luò)自行學(xué)習(xí)anchor的位置與形狀,在速度和準(zhǔn)確率上面都有很不錯(cuò)的表現(xiàn)。anchor-free目標(biāo)檢測(cè)算法分為兩種,一種是DenseBox為代表的Dense Prediction類(lèi)型,密集地預(yù)測(cè)的框的相對(duì)位置,另一種則是以CornerNet為代表的Keypoint-bsaed Detection類(lèi)型,以檢測(cè)目標(biāo)關(guān)鍵點(diǎn)為主。
本文主要列舉幾種Dense Prediction類(lèi)型的網(wǎng)絡(luò),主要涉及以下網(wǎng)絡(luò):
YOLO DenseBox Guided Anchoring FSAF FCOS FoveaBox SAPD ATSS FCOSv2 DDBNet
YOLO
YOLOv1是早期的anchor-free算法,后來(lái)的系列則轉(zhuǎn)型成anchor-based算法。YOLO同時(shí)對(duì)多個(gè)物體進(jìn)行分類(lèi)和定位,沒(méi)有proposal的概念,是one-stage實(shí)時(shí)檢測(cè)網(wǎng)絡(luò)的里程碑,標(biāo)準(zhǔn)版在TitanX達(dá)到45 fps,快速版達(dá)到150fps,但精度不及當(dāng)時(shí)的SOTA網(wǎng)絡(luò)。

將輸入分為的格子,如果GT的中心點(diǎn)在格子中,則格子負(fù)責(zé)該GT的預(yù)測(cè):
每個(gè)格子預(yù)測(cè)個(gè)bbox,每個(gè)bbox預(yù)測(cè)5個(gè)值: 和置信度,分別為中心點(diǎn)坐標(biāo)和bbox的寬高,中心點(diǎn)坐標(biāo)是格子邊的相對(duì)值,寬高則是整圖的相對(duì)值。置信度可以反應(yīng)格子是否包含物體以及包含物體的概率,定義為,無(wú)物體則為0,有則為IOU 每個(gè)格子預(yù)測(cè)個(gè)類(lèi)的條件概率,注意這里按格子進(jìn)行預(yù)測(cè),沒(méi)有按bbox進(jìn)行預(yù)測(cè)
DenseBox
DenseBox是早期的Anchor-free目標(biāo)檢測(cè)算法,當(dāng)時(shí)R-CNN系列在小物體的檢測(cè)上有明顯的瓶頸,所以作者提出DenseBox,在小物體的檢測(cè)也有不錯(cuò)的表現(xiàn)。在DenseBox提出的早些時(shí)間,著名的Faster R-CNN出現(xiàn)了,其強(qiáng)大的性能主導(dǎo)了目標(biāo)檢測(cè)算法往anchor-based的方向發(fā)展。直到FPN的出現(xiàn),Anchor-free算法的性能才有了很大的提升,更多的工作開(kāi)始涉及Anchor-free領(lǐng)域。目前很多Anchor-free目標(biāo)檢測(cè)研究都有DenseBox的影子,所以DenseBox的設(shè)計(jì)思路還是很超前的。

DenseBox的整體設(shè)計(jì)如圖1所示,單個(gè)卷積網(wǎng)絡(luò)同時(shí)輸出多個(gè)預(yù)測(cè)框及其類(lèi)別置信度,輸出的特征圖大小為。假設(shè)像素位于,其期望的5維向量為,第一個(gè)為分類(lèi)置信度,后四個(gè)為像素位置到目標(biāo)邊界的距離,最后,將所有像素的輸出轉(zhuǎn)化為預(yù)測(cè)框,經(jīng)過(guò)NMS處理后進(jìn)行最后的輸出。
Guided Anchoring
Guided Anchoring通過(guò)在線(xiàn)生成anchor的方式解決常規(guī)手工預(yù)設(shè)anchor存在的問(wèn)題,能夠根據(jù)生成的anchor自適應(yīng)特征,在嵌入方面提供了兩種實(shí)施方法,是一個(gè)很完整的解決方案。

Guided Anchoring首先判斷目標(biāo)可能出現(xiàn)的位置,然后學(xué)習(xí)不同位置上的目標(biāo)的形狀,可根據(jù)圖片特征在線(xiàn)學(xué)習(xí)稀疏的候選anchor。然而,在線(xiàn)生成的anchor形狀各異,固定的感受域可能不匹配其形狀,所以Guided Anchoring根據(jù)anchor的形狀進(jìn)行自適應(yīng)特征提取,然后再進(jìn)行預(yù)測(cè)框精調(diào)與分類(lèi)。
FSAF
目標(biāo)檢測(cè)的首要問(wèn)題就是尺寸變化,許多算法使用FPN以及anchor box來(lái)解決此問(wèn)題。在正樣本判斷上面,一般先根據(jù)目標(biāo)的尺寸決定預(yù)測(cè)用的FPN層,越大的目標(biāo)則使用更高的FPN層,然后根據(jù)目標(biāo)與anchor box的IoU進(jìn)一步判斷,但這樣的設(shè)計(jì)會(huì)帶來(lái)兩個(gè)限制:拍腦袋式的特征選擇以及基于IoU的anchor采樣。

為了解決上述的問(wèn)題,F(xiàn)SAF(feature selective anchor-free)在每輪迭代中選擇最優(yōu)的層進(jìn)行訓(xùn)練優(yōu)化。如圖3所示,F(xiàn)SAF為FPN每層添加anchor-free分支,包含分類(lèi)與回歸,在訓(xùn)練時(shí),根據(jù)anchor-free分支的預(yù)測(cè)結(jié)果選擇最合適的FPN層用于訓(xùn)練,最終的網(wǎng)絡(luò)輸出可同時(shí)綜合FSAF的anchor-free分支結(jié)果以及原網(wǎng)絡(luò)的預(yù)測(cè)結(jié)果。
FCOS
論文提出anchor-free和proposal-free的one-stage的目標(biāo)檢測(cè)算法FCOS,不再需要anchor相關(guān)的的超參數(shù),在目前流行的逐像素(per-pixel)預(yù)測(cè)方法上進(jìn)行目標(biāo)檢測(cè)。從實(shí)驗(yàn)結(jié)果來(lái)看,F(xiàn)COS能夠與主流的檢測(cè)算法相比較,達(dá)到SOTA,為后面的大熱的anchor-free方法提供了很好的參考。

目標(biāo)檢測(cè)由于anchor的存在,不能進(jìn)行純逐像素地快速預(yù)測(cè),于是FCOS拋棄anchor,提出逐像素全卷積目標(biāo)檢測(cè)網(wǎng)絡(luò)網(wǎng)絡(luò),總結(jié)如下:
效仿前期的FCNs-based網(wǎng)絡(luò),如DenseBox,每個(gè)像素回歸一個(gè)4D向量指代預(yù)測(cè)框相對(duì)于當(dāng)前像素位置的偏移,如圖1左 為了預(yù)測(cè)不同尺寸的目標(biāo),DenseBox會(huì)縮放或剪裁生成圖像金字塔進(jìn)行預(yù)測(cè),而且當(dāng)目標(biāo)重疊時(shí),會(huì)出現(xiàn)像素不知道負(fù)責(zé)預(yù)測(cè)哪個(gè)目標(biāo)的問(wèn)題,如圖1右。在對(duì)問(wèn)題進(jìn)行研究后,論文發(fā)現(xiàn)使用FPN能解決以上問(wèn)題 由于預(yù)測(cè)的結(jié)果會(huì)產(chǎn)生許多低質(zhì)量的預(yù)測(cè)結(jié)果,論文采用center-ness分支來(lái)預(yù)測(cè)當(dāng)前像素與對(duì)應(yīng)目標(biāo)中心點(diǎn)的偏離情況,用來(lái)去除低質(zhì)量預(yù)測(cè)結(jié)果以及進(jìn)行NMS
FoveaBox

FoveaBox同時(shí)預(yù)測(cè)每個(gè)有效位置為目標(biāo)中心的可能性及其對(duì)應(yīng)目標(biāo)的尺寸,輸出類(lèi)別置信度以及用以轉(zhuǎn)化目標(biāo)區(qū)域的尺寸信息。作為與FCOS和FSAF同期的Anchor-free論文,F(xiàn)oveaBox在整體結(jié)構(gòu)上也是基于DenseBox加FPN的策略,主要差別在于FoveaBox只使用目標(biāo)中心區(qū)域進(jìn)行預(yù)測(cè)且回歸預(yù)測(cè)的是歸一化后的偏移值,還有根據(jù)目標(biāo)尺寸選擇FPN的多層進(jìn)行訓(xùn)練。由于FoveaBox的整體實(shí)現(xiàn)方案太純粹了,與其它Anchor-free方法很像,所以一直投稿到現(xiàn)在才中了,作者也是相當(dāng)不容易。
SAPD
Anchor-free檢測(cè)方法分為anchor-point類(lèi)別和key-point類(lèi)別兩種,anchor-point類(lèi)別雖然更快更靈活,但準(zhǔn)確率一般比key-point類(lèi)別要低,所以論文著力于研究阻礙anchor-point類(lèi)別準(zhǔn)確率的因素,提出了SAPD(Soft Anchor-Point Detecto)。

SAPD的核心如圖3所示,分別為Soft-Weighted Anchor Points以及Soft-Selected Pyramid Levels:
Soft-weighted anchor points。anchor-point算法在訓(xùn)練時(shí)一般將滿(mǎn)足幾何關(guān)系的點(diǎn)設(shè)置為正樣本點(diǎn),其損失值權(quán)重均為1,這造成定位較不準(zhǔn)確的點(diǎn)偶爾分類(lèi)置信度更高。實(shí)際上,不同位置的點(diǎn)的回歸難度是不一樣的,越靠近目標(biāo)邊緣的點(diǎn)的損失值權(quán)重應(yīng)該越低,讓網(wǎng)絡(luò)集中于優(yōu)質(zhì)anchor point的學(xué)習(xí)。 Soft-selectedpyramid levels。anchor-point算法每輪訓(xùn)練會(huì)選擇特征金字塔的其中一層特征進(jìn)行訓(xùn)練,其它層均忽略,這在一定程度上造成了浪費(fèi)。因?yàn)槠渌麑与m然響應(yīng)不如被選擇的層強(qiáng),但其特征分布應(yīng)該與被選擇層是類(lèi)似的,所以可以賦予多層不同權(quán)重同時(shí)訓(xùn)練。
ATSS
在仔細(xì)比對(duì)了anchor-based和anchor-free目標(biāo)檢測(cè)方法后,結(jié)合實(shí)驗(yàn)結(jié)果,論文認(rèn)為兩者的性能差異主要來(lái)源于正負(fù)樣本的定義,假如訓(xùn)練過(guò)程中使用相同的正負(fù)樣本,兩者的最終性能將會(huì)相差無(wú)幾,于是論文提出ATSS( Adaptive Training Sample Selection)方法。

ATSS能夠自動(dòng)根據(jù)與GT的相關(guān)統(tǒng)計(jì)特征選擇合適的anchor box作為正樣本進(jìn)行訓(xùn)練,在不帶來(lái)額外計(jì)算量和參數(shù)的情況下,能夠大幅提升模型的性能,十分有用。
FCOSv2

圖2為FCOSv2中的主干網(wǎng)絡(luò)結(jié)構(gòu),主干網(wǎng)絡(luò)依然采用FPN,每層特征使用共同的head預(yù)測(cè)類(lèi)別信息、尺寸信息以及Center-ness,整體思想基本與FCOS一致。對(duì)FCOS的小修小改,最終性能達(dá)到了50.4AP,可謂相當(dāng)強(qiáng)勁了,在工程上可以參考其中的改進(jìn)以及提升方法。
DDBNet
作者認(rèn)為當(dāng)前anchor-free方法存在兩個(gè)問(wèn)題,中心關(guān)鍵點(diǎn)與目標(biāo)的語(yǔ)義不一致以及局部特征的回歸有局限性。為了解決上述兩個(gè)問(wèn)題,作者提出了十分大膽的方法DDBNet。

DDBNet包含box分解/組合模塊以及語(yǔ)義一致模塊,分別用于解決中心關(guān)鍵點(diǎn)的回歸不準(zhǔn)問(wèn)題以及中心關(guān)鍵點(diǎn)與目標(biāo)的語(yǔ)義不一致問(wèn)題,結(jié)果如圖2中的實(shí)線(xiàn)框。論文的主要貢獻(xiàn)如下:
基于anchor-free架構(gòu)提出新的目標(biāo)檢測(cè)算法DDBNet,能夠很好地解決中心關(guān)鍵點(diǎn)的回歸問(wèn)題以及中心關(guān)鍵點(diǎn)的語(yǔ)義一致性。 驗(yàn)證了中心關(guān)鍵點(diǎn)和GT的語(yǔ)義一致性,能夠幫助提升目標(biāo)檢測(cè)網(wǎng)絡(luò)的收斂性。 DDBNet能夠達(dá)到SOTA精度(45.5%),并且能夠高效地拓展到其它anchor-free檢測(cè)器中。
如果覺(jué)得有用,就請(qǐng)分享到朋友圈吧!
公眾號(hào)后臺(tái)回復(fù)“CVPR21檢測(cè)”獲取CVPR2021目標(biāo)檢測(cè)論文下載~

# CV技術(shù)社群邀請(qǐng)函 #

備注:姓名-學(xué)校/公司-研究方向-城市(如:小極-北大-目標(biāo)檢測(cè)-深圳)
即可申請(qǐng)加入極市目標(biāo)檢測(cè)/圖像分割/工業(yè)檢測(cè)/人臉/醫(yī)學(xué)影像/3D/SLAM/自動(dòng)駕駛/超分辨率/姿態(tài)估計(jì)/ReID/GAN/圖像增強(qiáng)/OCR/視頻理解等技術(shù)交流群
每月大咖直播分享、真實(shí)項(xiàng)目需求對(duì)接、求職內(nèi)推、算法競(jìng)賽、干貨資訊匯總、與 10000+來(lái)自港科大、北大、清華、中科院、CMU、騰訊、百度等名校名企視覺(jué)開(kāi)發(fā)者互動(dòng)交流~

