(附論文)目標(biāo)檢測(cè)新方式 | class-agnostic檢測(cè)器用于目標(biāo)檢測(cè)
點(diǎn)擊左上方藍(lán)字關(guān)注我們


目標(biāo)檢測(cè)模型在定位和分類訓(xùn)練期間顯示目標(biāo)時(shí)表現(xiàn)良好,然而,由于創(chuàng)建和注釋檢測(cè)數(shù)據(jù)集的難度和成本,訓(xùn)練過的模型檢測(cè)到數(shù)量有限的目標(biāo)類型,未知目標(biāo)被視為背景內(nèi)容。這阻礙了傳統(tǒng)檢測(cè)器在現(xiàn)實(shí)應(yīng)用中的采用,如大規(guī)模物體匹配、visual grounding、視覺關(guān)系預(yù)測(cè)、障礙檢測(cè)(確定物體的存在和位置比找到特定類型更重要)等。

有研究者提出類不可知目標(biāo)檢測(cè)作為一個(gè)新問題,專注于檢測(cè)對(duì)象的對(duì)象類。具體地說,其目標(biāo)是預(yù)測(cè)圖像中所有對(duì)象的邊界框,而不是預(yù)測(cè)它們的對(duì)象類。預(yù)測(cè)的框可以被另一個(gè)系統(tǒng)使用,以執(zhí)行特定于應(yīng)用程序的分類、檢索等。
提出了針對(duì)類不可知檢測(cè)器的基準(zhǔn)測(cè)試的訓(xùn)練和評(píng)估協(xié)議,以推進(jìn)該領(lǐng)域的未來研究。最后,研究者提出了:(1)基線方法和(2)一個(gè)新的用于類無關(guān)檢測(cè)的對(duì)抗性學(xué)習(xí)框架,它迫使模型從用于預(yù)測(cè)的特征中排除特定于類的信息。實(shí)驗(yàn)結(jié)果表明,對(duì)抗性學(xué)習(xí)方法提高了類不可知性的檢測(cè)效率。
class-specific 方式:很多地方也稱作class-aware的檢測(cè),是早期Faster RCNN等眾多算法采用的方式。它利用每一個(gè)RoI特征回歸出所有類別的bbox坐標(biāo),最后根據(jù)classification 結(jié)果索引到對(duì)應(yīng)類別的box輸出。這種方式對(duì)于ms coco有80類前景的數(shù)據(jù)集來說,并不算效率高的做法。
class-agnostic 方式:只回歸2類bounding box,即前景和背景,結(jié)合每個(gè)box在classification 網(wǎng)絡(luò)中對(duì)應(yīng)著所有類別的得分,以及檢測(cè)閾值條件,就可以得到圖片中所有類別的檢測(cè)結(jié)果。當(dāng)然,這種方式最終不同類別的檢測(cè)結(jié)果,可能包含同一個(gè)前景框,但實(shí)際對(duì)精度的影響不算很大,最重要的是大幅減少了bbox回歸參數(shù)量。具體細(xì)節(jié),自己參考目前一些開源算法源碼會(huì)理解的更好。(摘自于知乎包文韜)
Class-agnostic目標(biāo)檢測(cè)器使用object proposal methods (OPMs), conventional class-aware detectors和提出的adversarially trained class-agnostic detectors。如下圖:

三、新框架
General Framework
傳統(tǒng)的類感知檢測(cè)側(cè)重于檢測(cè)“感興趣的對(duì)象”,這本質(zhì)上要求模型能夠區(qū)分封閉已知集合中的對(duì)象類型。直觀地說,模型通過編碼區(qū)分對(duì)象類型的特征來實(shí)現(xiàn)這一點(diǎn)。然而,為了使類不可知的檢測(cè)和模型能夠檢測(cè)到以前看不見的對(duì)象類型,檢測(cè)器應(yīng)該編碼能夠更有效地區(qū)分對(duì)象與背景內(nèi)容、單個(gè)對(duì)象與圖像中的其他對(duì)象的特征,而不區(qū)分對(duì)象類型。

訓(xùn)練傳統(tǒng)的目標(biāo)檢測(cè)器的二元分類任務(wù)以及邊界框回歸不足以確保模型關(guān)注類無關(guān)特征,更重要的是,忽略類型區(qū)分特征,以便更好地推廣到看不見的目標(biāo)類型。為了克服這個(gè)問題,研究者建議以一種對(duì)抗性的方式訓(xùn)練類不可知的目標(biāo)檢測(cè)器,以便模型因編碼包含目標(biāo)類型信息的編碼特征而受到懲罰。

研究者提議用對(duì)抗性鑒別器分支來增強(qiáng)類不可知的檢測(cè)器,這些分支試圖從檢測(cè)網(wǎng)絡(luò)上游輸出的特征中分類對(duì)象類型(在訓(xùn)練數(shù)據(jù)中注釋),如果模型訓(xùn)練成功,則對(duì)其進(jìn)行懲罰。模型以交替的方式訓(xùn)練,這樣當(dāng)模型的其余部分更新時(shí),鑒別器被凍結(jié),反之亦然。在更新鑒別器時(shí),研究者使用標(biāo)準(zhǔn)的分類交叉熵?fù)p失的目標(biāo)類型作為預(yù)測(cè)目標(biāo)。另一方面,在訓(xùn)練模型的其余部分時(shí),最小化(a)目標(biāo)與否分類的交叉熵?fù)p失,(b)邊界框回歸的平滑L1損失,以及(c)鑒別器預(yù)測(cè)的負(fù)熵。這種熵最大化迫使檢測(cè)模型的上游部分從其輸出的特征中排除目標(biāo)類型信息。對(duì)于模型的每次更新,鑒別器被更新五次,在整個(gè)目標(biāo)中使用乘子α(調(diào)整{0.1,1})對(duì)負(fù)熵進(jìn)行加權(quán)。上圖總結(jié)了完整的框架。
四、實(shí)驗(yàn)



Generalization results for SSD models trained on the seen VOC dataset. The top row shows macro-level AR@kfor seen and unseen classes in VOC as well as their harmonic mean (AR-HM). SSD-agnostic-adv performs the best on AR- Unseen and AR-HM, with a drop in AR-Seen, but the models that outperform SSD-agnostic-adv on AR-Seen do significantly worse on AR-Unseen and AR-HM. The second row shows micro-level results for the easy, medium, and hard unseen classes. SSD-agnostic-adv performs the best in all categories. The last row provides results of evaluation on the COCO data of 60 unseen classes. SSD-agnostic-adv achieves the best AR@k with a slight reduction for small-sized objects.

END
整理不易,點(diǎn)贊三連↓
