微軟亞洲研究院 NeurIPS 2020 目標(biāo)檢測(cè)論文一覽

極市導(dǎo)讀
?NeurIPS2020 將會(huì)在12月6日至12日線上舉辦,本文主要介紹微軟亞洲研究院入選 NeurIPS 2020?三篇目標(biāo)檢測(cè)相關(guān)的工作,分別是BVR,物體定位以及小樣本類別。文章附有論文及代碼鏈接。?>>加入極市CV技術(shù)交流群,走在計(jì)算機(jī)視覺的最前沿
目標(biāo)檢測(cè)(object detection)是計(jì)算機(jī)視覺中的基礎(chǔ)任務(wù),旨在定位圖像或視頻中某幾類物體的坐標(biāo)位置。本文將對(duì)微軟亞洲研究院入選 NeurIPS 2020 中的目標(biāo)檢測(cè)工作進(jìn)行介紹。
RelationNet++: Bridging Visual Representation for Object Detection via Transformer Decoder
論文鏈接:https://arxiv.org/abs/2010.15831
代碼鏈接:https://github.com/microsoft/RelationNet2
現(xiàn)有的各種檢測(cè)算法通常利用單一的格式來表示物體,比如 RetinaNet 和 Faster R-CNN 中的矩形框、FCOS 和 RepPoints 中的物體中心點(diǎn)、CornerNet 中的角點(diǎn)、以及 RepPoints 和 PSN 中的點(diǎn)集。圖1展示了四個(gè)主流框架的物體表示形式,以及初始化的物體表示形式如何形成最終的檢測(cè)框??梢钥吹剑煌奈矬w表示形式分別利用其框架的特征來回歸最終的檢測(cè)框。

圖1:通用物體檢測(cè)框架的物體表示形式
不同的物體表示形式都有其優(yōu)缺點(diǎn),例如矩形框表示的優(yōu)點(diǎn)是更符合現(xiàn)有的物體標(biāo)注;中心點(diǎn)表示可以避免負(fù)責(zé)的錨點(diǎn)(anchor)設(shè)計(jì),對(duì)小物體也更友好;角點(diǎn)表示則對(duì)于定位更加準(zhǔn)確,對(duì)大物體地檢測(cè)更好、更準(zhǔn)。
但由于這些不同表示在特征提取上的異構(gòu)性和非均勻性,很難將它們有機(jī)地融合在一個(gè)檢測(cè)框架中。因此,微軟亞洲研究院的研究員們?cè)O(shè)計(jì)了一個(gè) BVR (Briding Visual Representations) 模塊來彌合不同的表達(dá)方法,它利用 Transformer 中的解碼器來實(shí)現(xiàn)異構(gòu)的各種物體表示之間的聯(lián)系。
對(duì)于一個(gè)常見的檢測(cè)器,其使用的物體表示形式被稱之為“主表示”(master representation),而其它物體表示形式被稱為“輔助表示“(auxiliary representation)。在 BVR 模塊中,主表示作為查詢(query),類似于機(jī)器翻譯中的目標(biāo)語(yǔ)言,輔助表示作為關(guān)鍵字(key),可類比為機(jī)器翻譯中的源語(yǔ)言,于是就可以將輔助表示的信息融合到主表示中,增強(qiáng)主表示的特征并最終幫助這一檢測(cè)器。
BVR 模塊可以很方便地插入到主流的檢測(cè)器中,并廣泛提升這些檢測(cè)器的性能,例如在 Faster R-CNN、RetinaNet、FCOS 以及 ATSS 上,這一模塊均帶來了 1.5~3.0AP 的性能提升。圖2展示了如何將 BVR 模塊插入到 RetinaNet 中。

圖2:如何將 BVR 模塊插入到 RetinaNet 中
RetinaNet 中,在基于矩形框的錨點(diǎn)表示分支的基礎(chǔ)上,額外增加了關(guān)于點(diǎn)的預(yù)測(cè)的頭部網(wǎng)絡(luò)分支,用于預(yù)測(cè)中心點(diǎn)(center)和角點(diǎn)(corner),并作為主分支的輔助表示(auxiliary representation)。在建模主表示和輔助表示間關(guān)系時(shí),需同時(shí)考慮表觀間的關(guān)系,如果將所有的中心點(diǎn)/角點(diǎn)都作為查詢輸入的話,將會(huì)帶來極大的計(jì)算復(fù)雜度。因此,研究員們提出了只利用得分 top-k 的查詢選擇策略來降低運(yùn)算、提升效果,并且利用空間域插值的方式來計(jì)算幾何關(guān)系,進(jìn)一步降低運(yùn)算代價(jià)。關(guān)于如何將 BVR 插入到 FCOS、Faster R-CNN 以及 FOCS 中,請(qǐng)閱讀原論文進(jìn)行了解。
最后,將 BVR 模塊插入到 ATSS 中時(shí),該模型被稱之為 RelationNet++,在 COCO test-dev 集合上達(dá)到了 52.7 AP 的性能,如表1所示。

表1:RelationNet++ 在 COCO test-dev 集合上達(dá)到了 52.7 AP 的性能
需要注意的是,不久前的 DETR 檢測(cè)器在視覺領(lǐng)域取得了較大的影響。DETR 主要探討了 Transformers 應(yīng)用于物體檢測(cè)領(lǐng)域的可行性,而 BVR 則關(guān)注于提升物體檢測(cè)器,通過彌合不同物體表示的優(yōu)點(diǎn),從而取得更高的性能。另一方面,在建模上兩種方式也有所不同,BVR 采用的是稀疏健值(key),并證明了其相比稠密健值更加有效且高效。
RepPoints v2: Verification Meets Regression for Object Detection
論文地址:https://arxiv.org/abs/2007.08508
代碼地址:https://github.com/Scalsol/RepPointsV2
物體定位在物體檢測(cè)任務(wù)中是非常重要的組成部分,傳統(tǒng)的方法如 Faster-RCNN、RetinaNet 采用的是一種“粗驗(yàn)證,細(xì)回歸”的范式,它們首先會(huì)鋪設(shè)若干預(yù)設(shè)好大小的錨點(diǎn),然后再通過計(jì)算錨點(diǎn)與真實(shí)框之間的偏移來調(diào)整錨點(diǎn)的位置與大小來完成物體定位。最近,一些基于中心點(diǎn)的“純回歸”無(wú)錨點(diǎn)(anchor-free)方法,如 FCOS、RepPoints 等卻取得了與“粗驗(yàn)證,細(xì)回歸”方法可比,甚至更好的表現(xiàn),這不禁讓人對(duì)物體定位中驗(yàn)證步驟的必要性產(chǎn)生懷疑。
但與此同時(shí),有一系列基于“純驗(yàn)證”的方法也取得了不錯(cuò)的結(jié)果,代表方法就是 CornerNet。通過比較可以發(fā)現(xiàn)此類方法在產(chǎn)生高質(zhì)量(AP90)框的能力上要遠(yuǎn)遠(yuǎn)高出上述兩類方法。受此啟發(fā),微軟亞洲研究院的研究員們發(fā)現(xiàn)通過在 RepPoints 這樣一個(gè)純回歸的框架上引入合適的驗(yàn)證任務(wù),能夠給模型的表現(xiàn)帶來很大提升。
圖3:融合方法介紹
如圖3所示,研究員們將驗(yàn)證任務(wù)作為 RepPoints 的一個(gè)旁支,讓其高效地與主網(wǎng)絡(luò)進(jìn)行特征與結(jié)果層面的交互,同時(shí)不影響 RepPoints 本身基于點(diǎn)表示的特性。本篇論文主要引入了兩種驗(yàn)證任務(wù):一是角點(diǎn)驗(yàn)證,判斷特征圖上的像素點(diǎn)是否是某個(gè)真實(shí)框的左上(右下)角點(diǎn);二是框內(nèi)前景驗(yàn)證,將物體的外接框作為該物體的粗糙掩碼,然后將其當(dāng)做一個(gè)語(yǔ)義分割任務(wù)來進(jìn)行學(xué)習(xí)。
通過引入這兩個(gè)驗(yàn)證任務(wù)和加入與之相適應(yīng)的修改,可以獲得以下幾點(diǎn)好處:
首先是更好的特征:驗(yàn)證任務(wù)可以提供訓(xùn)練時(shí)額外的監(jiān)督信號(hào)并且驗(yàn)證分支的特征可以與回歸分支的特征相融合,這種多任務(wù)學(xué)習(xí)的方式和特征融合的方式在 Mask R-CNN 等方法中已經(jīng)被證明對(duì)提升模型表現(xiàn)非常有效。
其次是聯(lián)合推斷:在特征層面的融合之外,驗(yàn)證分支中的角點(diǎn)驗(yàn)證模塊可以對(duì)回歸分支的結(jié)果進(jìn)行進(jìn)一步的修正,獲得更為精確的結(jié)果。
最后,由于本篇論文中提出的方法并不受到具體檢測(cè)框架的限制,因此可以輕易地拓展到其他物體檢測(cè)器上,同時(shí)也適用于其他視覺任務(wù)如實(shí)例分割。
表2展示了在不同的主干(backbone)網(wǎng)絡(luò)下,該方法相比于 RepPoints v1 均能夠獲得2%左右的穩(wěn)定提升。表3則比較了本文提出的檢測(cè)器與其他檢測(cè)器之間的性能。

表2:穩(wěn)定的性能提升
表3:與其他檢測(cè)器性能比較
下面兩個(gè)表格展示了在其它基檢測(cè)器以及實(shí)例分割任務(wù)上本文方法的適用性。
表4:在 mmdetection 集合上,驗(yàn)證模塊用于 FCOS 方法的實(shí)驗(yàn)結(jié)果

表5:在 COCO test-dev 集合上,驗(yàn)證模塊用于 DenseRepPoints 方法的實(shí)驗(yàn)結(jié)果
圖4展示了 RepPoints V1 和 V2 的預(yù)測(cè)結(jié)果,其中第一行為 V1 的預(yù)測(cè)結(jié)果,第二行為 V2 的預(yù)測(cè)結(jié)果。可以看到 V2 的結(jié)果更加準(zhǔn)確。
圖4:RepPoints V1 和 V2 的預(yù)測(cè)結(jié)果比較
Restoring Negative Information in Few-Shot Object Detection
論文鏈接:https://arxiv.org/abs/2010.11714
代碼鏈接:https://github.com/yang-yk/NP-RepMet
受制于自身數(shù)量和樣本獲取等原因,不同類別的樣本數(shù)量分布自然地呈現(xiàn)出長(zhǎng)尾現(xiàn)象,類別間樣本數(shù)量差異很大。深度學(xué)習(xí)模型往往在樣本豐富的類別上能夠取得較好的效果,而在樣本稀缺的類別上表現(xiàn)卻不盡如人意。但在自然界中,人類通??梢酝ㄟ^很少數(shù)量的樣本就能夠完成各項(xiàng)分類識(shí)別任務(wù)。由此,小樣本學(xué)習(xí)應(yīng)運(yùn)而生,其目標(biāo)是利用樣本豐富類別(base classes)提取先驗(yàn)知識(shí)并將其推廣到弱監(jiān)督小樣本類別(novel classes)的新任務(wù)?[1]。

圖5:目標(biāo)檢測(cè)示例
由于小樣本類別上的樣本極其有限,所以如何充分利用有限的樣本信息就成為了小樣本目標(biāo)檢測(cè)性能提升的關(guān)鍵。現(xiàn)有的小樣本目標(biāo)檢測(cè)工作(Meta R-CNN [2]、RepMet [3]等)是在樣本豐富類別上訓(xùn)練主干網(wǎng)絡(luò)或嵌入表示網(wǎng)絡(luò),然后通過小樣本類別上的支持集(support set)提取和學(xué)習(xí)小樣本集特征并進(jìn)行小樣本目標(biāo)檢測(cè)。然而這只利用了正樣本(positive)的特征,卻忽略了負(fù)樣本(negative)尤其是困難負(fù)樣本(hard negative)信息在小樣本目標(biāo)檢測(cè)中的作用。如圖6所示,微軟亞洲研究院的研究員們將與樣本標(biāo)簽 IoU>0.7 的候選框定義為正樣本信息,將 0.2

圖6:樣本豐富類別訓(xùn)練過程
在樣本豐富類別訓(xùn)練的過程中,RPN 和 DML Embedding Module 后通過兩個(gè)全連接層分別對(duì)每個(gè)候選框提取正樣本和負(fù)樣本特征,并根據(jù) IoU 對(duì)候選框進(jìn)行正負(fù)樣本分類。研究員們通過聯(lián)合訓(xùn)練的方式,利用正樣本候選框的特征訓(xùn)練其正樣本表示(圖6黃色虛線框),利用負(fù)樣本候選框的特征訓(xùn)練其負(fù)樣本表示(圖6黃色虛線框)。然后,計(jì)算每個(gè)候選框的正樣本特征與學(xué)習(xí)到的每個(gè)類別正樣本表示的最小距離,計(jì)算每個(gè)候選框的負(fù)樣本特征與學(xué)習(xí)到的每個(gè)類別負(fù)樣本表示的最小距離。最后,綜合利用這兩個(gè)距離,并將距離通過概率度量模塊轉(zhuǎn)換為分類概率進(jìn)行每個(gè)候選框的分類。

圖7:小樣本類別測(cè)試過程
小樣本類別的測(cè)試過程如圖7所示。首先利用有標(biāo)簽支持集上的樣本,通過 DML Embedding Module 后全連接層提取到的特征,根據(jù) IoU 進(jìn)行小樣本類別正樣本表示和負(fù)樣本表示的替換。對(duì)于查詢集(query set)上的測(cè)試數(shù)據(jù),其計(jì)算過程如上圖紅色箭頭所示,與訓(xùn)練過程相同。
與 RepMet 和 Meta R-CNN 保持一致,研究員們分別在 ImageNet-LOC 和 Pascal VOC 上進(jìn)行了實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如下:

表6:在 ImageNet-LOC 上的實(shí)驗(yàn)結(jié)果

表7:在 Pascal VOC 上的實(shí)驗(yàn)結(jié)果
可以看到,通過綜合利用正負(fù)樣本信息,小樣本目標(biāo)檢測(cè)能夠取得較大性能提升。相比于 RepMet 和 Meta R-CNN,NP-RepMet 在 5-way 1-shot 條件下,于 ImageNet-LOC 和 Pascal VOC 數(shù)據(jù)集上的 mAP 均取得了10%以上的提升。?
參考文獻(xiàn):
推薦閱讀

