RepPointv2:使用點(diǎn)集合表示來(lái)做目標(biāo)檢測(cè)
點(diǎn)擊上方“程序員大白”,選擇“星標(biāo)”公眾號(hào)
重磅干貨,第一時(shí)間送達(dá)
作者:Nabil MADALI
編譯:ronghuaiyang
無(wú)anchor方法中效果很好的一種。
目標(biāo)檢測(cè)的目的是定位圖像中的目標(biāo),并提供它們的類(lèi)標(biāo)簽。作為計(jì)算機(jī)視覺(jué)中最基本的任務(wù)之一,它是許多視覺(jué)應(yīng)用的關(guān)鍵組成部分,包括實(shí)例分割、人體姿態(tài)分析和視覺(jué)推理。目標(biāo)檢測(cè)問(wèn)題的重要性以及深度神經(jīng)網(wǎng)絡(luò)的快速發(fā)展導(dǎo)致了近年來(lái)的重大進(jìn)展。
RepPoint和RepPointv2是近年來(lái)提出的目標(biāo)檢測(cè)模型。這兩篇檢測(cè)論文讓我最大的收獲是對(duì)無(wú)錨目標(biāo)檢測(cè)算法的性能優(yōu)勢(shì)有了一定的解讀,并朝著無(wú)錨目標(biāo)檢測(cè)算法的方向進(jìn)行探索。
RepPointv2認(rèn)為,雖然基于錨點(diǎn)的目標(biāo)檢測(cè)算法近年來(lái)表現(xiàn)出了良好的性能,但仍然過(guò)于粗糙。主要表現(xiàn)為檢測(cè)頭和分類(lèi)頭從bbox中提取的特征可能受到背景和雜亂語(yǔ)義信息的影響。

RepPoints是一種新的目標(biāo)檢測(cè)表示,它由一組點(diǎn)組成,這些點(diǎn)表示目標(biāo)的空間范圍和語(yǔ)義上重要的局部區(qū)域。該表示法通過(guò)基于矩形地形圖的弱定位監(jiān)督和隱式識(shí)別反饋來(lái)學(xué)習(xí)?;诟S富的RepPoints表示,我們開(kāi)發(fā)了一個(gè)無(wú)錨目標(biāo)檢測(cè)器,與使用邊界框相比,它能產(chǎn)生更好的性能。
假設(shè)我們正在對(duì)人體進(jìn)行標(biāo)記并進(jìn)行人體檢測(cè)。如果這個(gè)人張開(kāi)雙臂,為了盡可能地把人的目標(biāo)框起來(lái),標(biāo)記好的bbox會(huì)介紹很多背景信息。此外,如果人體區(qū)域周?chē)写罅康钠渌嘶蛐腥酥丿B,標(biāo)記的方框就會(huì)包含大量的誤導(dǎo)性信息。
因此提出了RepPoint的結(jié)構(gòu),通過(guò)在錨點(diǎn)中建立一系列自適應(yīng)采樣點(diǎn)來(lái)代替完全采樣,即在正采樣區(qū)域中學(xué)習(xí)一組自適應(yīng)采樣點(diǎn)來(lái)尋找表示。

我們采用特征金字塔網(wǎng)絡(luò)(feature pyramid networks, FPN)作為骨干網(wǎng)絡(luò),為了便于說(shuō)明,我們只繪制了FPN特征圖的一個(gè)比例的后續(xù)管道。注意FPN特征映射的所有尺度共享相同的后面的網(wǎng)絡(luò)結(jié)構(gòu)和相同的模型權(quán)重。
首先,使用主干+FPN提取輸入圖像的多層特征,然后對(duì)FPN中的每個(gè)像素點(diǎn)位置,使用RepPoint結(jié)構(gòu)獲取FPN中的每個(gè)像素點(diǎn)位置采樣點(diǎn)的偏移量,利用所述RepPoint組獲得的采樣點(diǎn)位置確定目標(biāo)的粗定位檢測(cè)幀,然后將所述第一個(gè)RepPoint結(jié)構(gòu)獲得的偏移量轉(zhuǎn)移到第二個(gè)RepPoint結(jié)構(gòu)。兩個(gè)RepPoint結(jié)構(gòu)獲得的偏移量相對(duì)于第一個(gè)RepPoint的偏移量疊加,得到的是每個(gè)位置的最終采樣點(diǎn)。并根據(jù)最終采樣點(diǎn)得到目標(biāo)的最小邊界矩形。分類(lèi)基于第一個(gè)RepPoint結(jié)構(gòu)提供的采樣點(diǎn)所形成的目標(biāo)邊界矩形。
解釋說(shuō),在FPN中使用FPN的意義在于,不同尺度的目標(biāo)自然會(huì)歸于不同層次的特征圖,對(duì)于小目標(biāo)使用更高的分辨率的特征圖,它還減少了兩個(gè)同樣尺度的目標(biāo)落在同一個(gè)中心點(diǎn)的概率,因此大大減少了目標(biāo)中心點(diǎn)重疊的發(fā)生。
在RepPointV2中,作者希望繼續(xù)提高網(wǎng)絡(luò)的回歸性能,從而提高整個(gè)網(wǎng)絡(luò)的性能。

與V1版本的改進(jìn)相比,作者首先參照驗(yàn)證算法得到當(dāng)前輸入圖像的前背景熱圖和角點(diǎn)圖像,然后利用這個(gè)輔助分支與之前RPDet計(jì)算的主分支相結(jié)合來(lái)提高性能,類(lèi)似于FCOS的objectness分支。
然而,兩者之間也有差異。FCOS中的objectness分支是對(duì)最終網(wǎng)絡(luò)生成的多個(gè)定位幀的加權(quán)篩選,目的是去除冗余的假陽(yáng)性定位幀,而REpPointv2中的auxiliary分支考慮到RepPoint結(jié)構(gòu)是在一定范圍內(nèi)選擇特征點(diǎn)。
總結(jié)
相對(duì)于v1論文,RepPointv2論文主要通過(guò)增加輔助分支來(lái)加強(qiáng)定位能力。輔助分支所做的主要工作是提高RepPoint提取采樣特征點(diǎn)的能力。所采用的方法是通過(guò)生成的前背景和角落熱度圖來(lái)達(dá)到參考索引的效果。

英文原文:https://medium.com/@nabil.madali/point-set-representation-for-object-detection-ae1cc132095a
推薦閱讀
國(guó)產(chǎn)小眾瀏覽器因屏蔽視頻廣告,被索賠100萬(wàn)(后續(xù))
年輕人“不講武德”:因看黃片上癮,把網(wǎng)站和786名女主播起訴了
關(guān)于程序員大白
程序員大白是一群哈工大,東北大學(xué),西湖大學(xué)和上海交通大學(xué)的碩士博士運(yùn)營(yíng)維護(hù)的號(hào),大家樂(lè)于分享高質(zhì)量文章,喜歡總結(jié)知識(shí),歡迎關(guān)注[程序員大白],大家一起學(xué)習(xí)進(jìn)步!


