Confluence:物體檢測中不依賴IoU的NMS替代算法論文解析
點擊上方“AI算法與圖像處理”,選擇加"星標(biāo)"或“置頂”
重磅干貨,第一時間送達(dá)
來源:AI公園
導(dǎo)讀
基于IoU的NMS實際上是一種貪心算法,這種方法得到的結(jié)果往往不是最優(yōu)的,Confluence給出了另一種選擇。
論文地址:https://arxiv.org/abs/2012.00257
摘要:文章提出另一種NMS的替代的方法,這種方法不是只依賴單個框的得分,也不依賴IoU去除冗余的框,它使用曼哈頓距離,在一個cluster中選取和其他框都是距離最近的那個框,然后去除那些附近的高重合的框。
1. 介紹
在當(dāng)前的主流的物體檢測中,NMS都是很必要的,如下圖1,NMS其實是一種貪心算法,每次取一個得分最高的框,然后抑制掉其他和這個框重疊過多框,所以NMS的結(jié)果并不是最優(yōu)的,因此,出現(xiàn)了很多對NMS的改進(jìn),比如soft NMS,或者替代的方法,有些依賴于聚類,有些依賴空間上的共現(xiàn)關(guān)系,有些使用霍夫變換,還有些基于端到端的訓(xùn)練的方法。

2. 方法
文章提出的方法叫做:Confluence,這個方法的主要思路并不是要把大量的檢測結(jié)果抑制掉,而是想辦法從中識別出最優(yōu)的框,這是通過識別出和其他的框交匯最多的那個框來實現(xiàn)的。Confluence是一個2階段的方法,可以保留最佳的框,抑制掉假陽框,通過曼哈頓距離來度量框之間的相關(guān)性,然后通過置信度加權(quán),得到最優(yōu)的那個框,然后再通過和這個框的交匯程度來去掉其他的假陽框。
2.1 曼哈頓距離
曼哈頓距離就是L1范數(shù),就是所有點的水平和垂直距離的和,兩點之間的曼哈頓距離表示如下:

兩個框之間的接近程度可以表示為左上角點和右下角點的曼哈頓距離的和:

P越小表示交匯程度越高,P越大表示這兩個框越不可能表示同一個物體。對于一個cluster內(nèi)的框,我們把具有最小簇內(nèi)的P值的框作為最佳的檢測框。從圖1中可以看到,Confluence具有更好的魯棒性。
2.2 歸一化
在實際使用中,由于框的尺寸不一,所以在用閾值來去除FP的時候,會對這個超參數(shù)閾值很敏感,所以需要對框進(jìn)行歸一化,歸一化方法如下:

歸一化之后,使得簇內(nèi)的框和簇外的框可以分的很開。
2.3 保留簇內(nèi)的最優(yōu)框以及去除冗余框
所有的坐標(biāo)歸一化到0~1之后,兩個有相交的框之間的接近度量會小于2,因此,只要兩個框之間的P值小于2,就屬于同一個cluster,一旦cluster確定了之后,就可以找到最優(yōu)的簇內(nèi)框。然后,設(shè)置一個閾值,所有和這個最優(yōu)框的接近度小于這個閾值的框都會去掉,然后對所有的框重復(fù)這個操作。
2.4 置信度得分加權(quán)
NMS只考慮物體的置信度得分,而Confluence會同時考慮物體的置信度得分c和p值,然后得到一個加權(quán)的接近度:

2.5 實現(xiàn)步驟
算法流程如下:

1、對所有的類別進(jìn)行遍歷。
2、得到對應(yīng)類別的所有的檢測框。
3、計算對應(yīng)類別的所有檢測框的兩兩接近度p,計算的時候使用坐標(biāo)的歸一化。
4、遍歷對應(yīng)類別中的每一個檢測框,對每個檢測框,把p值小于2的歸到一個簇里面,并計算對應(yīng)的置信度加權(quán)接近度。
5、找到一個簇里面具有最小加權(quán)p值(最優(yōu))的那個框,找到之后,保存這個框,并且將其從總的框列表里刪除。
6、對于其他的所有的框,其接近度小于預(yù)設(shè)閾值的全部去除。
7、循環(huán)處理所有的框。
每個步驟的計算復(fù)雜度都為O(N),總的Confluence的復(fù)雜度為。
3. 結(jié)果
在不同的方法上的效果:

總的來說,還是有效果的,特別是對recall的提升效果更好一點,可以保留之前NMS由于IoU過大而過濾掉的一些TP。
下面是一些具體的例子:

右邊黃框的人由于在使用NMS的時候,由于IoU和紅色的框過大而被抑制掉了。

左邊的Confluence給出的黃色框為最優(yōu)框,右邊NMS的給出的黃色框為次優(yōu)框,因為最優(yōu)框和其他的置信度更高的框的IoU太大,被抑制了。
還有一些例子如下:

總的來說,這個一個有效的方法,但是從COCO和VOC上的效果來說,雖然有效,但是提升不大。不過,這也和數(shù)據(jù)集有關(guān),從這個方法的原理來看,最大的好處是可以保留一些原本使用NMS的時候被IoU抑制掉的TP,這在比較擁擠的檢測場景中,可能會有更加明顯的效果。

論文鏈接:https://arxiv.org/abs/2012.00257
下載1:何愷明頂會分享
在「AI算法與圖像處理」公眾號后臺回復(fù):何愷明,即可下載。總共有6份PDF,涉及 ResNet、Mask RCNN等經(jīng)典工作的總結(jié)分析
下載2:leetcode?開源書
在「AI算法與圖像處理」公眾號后臺回復(fù):leetcode,即可下載。每題都 runtime beats 100% 的開源好書,你值得擁有!
下載3 CVPR2020 在「AI算法與圖像處理」公眾號后臺回復(fù):CVPR2020,即可下載1467篇CVPR?2020論文 個人微信(如果沒有備注不拉群!) 請注明:地區(qū)+學(xué)校/企業(yè)+研究方向+昵稱
覺得不錯就點亮在看吧


