旋轉(zhuǎn)目標檢測表征新方法
簡單介紹前段時間一個工作的思想:Optimization for Arbitrary-Oriented Object Detection via Representation Invariance Loss。討論的是旋轉(zhuǎn)目標表征的問題,發(fā)表在IEEE Geoscience and Remote Sensing Letters上。
論文地址:https://ieeexplore.ieee.org/document/9555916
arxiv擴展版:https://arxiv.org/abs/2012.04150
代碼:https://github.com/ming71/RIDet
﹀
﹀
﹀
1. Motivation
主流的旋轉(zhuǎn)目標表征方式分為兩種:旋轉(zhuǎn)矩形(OBB)和四邊形(QBB)。這兩種表征方式都存在邊界越界問題和周期性問題(參考CSL論文或者下面的示意圖)。

以QBB表征為例,對于一個凸的四邊形而言(大多能用四邊形表示的目標都是凸的),4個頂點有種組合方式,他們能表示唯一的凸四邊形,這24種表示方式是等價的局部最優(yōu)解。但是實際回歸時,損失只能指定一種情況學習,損失向唯一的全局最小優(yōu)化。
也就是說,one-to-one match的損失函數(shù)會導致次優(yōu)的回歸過程,損失可能震蕩,收斂速度相對慢。這些多余的表征方式導致的次優(yōu)學習問題本文稱之為“模糊表征”問題。
同樣的問題在OBB中也是存在的。之前在旋轉(zhuǎn)目標檢測的SCRDet,GWD等論文中提到的旋轉(zhuǎn)目標表征的角度周期性(),邊角互換性,實際上也是當前損失函數(shù)無法匹配到這些等價的局部極小導致的,這里就不贅述了。
2. Method
2.1 Analysis
“模糊表征”帶來的旋轉(zhuǎn)目標表征的歧義性在一些之前的論文中有被提到。例如SCRDet采用IoU-smoothL1損失用IoU加權(quán)來抑制越界的角度;GWD采用高斯分布的橢圓擬合來近似表征旋轉(zhuǎn)矩形;或者直接把角度回歸轉(zhuǎn)為分類來避開這個問題。
但是這些方法都是把“模糊表征”視作旋轉(zhuǎn)目標檢測的一個“問題”。
實際上根據(jù)定義來看,他們同樣是有效的表征方式,等價的局部極小點,直接抑制多樣表征來規(guī)避問題不是最可取的。
宜疏不宜堵,更好的辦法是直接讓損失函數(shù)能夠同等地對待這些局部極小進行更好的優(yōu)化,就能夠?qū)⑦@個問題轉(zhuǎn)化為加速收斂的工具,這也是本文的初始想法。

首先想到的就是匈牙利算法。匈牙利匹配很早之前就提出了,最近在DETR中又火了起來。在DETR中他解決的是prediction set和gt set之間的損失計算問題。
那么同樣在這里也可以遷移過來,只要predict能夠匹配到等價表征的GT set中的某一個元素即可認為成功。
基于這個思路,利用匈牙利損失,將定位過程視作集合之間的匹配即可優(yōu)化回歸。
2.2 RIL for QBB

首先是用于多邊形匹配的表征不變性損失。上面的思路就是按照QBB舉例展開的,因此不難理解,直接將GT的四個點的組合視為GT set,然后讓預測的固定四個點和其匹配即可。公式表示如下:

2.3 RIL for OBB
OBB中由于邊角的交換性和角度的周期性,依然存在模糊表征的問題,所以同樣可以將這些等價表征集視為學習的目標。
但是由于角度的周期性,這個GT set是無窮大的,實際操作中肯定不能直接匹配。因此需要對其進行優(yōu)化。
這里將角度的偏離映射為類似IoU的一種度量,擺脫了周期性的問題,從而能夠用到匈牙利匹配算法。如下圖所示:

則角度損失可以轉(zhuǎn)化為:

實際使用時發(fā)現(xiàn)這個新角度損失對其加權(quán)系數(shù)比較敏感,導致參數(shù)不好調(diào)。為了歸一化不同變量之間的影響,同時對距離和尺度(即中心點和寬高的偏移)變量也做了歸一化:


3. Experiment
本文采用了兩個遙感的數(shù)據(jù)集,實際上完整版的論文采取了四個數(shù)據(jù)集:三個遙感數(shù)據(jù)集DOTA,HRSC2016,UCAS-AOD和兩個個文本檢測數(shù)據(jù)集ICDAR2015,MSRA-TD500。
GRSL篇幅只有5頁,很多實驗沒展開,包括DOTA數(shù)據(jù)集的完整對比結(jié)果也沒有給上,可以參考arxiv版本的獲取更詳盡的數(shù)據(jù)和實驗。
采用的baseline模型是自己搭建的一個帶refine的retinanet以獲得好點的效果,避免又被噴為什么ablation性能不能吊打sota,模型如下所示:

3.1 Ablation Study
3.1.1 Evaluation of normalized rotation loss for OBB

這里分別做了的實驗三部分的實驗:匹配策略、角度歸一化、以及中心距離的歸一化。
首先只有匹配策略的時候角度是無窮的,按照上文說的沒法窮舉所有的 可能極值,所以這里只做了2pi內(nèi)的約束,相當于加了幾個近的等價極小值,取得小幅度的提升。
然后是加了角度歸一化的損失,進一步性能提升了1.7??瓷先ズ孟袷沁@個角度映射挺好使的,實際上他的增益是為匹配策略服務的。證據(jù)就是單獨使用這玩意的時候不好調(diào),性能有時候還下降。
最后是中心約束能夠獲得更好的效果,這一點在很多相似的工作中也有得到證明。
3.1.2 ?Evaluation on different models
這部分的實驗在HRSC和DOTA上進行,切換了不同的模型可以證明方法的穩(wěn)定提點,有的模型去掉了部分增強trick進行實驗。
代碼實現(xiàn)上一個是自己寫的,還基于s2anet遷移上去了,為了在更多的方法上實驗以及得到更好的效果。
值得一提的是,RIL對于高精度的檢測性能提升比較好,這點在table中沒有展現(xiàn)出來。
此外,相同的epoch下,使用了RIL的模型的收斂速度更快,如下圖可視化結(jié)果所示。還畫過一個mAP曲線也能印證這一點。

3.2 Main Results
由于論文篇幅的原因沒給出DOTA的詳細數(shù)據(jù),這里附上HRSC和DOTA實驗結(jié)果的全表:


然后附上一些檢測結(jié)果:

代碼和權(quán)重都已經(jīng)開源在github,有問題歡迎通過issue或者郵件聯(lián)系我。
? ? ? 掃碼關(guān)注
GiantPandaCV
歡迎聯(lián)系我們投稿
- End -
