(附方法或代碼)干貨 | 一文總結(jié)旋轉(zhuǎn)目標(biāo)檢測(cè)全面綜述
點(diǎn)擊左上方藍(lán)字關(guān)注我們

作者 | qianlinjun @知乎
鏈接 | https://zhuanlan.zhihu.com/p/98703562

1.RRPN(兩階段文字檢測(cè) 華科白翔組)


2.EAST (單階段文字檢測(cè)器 曠世科技)
提出單階段的檢測(cè)框架figure3。提出一種新的旋轉(zhuǎn)目標(biāo)定義方式(特征點(diǎn)到旋轉(zhuǎn)框的四邊距離以及角度信息),如下圖c,圖d,e分別預(yù)測(cè)四個(gè)距離和角度信息
應(yīng)該算是比較早的anchor-free方法檢測(cè)旋轉(zhuǎn)目標(biāo)的嘗試,將旋轉(zhuǎn)的ground-truth box向內(nèi)按比例縮小一個(gè)范圍如下圖左上角(a)中的綠色框,特征點(diǎn)落在這個(gè)綠色框內(nèi)作為正樣本。2019年的一篇 anchor-free 水平框目標(biāo)檢測(cè)器FoveaBox 和這個(gè)思路有點(diǎn)相似(arxiv.org/abs/1904.0379)

提出一個(gè)Locality-Aware NMS,加速nms過(guò)程
3. R2CNN (兩階段文字檢測(cè) 三星中國(guó))
提出一種新的旋轉(zhuǎn)目標(biāo)定義方式(檢測(cè) 順時(shí)針順序的四個(gè)角點(diǎn)中的 前兩個(gè)角點(diǎn)x1 y1 x2 y2和矩形高)

整體使用faster rcnn框架,考慮到某些文字框的寬高差距很大,在ROI pooling時(shí) 除了使用7x7的pooled size 還增加了3x11和11x3 兩種pooled size。3x11可以更好地捕捉水平特征,這對(duì)于檢測(cè)寬大于高的框比較有好處,而11x3可以更好地捕捉豎直特征,這對(duì)于檢測(cè)高大于寬的框比較有好處。

4.RR-CNN(兩階段艦船檢測(cè) 中科院自動(dòng)化所)
提出RRoI pooling layer,提取旋轉(zhuǎn)目標(biāo)特征
回歸旋轉(zhuǎn)目標(biāo)模型
傳統(tǒng)NMS針對(duì)同類目標(biāo)做,這篇文章針對(duì)多類別提出多任務(wù)NMS


5. DRBOX(兩階段目標(biāo)檢測(cè) 中科院電子所)
網(wǎng)絡(luò)pipeline如下,論文時(shí)間比較早,沒(méi)具體說(shuō)使用了什么網(wǎng)絡(luò)結(jié)構(gòu),參考其他論文說(shuō)法,DRBOX類似RPN結(jié)構(gòu)

比較早的說(shuō)明了用水平框檢測(cè)旋轉(zhuǎn)目標(biāo)存在的問(wèn)題

6. TextBoxes++(單階段 華科白翔組)
在SSD基礎(chǔ)上檢測(cè)水平框和旋轉(zhuǎn)框


使用不規(guī)則卷積核:
textboxes++中采用3x5的卷積核,以便更好的適應(yīng)長(zhǎng)寬比更大的文字
使用OHEM策略
訓(xùn)練過(guò)程采用OHEM策略,不同于傳統(tǒng)的OHEM,訓(xùn)練分為兩個(gè)stage,stage1的正負(fù)樣本比為1:3,stage2的政府樣本比為1:6
多尺度訓(xùn)練
由于Textboxes++采用了全卷積結(jié)構(gòu),因此可以適應(yīng)不同尺度的輸入。為了適應(yīng)不同尺度目標(biāo),采用了多尺度訓(xùn)練。
級(jí)聯(lián)NMS
由于計(jì)算傾斜文字的IOU較為耗時(shí),因此作者采用級(jí)聯(lián)NMS加速IOU計(jì)算,先計(jì)算所有所有框的最小外接矩形的IOU,做一次閾值為0.5的NMS,消除一部分框,然后再計(jì)算傾斜框的IOU的基礎(chǔ)上做一次閾值為0.2的NMS。
7. Learning roi transformer for oriented object detection in aerial images(cvpr2019 武大夏桂松 兩階段)
基于水平anchor,在RPN階段通過(guò)全連接學(xué)習(xí)得到旋轉(zhuǎn)ROI(區(qū)別于RRPN設(shè)置很多旋轉(zhuǎn)anchor,因?yàn)檫@篇文章是從水平anchor學(xué)習(xí)得到旋轉(zhuǎn)ROI,減小了計(jì)算量),基于旋轉(zhuǎn)ROI提取特征,然后進(jìn)行定位和分類
Rotated Position Sensitive RoI Align
基于旋轉(zhuǎn)框提取roi特征
8. R2PN(兩階段)
感覺(jué)和RRPN比較像,基于旋轉(zhuǎn)anchor,通過(guò)RPN得到旋轉(zhuǎn)ROI,基于旋轉(zhuǎn)ROI提取特征,然后進(jìn)行定位和分類。和Learning roi transformer這篇文章區(qū)別 是前者是旋轉(zhuǎn)anchor,后者是水平anchor,計(jì)算量更小。
9. R2CNN++(SCRDet) (兩階段 中科院電子所)

SF-Net:把兩個(gè)不同層的feature map進(jìn)行定制化融合 有效檢測(cè)小目標(biāo)

MDA-Net: 使用通道注意力和像素級(jí)別的注意力機(jī)制檢測(cè)密集目標(biāo)和小目標(biāo)

提出改進(jìn)版的smooth L1loss 解決旋轉(zhuǎn)目標(biāo)在垂直時(shí)角度(從0°會(huì)突變到-90°) 存在變化不連續(xù)問(wèn)題

10. CAD-Net (兩階段)
提出GCNet(Global Context Network),在進(jìn)行目標(biāo)檢測(cè)時(shí)融入全局上下文信息
提出PLCNet(pyramid local context network)引入空間注意力學(xué)習(xí)目標(biāo)協(xié)同關(guān)系,



11. R3Det (單階段旋轉(zhuǎn)目標(biāo)檢測(cè) 上交&南理&曠世)
旋轉(zhuǎn)目標(biāo)檢測(cè)(水平目標(biāo)檢測(cè)也)可能存在某個(gè)anchor所在的特征點(diǎn)的感受野和目標(biāo)位置、形狀不匹配 (如下圖左上角,綠色框是anchor,它所在的特征點(diǎn)只能看到這艘船的一部分,那么直接用這個(gè)點(diǎn)的特征去回歸anchor 以擬合ground truth(紅色框)不一定準(zhǔn)確),所以這篇論文分兩個(gè)stage:first stage 從anchor預(yù)測(cè)旋轉(zhuǎn)框(橙色框),如下圖紅色數(shù)字1->2,這時(shí)候橙色框范圍和真實(shí)目標(biāo)就很接近了,然后根據(jù)橙色框提取特征(我理解為類似ROI pooling特征提取),通過(guò)這個(gè)特征回歸到ground truth,如下圖中紅色數(shù)字2->3.

網(wǎng)絡(luò)結(jié)構(gòu)沿用RetinaNet的結(jié)構(gòu),并引入了feature refinement 模塊,并且可以疊加多次


END
整理不易,點(diǎn)贊三連↓
