目標檢測中的特征沖突與不對齊問題
點擊上方“小白學視覺”,選擇加"星標"或“置頂”
重磅干貨,第一時間送達
本文轉自|深度學習這件小事
前言
Two-stage目標檢測中的特征/任務沖突問題
1.1 Two-stage目標檢測的流程與原理
1.2 現(xiàn)有的相關解決方案
One-stage目標檢測中的特征不對齊問題
2.1 One-stage目標檢測中的問題
2.2 “1.5-stage"解決策略
《1st Place Solutions for OpenImage2019 - Object Detection and Instance Segmentation》介紹
-
Decoupling Head
作者出發(fā)點是目標檢測框架中分類的回歸任務對于特征的要求不同,而這一點在我上面提到的Double Head RCNN已經提過了。Decoupling Head則是考慮到我們前文提到的anchor和特征不對齊問題,利用傳統(tǒng)的ROI Pooling主干預測anchor的粗略位置,然后用deform conv的方式校正分類分支。再在主干上保留原始的回歸和分類任務。總而言之可以將其概括為:Double Head RCNN + AlignDet + Faster RCNN
-
Adj-NMS
這部分作者的描述方案很“有意思”,作者考慮到NMS和soft-NMS的不足,先利用0.5的IOU閾值做了一次NMS,將靠得比較近的候選框過濾掉了,然后再用基于高斯核的soft-NMS做二次過濾。
我們可以根據(jù)這個公式來看看,假設分類置信度閾值為0.5,候選框分類置信度為1,那么Soft-NMS階段要想留下,IOU必須小于0.59,而第一次的NMS已經將IOU>0.5的候選框過濾掉了,所以這個理論上可行。因此我們可以認為作者幾乎不怎么考慮特別密集擁擠的場景了。
其效果也有0.174個點的提升。其實如果注意的話,有點像前文介紹Cascade RCNN是所提到了Iterative bbox策略,即做多次NMS。SoftNMS只能通過重新打分撈回原本得分比較低的樣本,但是NMS已經將大部分的候選框給過濾掉了,所以我很好奇這是怎么生效的。
-
Model Ensemble
很多大型比賽的固定策略“Ensemble",已經不奇怪了。naive ensemble的策略是借鑒的2018年的OpenImage第二名,給定bounding boxes(P),以及topk個與之IOU較高的候選框,依據(jù)驗證集的分數(shù)來分配各個模型在集成時的權重,這里還分各個目標類別,然后進行加權:
這里作者訓練了28個目標檢測網絡....,利用二叉樹的方式進行模型空間搜索。
-
Data Re-sampling
確保500個類別的目標中各個類別被選取的概率相等。 -
Decoupling Backbone
對于第25~28個模型,采取Decouple Head的策略,其中回歸分支的權重較小。 -
Elaborate Augmentation
隨機選擇一個類別,利用旋轉放縮裁剪等方式進行數(shù)據(jù)增強,這樣可以使得一幅圖中的類別數(shù)變少,緩解數(shù)據(jù)不平衡問題。 -
Expert Model
利用專門的網絡訓練專門的子類別數(shù)據(jù)集,這里面考慮了正負樣本均衡的問題,容易混淆(標注標準不同,表觀相似)的樣本。 -
AnchorSelecting
跟YOLO系列一樣,利用k-means方法得到18組anchors(6種長寬比,3種尺寸)。 -
Cascade RCNN
設置了0.5,0.5,0.6,0.7四個階段的級聯(lián)檢測,這我就搞不懂Adj-NMS干嘛用的了。 -
Weakly Supervised Training
由于OpenImage數(shù)據(jù)集中各類別的“長尾分布”很明顯,嚴重不均衡,所以作者增加了一些圖像級的標注,結合有監(jiān)督和WSDDN算法中的弱監(jiān)督算法聯(lián)合訓練。 -
Relationships Between Categories
作者通過分析數(shù)據(jù)集中部分類別目標之間的聯(lián)系,比如person和guitar等等,類似于條件概率,來修正分類置信度,比如一個有person在旁邊的guitar要比沒有person的guitar置信度要高。 -
Data Understanding
作者發(fā)現(xiàn)OpenImage數(shù)據(jù)集中對于特定類別的目標標注有歧義,比如火炬和手電筒,劍和匕首等,所以作者將有歧義的類別細分成了上面說的多類。同時作者也發(fā)現(xiàn)有些目標,比如葡萄缺乏個體檢測框等,作者就利用葡萄串的實例標注,擴展了很多葡萄框。
說在后面的話
參考資料
—完—
交流群
歡迎加入公眾號讀者群一起和同行交流,目前有SLAM、三維視覺、傳感器、自動駕駛、計算攝影、檢測、分割、識別、醫(yī)學影像、GAN、算法競賽等微信群(以后會逐漸細分),請掃描下面微信號加群,備注:”昵稱+學校/公司+研究方向“,例如:”張三 + 上海交大 + 視覺SLAM“。請按照格式備注,否則不予通過。添加成功后會根據(jù)研究方向邀請進入相關微信群。請勿在群內發(fā)送廣告,否則會請出群,謝謝理解~
評論
圖片
表情

