多目標跟蹤 | FairMOT:統(tǒng)一檢測、重識別的多目標跟蹤框架,全新Baseline
點擊上方“小白學視覺”,選擇加"星標"或“置頂”
重磅干貨,第一時間送達
本文轉自:AI算法與圖像處理

論文地址:https://arxiv.org/pdf/2004.01888v2.pdf
代碼地址:https://github.com/ifzhang/FairMOT
這篇工作來自華中科技大學和微軟亞洲研究院,從結果來看,這篇工作在主流的多目標跟蹤數(shù)據(jù)集上幾乎打敗之前所有State-of-the-art算法,但標題卻稱該算法只是個baseline,而且是simple baseline,再次驗證大佬們都是謙虛的。
多目標跟蹤 (MOT) 是計算機視覺領域中的重要任務,近年來,目標檢測和 Re-ID 在各自的發(fā)展中都取得巨大進步,并提升了目標跟蹤的性能。但是,現(xiàn)有方法無法以視頻幀速率執(zhí)行推斷,因為兩個網(wǎng)絡無法共享特征。當前多目標跟蹤最優(yōu)的方法通常分為兩大類:
兩步法MOT——使用兩個單獨的模型,首先用檢測模型定位圖像中目標的邊界框位置,然后用關聯(lián)模型對每個邊界框提取重識別 (Re-identification, Re-ID) 特征,并根據(jù)這些特征定義的特定度量將邊界框與現(xiàn)有的一個跟蹤結果聯(lián)結起來。其中檢測模型中的目標檢測是為了發(fā)現(xiàn)當前畫面所有的目標,ReID則是將當前所有目標與之前幀的目標建立關聯(lián),然后可以通過ReID特征向量的距離比較和目標區(qū)域交并比(IOU)來通過使用卡爾曼濾波器和匈牙利算法建立關聯(lián)。兩步方法的優(yōu)點在于,它們可以針對每個任務分別使用最合適的模型,而不會做出折衷。此外,他們可以根據(jù)檢測到的邊界框裁剪圖像補丁,并在預測Re-ID功能之前將其調(diào)整為相同大小,這有助于處理對象的比例變化。
單步法MOT——在進行目標檢測的同時也進行ReID特征提取,核心思想是在單個網(wǎng)絡中同時完成對象檢測和身份嵌入(Re-ID功能),以通過共享大部分計算來減少推理時間。現(xiàn)有的方法比如Track-RCNN、JDE(Towards real-time multi-object tracking)直接在Mask R-CNN、YOLOv3的檢測端并行加入ReID特征向量輸出。很顯然這能節(jié)約計算時間,但作者研究發(fā)現(xiàn)此類方法存在目標ID關聯(lián)不正確的問題。具體來說,該類方法使用了anchor-based 的目標檢測,目標的ReID特征是在anchor區(qū)域提取的,anchor 和目標區(qū)域會出現(xiàn)不對齊的問題,這會導致網(wǎng)絡訓練時存在嚴重的歧義。

圖1:(a)黃色和紅色的錨點造成了估計相同的ID(穿藍色襯衫的人),盡管圖像塊非常不同。此外,基于錨的方法通常在粗網(wǎng)格上運行。因此,很有可能在錨點(紅色或黃色星形)提取的特征未與對象中心對齊。(b)免錨的做法受歧義的影響較小。
本文作者對影響跟蹤器準確性的關鍵性因素做了以下的分析:
(1)基于Anchor錨點的方法不適合Re-ID
當前的單步法跟蹤器都是基于anchor錨的,因為它們是從對象檢測器修改而來的。但是,有兩個原因造成了錨點不適合學習Re-ID功能。首先,對應于不同圖像塊的多個錨點可能負責估計同一個目標的 id,這導致嚴重的歧義(參見圖 1)。此外,需要將特征圖的大小縮小 1/8,以平衡準確率和速度。對于檢測任務而言這是可以接受的,但對于 Re-ID 來說就有些粗糙了,因為目標中心可能無法與在粗糙錨點位置提取的特征一致。
文章中提出解決該問題的方法,是通過將MOT問題看作為在高分辨率特征圖上的像素級關鍵點(目標中心)估計和 id 分類問題。
(2)多層特征聚合
這對于 MOT 問題尤其重要,因為 Re-ID 特征需要利用低級和高級特征來適應小型和大型目標。研究者通過實驗發(fā)現(xiàn),這對降低 one-shot 方法的 id 轉換數(shù)量有所幫助,因為它提升了處理尺度變換的能力。
(3)ReID特征的維數(shù)
以前的ReID方法通常學習高維特征,并在其基準上取得了可喜的結果。但是,本文發(fā)現(xiàn)低維特征實際上對MOT更好,因為它的訓練圖像比ReID少(由于 Re-ID 數(shù)據(jù)集僅提供剪裁后的人像,因此 MOT 任務不使用此類數(shù)據(jù)集)。學習低維特征有助于減少過擬合小數(shù)據(jù)的風險,并提高跟蹤的穩(wěn)健性。
針對于第三點實際存在疑問,一開始公布的Fairmot版本用的reid分支是128維度的,但是后來作者團隊在MOT20上刷出了MOTA58.7的指標,也更新了github上的Fairmot模型,這時候用的reid維度已經(jīng)改為512維度,與通用的reid模型接近。但是在實驗中發(fā)現(xiàn)reid上效果仍然在人員交集處容易跑其他人身上,應該是沒有充分訓練。

圖 2:該研究提出的 one-shot MOT 跟蹤器圖示。首先將輸入圖像送入編碼器-解碼器網(wǎng)絡,以提取高分辨率特征圖(步幅=4);然后添加兩個簡單的并行 head,分別預測邊界框和 Re-ID 特征;最后提取預測目標中心處的特征進行邊界框時序聯(lián)結。
然后,添加并行分支來估計像素級 Re-ID 特征,這類特征用于預測目標的 id。具體而言,學習既能減少計算時間又能提升特征匹配穩(wěn)健性的低維 Re-ID 特征。在這一步中,本文用深層聚合算子(Deep Layer Aggregation,DLA)來改進主干網(wǎng)絡 ResNet-34 ,從而融合來自多個層的特征,處理不同尺度的目標。
1、主干網(wǎng)絡
采用ResNet-34 作為主干網(wǎng)絡,以便在準確性和速度之間取得良好的平衡。為了適應不同規(guī)模的對象,如圖2所示,將深層聚合(DLA)的一種變體應用于主干網(wǎng)絡。
與原始DLA 不同,它在低層聚合和低層聚合之間具有更多的跳躍連接,類似于特征金字塔網(wǎng)絡(FPN)。此外,上采樣模塊中的所有卷積層都由可變形的卷積層代替,以便它們可以根據(jù)對象的尺寸和姿勢動態(tài)調(diào)整感受野。 這些修改也有助于減輕對齊問題。
2、物體檢測分支
本方法中將目標檢測視為高分辨率特征圖上基于中心的包圍盒回歸任務。特別是,將三個并行回歸頭(regression heads)附加到主干網(wǎng)絡以分別估計熱圖,對象中心偏移和邊界框大小。 通過對主干網(wǎng)絡的輸出特征圖應用3×3卷積(具有256個通道)來實現(xiàn)每個回歸頭(head),然后通過1×1卷積層生成最終目標。
Heatmap Head
這個head負責估計對象中心的位置。這里采用基于熱圖的表示法,熱圖的尺寸為1×H×W。 隨著熱圖中位置和對象中心之間的距離,響應呈指數(shù)衰減。
Center Offset Head
該head負責更精確地定位對象。ReID功能與對象中心的對齊精準度對于性能至關重要。
Box Size Head
該部分負責估計每個錨點位置的目標邊界框的高度和寬度,與Re-ID功能沒有直接關系,但是定位精度將影響對象檢測性能的評估。
3、id嵌入分支 Identity Embedding Branch
id嵌入分支的目標是生成可以區(qū)分不同對象的特征。理想情況下,不同對象之間的距離應大于同一對象之間的距離。為了實現(xiàn)該目標,本方法在主干特征之上應用了具有128個內(nèi)核的卷積層,以提取每個位置的身份嵌入特征。
4、Loss Functions損失函數(shù)
Heatmap Loss:采用focal loss的形式

定義為具有focal loss的像素級邏輯回歸( pixel-wise logistic regression)

Offset and Size Loss:采用L1 loss

Identity Embedding Loss:參考交叉熵的形式
將對象id嵌入視為分類任務。特別是,訓練集中具有相同標識的所有對象實例都被視為一個類。

消融實驗

2. 多層特征聚合


表 3:主干網(wǎng)絡對不同尺度目標的影響。
3、Re-ID 特征維度

表 4:不同 Re-ID 特征維度在 2DMOT15 數(shù)據(jù)集上的評估結果
4、與當前最佳模型的比較


表 6:與「private detector」設定下的 SOTA 結果進行對比。


具體實驗細節(jié)可以參考原文。
參考
https://blog.csdn.net/DJames23/article/details/105482419
https://blog.csdn.net/qq_34919792/article/details/106033055
https://zhuanlan.zhihu.com/p/126558285
https://zhuanlan.zhihu.com/p/127738264
https://cloud.tencent.com/developer/article/1616262
https://blog.csdn.net/sinat_33486980/article/details/105611295
交流群
歡迎加入公眾號讀者群一起和同行交流,目前有SLAM、三維視覺、傳感器、自動駕駛、計算攝影、檢測、分割、識別、醫(yī)學影像、GAN、算法競賽等微信群(以后會逐漸細分),請掃描下面微信號加群,備注:”昵稱+學校/公司+研究方向“,例如:”張三 + 上海交大 + 視覺SLAM“。請按照格式備注,否則不予通過。添加成功后會根據(jù)研究方向邀請進入相關微信群。請勿在群內(nèi)發(fā)送廣告,否則會請出群,謝謝理解~

