MUTR3D:通過3D到2D查詢的多相機跟蹤框架
0. 引言
3D跟蹤在自動駕駛、機器人、虛擬現(xiàn)實等感知系統(tǒng)中至關(guān)重要,其具體任務包括預測每幀對象,并在時間上找到它們之間的對應關(guān)系。當系統(tǒng)使用多相機進行3D跟蹤時,會出現(xiàn)檢測精度降低、復雜場景中的遮擋和模糊、邊界對象丟失等問題。在2022 CVPR論文"MUTR3D:通過3D到2D查詢的多相機跟蹤框架"中,作者提出了一種端到端的多相機多對象跟蹤算法MUTR3D,該算法適用于已知參數(shù)的任意相機。重要的是,算法已經(jīng)開源。
1. 論文信息
標題:MUTR3D: A Multi-camera Tracking Framework via 3D-to-2D Queries
作者:Tianyuan Zhang, Xuanyao Chen, Yue Wang, Yilun Wang, Hang Zhao
來源:2022 Computer Vision and Pattern Recognition (CVPR)
原文鏈接:https://arxiv.org/abs/2205.00613
代碼鏈接:https://github.com/a1600012888/MUTR3D
2. 摘要
來自多個相機的精確和一致的3D跟蹤是基于視覺的自動駕駛系統(tǒng)的關(guān)鍵組成部分。它涉及跨多個相機在復雜場景中建模3D動態(tài)對象。由于深度估計、視覺遮擋、外觀模糊等,這個問題本身就具有挑戰(zhàn)性。此外,對象并不總是跨時間和跨時代相關(guān)聯(lián)的。為了解決這個問題,我們提出了一個名為MUTR3D的端到端多相機跟蹤框架。
與先前的工作相比,MUTR3D不明確依賴于對象的空間和外觀相似性。相反,我們的方法引入3D軌跡查詢來為出現(xiàn)在多個相機和多個幀中的每個對象建??臻g和外觀連貫軌跡。我們使用相機變換將3D跟蹤器與它們在2D圖像中的觀察結(jié)果聯(lián)系起來。每個跟蹤器根據(jù)從相機圖像獲得的特征被進一步細化。
MUTR3D使用集合到集合的損失來度量預測的跟蹤結(jié)果和地面事實之間的差異。因此,它不需要任何后處理,例如非最大值抑制和/或邊界框關(guān)聯(lián)。在nuScenes數(shù)據(jù)集上,MUTR3D的性能優(yōu)于最先進的方法5.3 AMOTA。
3. 算法分析
如圖1所示是作者提出的在線多相機多對象跟蹤框架MUTR3D的示意圖,它以端到端的方式使用空間和外觀相似性將對象關(guān)聯(lián)到3D軌跡中。更具體地說,MUTR3D引入了3D軌跡查詢,它直接模擬對象軌跡隨時間和跨相機的3D狀態(tài)和外觀特征。
在每一幀,3D軌跡查詢來自所有可見相機的樣本特征,并學習創(chuàng)建/跟蹤/結(jié)束軌跡。與以往算法不同的是,MUTR3D在一個統(tǒng)一的端到端框架中同時執(zhí)行檢測和跟蹤。

圖1 MUTR3D示意圖
作者的貢獻主要有三個方面:
(1) MUTR3D是第一個完全端到端的多相機3D跟蹤框架。與現(xiàn)有的使用顯式跟蹤試探法的檢測跟蹤方法不同,MUTR3D隱式地模擬了目標軌跡的位置和外觀變化。此外,MUTR3D通過消除常用的后處理步驟,如非最大值抑制、邊界框關(guān)聯(lián)和對象重新識別(Re-ID),簡化了3D跟蹤流程。
(2) MUTR3D引入一個3D軌跡查詢,它可以模擬一個對象的整個軌跡的3D狀態(tài)。3D軌跡查詢從所有可見相機采樣特征,并端到端地逐幀更新軌跡。
(3) 在NuScenes僅視覺3D跟蹤數(shù)據(jù)集上實現(xiàn)了SOTA性能。
(4) 提出了兩個度量來評估當前3D跟蹤器中的運動模型:平均跟蹤速度誤差(ATVE)和跟蹤速度誤差(TVE)??梢詼y量被跟蹤物體的估計運動的誤差。
3.1 基于查詢的目標跟蹤
MUTR3D采用基于查詢的跟蹤,在每一幀的開始初始化一組新生查詢,然后查詢以自回歸的方式逐幀更新自身。解碼器頭從每幀中的每個軌跡查詢中預測一個候選對象,并且在來自同一軌跡查詢的不同幀中解碼的預測被直接關(guān)聯(lián)。通過適當?shù)牟樵兩芷诠芾?,基于查詢的跟蹤可以以在線方式執(zhí)行聯(lián)合檢測和跟蹤。
如圖2所示為作者使用的跟蹤器的流程,其中有三個關(guān)鍵成分:
(1) 基于查詢的對象跟蹤損失為兩種不同類型的查詢(新生查詢和舊查詢)分配不同的回歸目標。
(2) 多相機稀疏注意使用3D參考點來為每個查詢采樣圖像特征。
(3) 運動模型估計對象動態(tài)并跨幀更新查詢的參考點。跟蹤查詢伴隨多相機特征以在當前幀中的候選對象中解碼,然后過濾掉不活躍的查詢,并更新主動查詢的參考點來進行補償物體運動和自身運動。最后,更新的查詢轉(zhuǎn)到后續(xù)幀來跟蹤相同的對象。

圖2 在線多相機跟蹤器的流程概述
黑色虛線框中的所有彩色小方塊代表跟蹤查詢,藍框代表新生查詢,橙色框表示來自先前幀的舊查詢
3.2 端到端目標跟蹤損失
MUTR3D算法每一幀中有兩種類型的查詢,并且有不同的標簽分配策略。新生查詢(newborn query)是一組經(jīng)過學習的查詢,它們與輸入無關(guān)并且在每幀開始時被添加到查詢隊列中。新生查詢負責在當前幀中檢測新出現(xiàn)的物體,并使用新出現(xiàn)的地面真實對象作為DETR,在新生查詢的候選對象之間執(zhí)行匹配。舊查詢(old query)是來自成功檢測或跟蹤對象的先前幀的活躍查詢。舊查詢負責跟蹤當前幀中以前出現(xiàn)的對象,它在第一次成功檢測到地面真實對象后被分配。
3.3 多相機跟蹤查詢解碼
MUTR3D算法的transformer解碼器頭負責跟蹤查詢,關(guān)注它們的多相機圖像特征,并提取的查詢特征將用于解碼候選對象。解碼器有兩種注意力模塊:查詢中的自注意力和查詢及圖像特征中的交叉注意力。為了提高效率,作者采用了來自DETR3D的基于參考點的注意力來執(zhí)行交叉注意力。在具體的執(zhí)行方面,分別包括查詢初始化、查詢特征提取以及3D對象參數(shù)化三個步驟。
3.4 查詢生命周期管理
為了以在線方式處理已經(jīng)消失的對象,MUTR3D在每一幀之后刪除不活躍的查詢。具體來說就是將每個查詢的置信度分數(shù)定義為其預測框的分類分數(shù),使用兩個閾值參數(shù)和作為方框分數(shù)和一個時間長度T來控制查詢的生命周期。
在算法的執(zhí)行過程中,對于每一幀中的新生查詢,如果分數(shù)低于,就執(zhí)行刪除。對于舊的查詢,如果它們的分數(shù)低于連續(xù)T幀的,就執(zhí)行刪除。
3.5 查詢更新和運動模型
在過濾掉無效查詢以后,MUTR3D會更新跟蹤查詢,包括它們的特性和3D參考點。更新三維參考點的目的是為了模擬物體的動力學和補償自身運動。同時,作者使用從查詢中預測的速度,它的好處是可以通過幀進行更新,并可以聚合多幀特征。
同時,為了隱式地建模多幀外觀變化,MUTR3D使用來自以前幀的特性來更新跟蹤查詢。與MOTR做法類似,作者為每個活動查詢維護一個固定大小的先入先出隊列,并命名為內(nèi)存庫。在每一幀之后,為每個查詢及其內(nèi)存庫應用一個注意力模塊。跟蹤查詢作為注意模塊的查詢,相應的內(nèi)存庫作為一組鍵和值。
4. 實驗
4.1 對比實驗
作者使用nuScenes數(shù)據(jù)集進行算法評估,并使用平均多目標跟蹤精度AMOTA和AMOTP作為主要指標。如表1所示是與其他SOTA方法的對比,MUTR3D方法在相機跟蹤器上的性能遠遠超過了當前的SOTA方法。在驗證集上超越了QD3DT方法5.2個點,在測試集上超越了5.3個點。
表1 nuScenes數(shù)據(jù)集上與SOTA方法的比較

如表2所示是作者與兩種卡爾曼濾波基線的對比,結(jié)果優(yōu)于基本版本的卡爾曼濾波器。但相較于SimpleTrack基線,作者提出的方法在AMOTA、MOTA、MOTP等指標上僅略有提高。
表2 在nuScenes驗證集上與卡爾曼濾波的對比

為了評估不同跟蹤算法的運動模型,作者提出了兩種評價標準ATVE (Average Tracking Velocity Error) 和TVE (Tracking Velocity Error)。其中TVE是在MOTA最高的召回時的平均速度誤差,ATVE的計算公式如下:

如表3所示是運動模型的評價結(jié)果,與基于運動模型的卡爾曼濾波相比,作者的方法獲得了更好的TVE。相比較于先前的SOTA相機跟蹤器QD3DT,作者提出的方法速度評估更為精確。
表3 速度評估結(jié)果

4.2 消融實驗
作者在消融實驗中研究了兩個因素。首先,作者研究不使用運動模型的影響,即不在每幀結(jié)束時更新3D參考點。如表4所示是實驗結(jié)果,結(jié)果顯示移除運動模型會降低所有指標的性能。
表4 運動模型消融實驗結(jié)果

然后,作者研究訓練幀數(shù)的影響。對所有的實驗采用ResNet-50作為主干網(wǎng)絡,如表5所示是分別使用3,4,5幀進行訓練的結(jié)果,結(jié)果顯示提升訓練幀數(shù)會逐漸提升性能。
表5 訓練幀數(shù)消融實驗結(jié)果

4.3 定性實驗
在傳統(tǒng)算法中,汽車左右兩側(cè)的近距離物體通常會被幾個相機截斷,這對于多相機3D跟蹤是一個巨大挑戰(zhàn)。如圖3所示是8秒剪輯的BEV和相機視圖中跟蹤算法的可視化結(jié)果,從上到下分別繪制了4個視圖的結(jié)果:鳥瞰視圖、前相機、左前相機和左后相機。相同顏色代表相同類別的對象。箭頭表示估計的速度,箭頭越長代表速度越大。結(jié)果顯示,MUTR3D算法可以用于自動融合多相機特征,并正確處理截斷。


圖3 在FPS為1的8個連續(xù)幀上的可視化結(jié)果
5. 結(jié)論
在2022 CVPR論文"MUTR3D: A Multi-camera Tracking Framework via 3D-to-2D Queries"中,作者設(shè)計了一個端到端多相機3D MOT框架。該框架可以執(zhí)行3D檢測,補償自身運動和對象運動,并執(zhí)行端到端的跨幀和跨幀對象關(guān)聯(lián)。在nuScenes測試數(shù)據(jù)集中,MUTR3D跟蹤器比目前最先進的基于相機的3D跟蹤器QD3DT高出5.3 AMOTA和4.7 MOTA。作者還提出了兩個新的評估指標:平均跟蹤速度誤差(ATVE)和跟蹤速度誤差(TVE),來研究當前3D 跟蹤器中運動模型的質(zhì)量。
