久久久久成人电影,操骚逼自拍,日韩爱爱爱,国产成人黄色在线观看,日韩欧美影院,美女被大鸡吧操视频网站在线播放 ,黑人操逼免费视频,久久伊人国产一区

0. 引言

3D跟蹤在自動駕駛、機器人、虛擬現(xiàn)實等感知系統(tǒng)中至關(guān)重要，其具體任務包括預測每幀對象，并在時間上找到它們之間的對應關(guān)系。當系統(tǒng)使用多相機進行3D跟蹤時，會出現(xiàn)檢測精度降低、復雜場景中的遮擋和模糊、邊界對象丟失等問題。在2022 CVPR論文"MUTR3D:通過3D到2D查詢的多相機跟蹤框架"中，作者提出了一種端到端的多相機多對象跟蹤算法MUTR3D，該算法適用于已知參數(shù)的任意相機。重要的是，算法已經(jīng)開源。

1. 論文信息

標題：MUTR3D: A Multi-camera Tracking Framework via 3D-to-2D Queries

作者：Tianyuan Zhang, Xuanyao Chen, Yue Wang, Yilun Wang, Hang Zhao

來源：2022 Computer Vision and Pattern Recognition (CVPR)

原文鏈接：https://arxiv.org/abs/2205.00613

代碼鏈接：https://github.com/a1600012888/MUTR3D

2. 摘要

來自多個相機的精確和一致的3D跟蹤是基于視覺的自動駕駛系統(tǒng)的關(guān)鍵組成部分。它涉及跨多個相機在復雜場景中建模3D動態(tài)對象。由于深度估計、視覺遮擋、外觀模糊等，這個問題本身就具有挑戰(zhàn)性。此外，對象并不總是跨時間和跨時代相關(guān)聯(lián)的。為了解決這個問題，我們提出了一個名為MUTR3D的端到端多相機跟蹤框架。

與先前的工作相比，MUTR3D不明確依賴于對象的空間和外觀相似性。相反，我們的方法引入3D軌跡查詢來為出現(xiàn)在多個相機和多個幀中的每個對象建?？臻g和外觀連貫軌跡。我們使用相機變換將3D跟蹤器與它們在2D圖像中的觀察結(jié)果聯(lián)系起來。每個跟蹤器根據(jù)從相機圖像獲得的特征被進一步細化。

MUTR3D使用集合到集合的損失來度量預測的跟蹤結(jié)果和地面事實之間的差異。因此，它不需要任何后處理，例如非最大值抑制和/或邊界框關(guān)聯(lián)。在nuScenes數(shù)據(jù)集上，MUTR3D的性能優(yōu)于最先進的方法5.3 AMOTA。

3. 算法分析

如圖1所示是作者提出的在線多相機多對象跟蹤框架MUTR3D的示意圖，它以端到端的方式使用空間和外觀相似性將對象關(guān)聯(lián)到3D軌跡中。更具體地說，MUTR3D引入了3D軌跡查詢，它直接模擬對象軌跡隨時間和跨相機的3D狀態(tài)和外觀特征。

在每一幀，3D軌跡查詢來自所有可見相機的樣本特征，并學習創(chuàng)建/跟蹤/結(jié)束軌跡。與以往算法不同的是，MUTR3D在一個統(tǒng)一的端到端框架中同時執(zhí)行檢測和跟蹤。

圖1 MUTR3D示意圖

作者的貢獻主要有三個方面：

(1) MUTR3D是第一個完全端到端的多相機3D跟蹤框架。與現(xiàn)有的使用顯式跟蹤試探法的檢測跟蹤方法不同，MUTR3D隱式地模擬了目標軌跡的位置和外觀變化。此外，MUTR3D通過消除常用的后處理步驟，如非最大值抑制、邊界框關(guān)聯(lián)和對象重新識別(Re-ID)，簡化了3D跟蹤流程。

(2) MUTR3D引入一個3D軌跡查詢，它可以模擬一個對象的整個軌跡的3D狀態(tài)。3D軌跡查詢從所有可見相機采樣特征，并端到端地逐幀更新軌跡。

(3) 在NuScenes僅視覺3D跟蹤數(shù)據(jù)集上實現(xiàn)了SOTA性能。

(4) 提出了兩個度量來評估當前3D跟蹤器中的運動模型：平均跟蹤速度誤差(ATVE)和跟蹤速度誤差(TVE)?？梢詼y量被跟蹤物體的估計運動的誤差。

3.1 基于查詢的目標跟蹤

MUTR3D采用基于查詢的跟蹤，在每一幀的開始初始化一組新生查詢，然后查詢以自回歸的方式逐幀更新自身。解碼器頭從每幀中的每個軌跡查詢中預測一個候選對象，并且在來自同一軌跡查詢的不同幀中解碼的預測被直接關(guān)聯(lián)。通過適當?shù)牟樵兩芷诠芾?，基于查詢的跟蹤可以以在線方式執(zhí)行聯(lián)合檢測和跟蹤。

如圖2所示為作者使用的跟蹤器的流程，其中有三個關(guān)鍵成分：

(1) 基于查詢的對象跟蹤損失為兩種不同類型的查詢(新生查詢和舊查詢)分配不同的回歸目標。

(2) 多相機稀疏注意使用3D參考點來為每個查詢采樣圖像特征。

(3) 運動模型估計對象動態(tài)并跨幀更新查詢的參考點。跟蹤查詢伴隨多相機特征以在當前幀中的候選對象中解碼，然后過濾掉不活躍的查詢，并更新主動查詢的參考點來進行補償物體運動和自身運動。最后，更新的查詢轉(zhuǎn)到后續(xù)幀來跟蹤相同的對象。

圖2 在線多相機跟蹤器的流程概述

黑色虛線框中的所有彩色小方塊代表跟蹤查詢，藍框代表新生查詢，橙色框表示來自先前幀的舊查詢

3.2 端到端目標跟蹤損失

MUTR3D算法每一幀中有兩種類型的查詢，并且有不同的標簽分配策略。新生查詢(newborn query)是一組經(jīng)過學習的查詢，它們與輸入無關(guān)并且在每幀開始時被添加到查詢隊列中。新生查詢負責在當前幀中檢測新出現(xiàn)的物體，并使用新出現(xiàn)的地面真實對象作為DETR，在新生查詢的候選對象之間執(zhí)行匹配。舊查詢(old query)是來自成功檢測或跟蹤對象的先前幀的活躍查詢。舊查詢負責跟蹤當前幀中以前出現(xiàn)的對象，它在第一次成功檢測到地面真實對象后被分配。

3.3 多相機跟蹤查詢解碼

MUTR3D算法的transformer解碼器頭負責跟蹤查詢，關(guān)注它們的多相機圖像特征，并提取的查詢特征將用于解碼候選對象。解碼器有兩種注意力模塊：查詢中的自注意力和查詢及圖像特征中的交叉注意力。為了提高效率，作者采用了來自DETR3D的基于參考點的注意力來執(zhí)行交叉注意力。在具體的執(zhí)行方面，分別包括查詢初始化、查詢特征提取以及3D對象參數(shù)化三個步驟。

3.4 查詢生命周期管理

為了以在線方式處理已經(jīng)消失的對象，MUTR3D在每一幀之后刪除不活躍的查詢。具體來說就是將每個查詢的置信度分數(shù)定義為其預測框的分類分數(shù)，使用兩個閾值參數(shù)和作為方框分數(shù)和一個時間長度T來控制查詢的生命周期。

在算法的執(zhí)行過程中，對于每一幀中的新生查詢，如果分數(shù)低于，就執(zhí)行刪除。對于舊的查詢，如果它們的分數(shù)低于連續(xù)T幀的，就執(zhí)行刪除。

3.5 查詢更新和運動模型

在過濾掉無效查詢以后，MUTR3D會更新跟蹤查詢，包括它們的特性和3D參考點。更新三維參考點的目的是為了模擬物體的動力學和補償自身運動。同時，作者使用從查詢中預測的速度，它的好處是可以通過幀進行更新，并可以聚合多幀特征。

同時，為了隱式地建模多幀外觀變化，MUTR3D使用來自以前幀的特性來更新跟蹤查詢。與MOTR做法類似，作者為每個活動查詢維護一個固定大小的先入先出隊列，并命名為內(nèi)存庫。在每一幀之后，為每個查詢及其內(nèi)存庫應用一個注意力模塊。跟蹤查詢作為注意模塊的查詢，相應的內(nèi)存庫作為一組鍵和值。

4. 實驗

4.1 對比實驗

作者使用nuScenes數(shù)據(jù)集進行算法評估，并使用平均多目標跟蹤精度AMOTA和AMOTP作為主要指標。如表1所示是與其他SOTA方法的對比，MUTR3D方法在相機跟蹤器上的性能遠遠超過了當前的SOTA方法。在驗證集上超越了QD3DT方法5.2個點，在測試集上超越了5.3個點。

表1 nuScenes數(shù)據(jù)集上與SOTA方法的比較

如表2所示是作者與兩種卡爾曼濾波基線的對比，結(jié)果優(yōu)于基本版本的卡爾曼濾波器。但相較于SimpleTrack基線，作者提出的方法在AMOTA、MOTA、MOTP等指標上僅略有提高。

表2 在nuScenes驗證集上與卡爾曼濾波的對比

為了評估不同跟蹤算法的運動模型，作者提出了兩種評價標準ATVE (Average Tracking Velocity Error) 和TVE (Tracking Velocity Error)。其中TVE是在MOTA最高的召回時的平均速度誤差，ATVE的計算公式如下：

如表3所示是運動模型的評價結(jié)果，與基于運動模型的卡爾曼濾波相比，作者的方法獲得了更好的TVE。相比較于先前的SOTA相機跟蹤器QD3DT，作者提出的方法速度評估更為精確。

表3 速度評估結(jié)果

4.2 消融實驗

作者在消融實驗中研究了兩個因素。首先，作者研究不使用運動模型的影響，即不在每幀結(jié)束時更新3D參考點。如表4所示是實驗結(jié)果，結(jié)果顯示移除運動模型會降低所有指標的性能。

表4 運動模型消融實驗結(jié)果

然后，作者研究訓練幀數(shù)的影響。對所有的實驗采用ResNet-50作為主干網(wǎng)絡，如表5所示是分別使用3，4，5幀進行訓練的結(jié)果，結(jié)果顯示提升訓練幀數(shù)會逐漸提升性能。

表5 訓練幀數(shù)消融實驗結(jié)果

4.3 定性實驗

在傳統(tǒng)算法中，汽車左右兩側(cè)的近距離物體通常會被幾個相機截斷，這對于多相機3D跟蹤是一個巨大挑戰(zhàn)。如圖3所示是8秒剪輯的BEV和相機視圖中跟蹤算法的可視化結(jié)果，從上到下分別繪制了4個視圖的結(jié)果：鳥瞰視圖、前相機、左前相機和左后相機。相同顏色代表相同類別的對象。箭頭表示估計的速度，箭頭越長代表速度越大。結(jié)果顯示，MUTR3D算法可以用于自動融合多相機特征，并正確處理截斷。

圖3 在FPS為1的8個連續(xù)幀上的可視化結(jié)果

5. 結(jié)論

在2022 CVPR論文"MUTR3D: A Multi-camera Tracking Framework via 3D-to-2D Queries"中，作者設(shè)計了一個端到端多相機3D MOT框架。該框架可以執(zhí)行3D檢測，補償自身運動和對象運動，并執(zhí)行端到端的跨幀和跨幀對象關(guān)聯(lián)。在nuScenes測試數(shù)據(jù)集中，MUTR3D跟蹤器比目前最先進的基于相機的3D跟蹤器QD3DT高出5.3 AMOTA和4.7 MOTA。作者還提出了兩個新的評估指標：平均跟蹤速度誤差(ATVE)和跟蹤速度誤差(TVE)，來研究當前3D 跟蹤器中運動模型的質(zhì)量。