基于幾何距離分解的單目三維目標檢測

摘要
不同于大多數(shù)現(xiàn)有的方法將距離回歸為單一變量,作者提出了一種新的基于幾何的距離分解,通過其因子恢復距離信息。將物體的距離分解為最具代表性和最穩(wěn)定的變量,即物體的物理高度和投影在圖像平面上的視覺高度。此外,分解保持了兩個高度之間的自一致性,從而在兩個高度預測都不準確的情況下實現(xiàn)魯棒距離預測。分解還使作者能夠追蹤不同場景下距離不確定性的原因。這種分解使得距離預測具有可解釋性、準確性和魯棒性。作者的方法直接從RGB圖像中預測三維邊界框,結構緊湊,使訓練和推理簡單高效。實驗結果表明,該方法在單目三維目標檢測和KITTI數(shù)據(jù)集上的鳥瞰圖任務中都達到了最先進的性能,并且可以推廣到具有不同相機特性的圖像。

作者的方法的貢獻總結如下:
1. 一種新的基于幾何的距離分解方法使距離預測具有可解釋性、準確性和魯棒性。
2. 在分解的基礎上,作者的方法最初追蹤了距離不確定性的原因。
3.作者的方法直接從RGB圖像中預測三維邊界框,結構緊湊,使訓練和推理簡單高效。
4. 作者的方法在單目三維目標檢測和KITTI數(shù)據(jù)集[9]的鳥瞰任務上達到了最先進的(SOTA)性能,并且可以適應不同相機特性的圖像。

框架結構

MonoRCNN的主要架構
MonoRCNN是建立在Faster R-CNN[32]之上,并添加了精心設計的3D距離頭。3D距離頭是基于作者的基于幾何的距離分解。具體來說,作者的方法回歸H, hrec = h1和它們的不確定性,然后恢復距離Z = fHhrec。藍色箭頭表示訓練和推理過程中網(wǎng)絡中的操作,橙色箭頭表示推理過程中恢復三維邊界框的操作。

實驗結果

KITTI例子
作者在KITTI測試集[9](前兩行)和驗證拆分[5](第三行)上可視化MonoRCNN的定性示例。鳥瞰圖結果中的黃/綠框分別表示預測和地面情況,紅/藍線表示汽車的偏航角。相鄰兩個白圓的半徑差為5米。

nuScenes交叉測試的例子
作者在nuScenes[3]交叉測試集上可視化MonoRCNN的定性例子。鳥瞰結果如上圖所示。作者的模型只使用KITTI val分裂的[5]進行訓練,可以推廣到具有不同相機固有特性的nuScenes[3]交叉測試集中的圖像。

在KITTI基準[9]上進行比較
輸入是指訓練和推理過程中使用的輸入數(shù)據(jù)。推斷時間是根據(jù)官方排行榜報告的,與硬件略有差異。紅色/藍色表示最佳/秒。
結論
提出了一種新的基于幾何的距離分解方法,將物體的距離分解為最具代表性和最穩(wěn)定的變量,即物理高度和投影視覺高度,并利用它們恢復距離。這種分解使得距離預測具有可解釋性、準確性和魯棒性。該方法直接從RGB圖像中預測三維邊界框,結構緊湊,簡單高效。實驗結果表明,該方法在單目三維目標檢測和KITTI數(shù)據(jù)集上的鳥瞰任務中都達到了SOTA性能,并且可以推廣到具有不同相機特性的圖像。
論文鏈接:https://arxiv.org/pdf/2104.03775.pdf
雙一流高校研究生團隊創(chuàng)建 ↓
專注于計算機視覺原創(chuàng)并分享相關知識 ?
整理不易,點贊三連!

