自動駕駛中的3D物體狀態(tài)檢測
點擊上方“小白學視覺”,選擇加"星標"或“置頂”
重磅干貨,第一時間送達
3D物體檢測是自動駕駛的一項重要技術,KITTI提供了一種用于訓練和評估不同的3D對象檢測器的性能的標準化數(shù)據(jù)集。在這里,我們使用來自KITTI的數(shù)據(jù)來總結和突出3D對象檢測方案中的優(yōu)劣,這些方案通常可以分為使用LIDAR和使用LIDAR + Image(RGB)。
CNN用于2D對象檢測和分類的機器已經(jīng)成熟。但是,用于自動駕駛的3D對象檢測帶來至少兩個獨特的挑戰(zhàn):
與RGB圖像不同,LIDAR點云是3D的并且是非結構化的。
自動駕駛的3D檢測必須快速(<?100ms)。
幾個3 d的檢測方法已通過離散化LIDAR點云成3D體素網(wǎng)格和解決的第一個問題中應用3D卷積。但是,與2D卷積相比,3D卷積具有更大的計算成本并因此具有更高的延遲。或者,可以在自頂向下的鳥瞰圖(BEV)或激光雷達的本機范圍視圖(RV)中將點云投影到2D圖像。優(yōu)點是可以通過更快的2D卷積有效地處理投影圖像,從而降低延遲。
我們從KITTI BEV中選擇了一些方法,以突出顯示RV,BEV和在體素功能上運行的方法之間的一些優(yōu)劣。該圖顯示了檢測器延遲(ms)與車輛AP的關系:

檢測器(僅LIDAR)延遲與車輛AP
可得到如下結果:
BEV投影保留了物體的大小和距離,為學習提供了強大的先決條件。
Z軸被視為2D卷積的特征通道。
地面高度可用于展平Z軸上的點(例如HDNet),從而減輕由于道路坡度而引起的平移差異的影響。
具有學習功能(PointNet)的BEV可以整合Z軸,從而獲得強大的性能。
SECOND通過體素特征編碼層和稀疏卷積來實現(xiàn)此目的;
SECOND(v1.5)的新版本報告了更好的AP(86.6%)和低延遲(40ms)。
PointPillars在Z軸支柱上應用了簡化的PointNet,從而產(chǎn)生了2D BEV圖像,該圖像被饋送到2D CNN中。
RV投影會因距離而發(fā)生遮擋和物體大小變化。
在KITTI的7.5k幀序列數(shù)據(jù)集上, RV檢測器(例如LaserNet)的性能落后于BEV檢測器。
但是, LaserNet在1.2M幀ATG4D數(shù)據(jù)集上的性能與BEV檢測器 (例如HDNet)相當。
RV投影具有低延遲(例如LaserNet),這可能是由于相對于稀疏BEV的RV表示密集。
VoxelNet率先使用了體素功能,但由于3D卷積而遭受高延遲。
較新的方法(例如SECOND)可以使用相同的體素特征編碼層,但是避免使用稀疏卷積來減少延遲的3D卷積。
LIDAR + RGB融合改善了3D檢測性能,特別是對于LIDAR數(shù)據(jù)經(jīng)常稀疏的較小物體(例如行人)或遠距離(>50m-70m)而言。下面總結了一些融合方法。基于提議的方法以RGB(例如F-Pointnet)或BEV(例如MV3D)生成對象提議。密集融合方法將LIDAR和RGB特征直接融合到一個普通的投影中,并且通常以各種分辨率進行融合。

LIDAR + RGB融合的一般方法。圖像改編自MV3D(Chen等人,2016),F(xiàn)-Pointnet(Qi等人,2017),ContFuse(Liang等人,2018)和LaserNet(Meyer等人,2018)。
該圖顯示了相對于車輛AP的延遲(ms):

檢測器(帶有LIDAR + RGB融合標記)的延遲與車輛AP的關系
得到如下結果:
RV密集融合具有所有方法中最低的延遲,并且基于提議的方法通常比密集融合具有更高的延遲。由于RGB和LIDAR功能都在RV中,因此RV密集融合(例如LaserNet ++)速度很快。LIDAR特征可以直接投影到圖像中進行融合。相比之下, ContFuse確實BEV密集的融合。它從RGB特征生成BEV特征圖,并與LIDAR BEV特征圖融合。這具有挑戰(zhàn)性,因為并非BEV中的所有像素都能在RV中觀察到 RGB圖像。幾個步驟可以解決這個問題。例如,一個未觀察到的BEV像素,將提取附近的K個LIDAR點。計算每個點與目標BEV像素之間的偏移。將這些點投影到RV以檢索相應的RGB特征。偏移量和RGB特征被饋送給連續(xù)卷積,該連續(xù)卷積在RGB特征之間進行插值以在目標BEV像素處生成未觀察到的特征。對所有BEV像素完成此操作,生成RGB特征的密集插值BEV貼圖。
通常,在LIDAR稀疏的情況下以及在小物體上,融合方法的性能增益最高。相對于LIDAR(LaserNet),LIDAR + RGB特征融合(LaserNet ++)的AP改進在車輛上是適度的(0-70m時為+1%AP),但在較小的類別上尤其是較大范圍時。LaserNet ++在ATG4D上具有很強的性能,但未體現(xiàn)其KITTI性能。

RV和BEV預測之間的對比
交流群
歡迎加入公眾號讀者群一起和同行交流,目前有SLAM、三維視覺、傳感器、自動駕駛、計算攝影、檢測、分割、識別、醫(yī)學影像、GAN、算法競賽等微信群(以后會逐漸細分),請掃描下面微信號加群,備注:”昵稱+學校/公司+研究方向“,例如:”張三 + 上海交大 + 視覺SLAM“。請按照格式備注,否則不予通過。添加成功后會根據(jù)研究方向邀請進入相關微信群。請勿在群內(nèi)發(fā)送廣告,否則會請出群,謝謝理解~

