綜述 | 基于點(diǎn)云的自動(dòng)駕駛3D目標(biāo)檢測(cè)和分類方法

參考論文:Point-Cloud based 3D Object Detection and Classification Methods for Self-Driving Applications: A Survey and Taxonomy
Abstract
在深度學(xué)習(xí)技術(shù)的影響下,自動(dòng)駕駛已經(jīng)成為未來發(fā)展的中心,自2010年,圍繞自動(dòng)駕駛技術(shù)的研究快速發(fā)展,出現(xiàn)了眾多新穎的目標(biāo)檢測(cè)技術(shù).最初開始人們檢測(cè)圖像數(shù)據(jù)中的對(duì)象,近期出現(xiàn)了利用3D點(diǎn)云數(shù)據(jù)(激光雷達(dá)可以更準(zhǔn)確地檢測(cè)車輛周圍環(huán)境)進(jìn)行目標(biāo)檢測(cè)的技術(shù).本文基于現(xiàn)有的自動(dòng)駕駛中利用3D點(diǎn)云數(shù)據(jù)進(jìn)行目標(biāo)檢測(cè)的文獻(xiàn),從數(shù)據(jù)特征提取和目標(biāo)檢測(cè)模型等方面對(duì)不同技術(shù)進(jìn)行比較.
Introduction
根據(jù)世衛(wèi)(WHO)統(tǒng)計(jì)每年因?yàn)榻煌ㄊ鹿试斐傻乃劳龌驓埣驳娜藬?shù)達(dá)5千萬人數(shù).而通過自動(dòng)駕駛技術(shù)不僅可以大幅度降低車禍的死亡人數(shù),還可以提高車輛運(yùn)行效率.自動(dòng)駕駛車輛要從周圍環(huán)境中收集關(guān)鍵信息(行人、車輛、自行車等),預(yù)測(cè)他們未來的狀態(tài).
目前自動(dòng)駕駛車輛主要使用LiDAR(激光雷達(dá)),如表1所示,LiDAR可以精確測(cè)量傳感器與周圍障礙物之間的距離,同時(shí)提供豐富的幾何信息、形狀和比例信息.但也有其他傳感解決方案已在自動(dòng)駕駛環(huán)境中進(jìn)行了多種用途的探索.例如,基于相機(jī)的解決方案可以提供高密度像素強(qiáng)度信息優(yōu)勢(shì),但缺乏距離信息的缺點(diǎn),而3D相機(jī)又有成本昂貴以及對(duì)光照條件要求嚴(yán)格的缺點(diǎn).

(++)完全適應(yīng)的傳感器;(+)性能良好的傳感器;(?) 傳感器可能符合標(biāo)準(zhǔn),但可能存在缺點(diǎn);(? ?) 傳感器,可用于適應(yīng)和額外的重型治療;(0)傳感器不能滿足標(biāo)準(zhǔn)或不適用;
接下來,我們將目標(biāo)檢測(cè)的各種貢獻(xiàn)分為Data Representation、Data Feature Extraction、Detection Module和Prediction Refinement Network四大類,如圖1所示.

Point-based保留了點(diǎn)云的全部信息,如PointNet使用Point-based數(shù)據(jù)提取局部和全局特征.Voxel-based損失了部分點(diǎn)云位置信息,基于Voxel-based的特征提取有助于提高特征提取網(wǎng)絡(luò)的計(jì)算效率和減少內(nèi)存需求.基于Frustum-based的網(wǎng)絡(luò)有Frustum PointNet[46],Frustum ConvNet[47] andSIFRNet[48].PointPillars使用Pillar-based將將點(diǎn)云組織成垂直的柱狀,從而排除z坐標(biāo),例如PointPillars[49].除了使用三維體素表示外,一些方法(正視圖FV、 range view 、鳥瞰圖BEV)將信息壓縮到二維投影中,以減少三維激光雷達(dá)數(shù)據(jù)的高計(jì)算量.目標(biāo)檢測(cè)模型中最關(guān)鍵的任務(wù)是提取特征,保證最佳的特征學(xué)習(xí)能力是至關(guān)重要的,
Data Feature Extraction有如下幾種:
圖4.稀疏卷積(SC)和子流形稀疏卷積(VSC). Object-Wise利用成熟的二維目標(biāo)檢測(cè),用于過濾點(diǎn)云和檢測(cè)圖像中的對(duì)象,然后得到的二維邊界用于三維對(duì)象的邊界框.Convolutional Neural Networks中包含2D Backbone、3D Backbone,在三維空間中直接應(yīng)用卷積將在計(jì)算上效率低下,并將嚴(yán)重增加計(jì)算量和模型的推理時(shí)間,因?yàn)槿S表示處理自然比二維表示要長(zhǎng),更重要的是點(diǎn)云是稀疏的.因此,直接使用三維表示看起來是一項(xiàng)非常耗時(shí)的任務(wù).而使用稀疏卷積(SC)和子流形稀疏卷積(VSC)來處理稀疏數(shù)據(jù),可以有效地提取特征和更快的運(yùn)行時(shí)間.
PointNet[37]和PointNet++[38]是最著名的point-wise特征提取器.如下圖所示,PointNet用于幾何特征提取和對(duì)象分類,但由于每個(gè)點(diǎn)都單獨(dú)學(xué)習(xí)特征,忽略點(diǎn)間的關(guān)系,因此在捕獲相鄰點(diǎn)之間的局部結(jié)構(gòu)信息方面存在嚴(yán)重的局限性.

基于point-wise的方案對(duì)象檢測(cè)時(shí)間較長(zhǎng),因此引入了segment-wise.例如 VoxelNet [25], Second [29], Voxel-FPN [32], and HVNet [62].首先用體素構(gòu)造點(diǎn)云,然后使用圖3所示的特征提取器,允許網(wǎng)絡(luò)提取低維特征(對(duì)象邊緣、每個(gè)體素).與point-wise相比,segment-wise 可以應(yīng)用 voxels pillars frustums

圖3.體素特征提取網(wǎng)絡(luò)的結(jié)構(gòu)
三維目標(biāo)檢測(cè)模型中的特征提取方法
三維目標(biāo)檢測(cè)模型中的特征提取方法,其中,檢測(cè)過程可能使用單級(jí)或雙級(jí)架構(gòu)來學(xué)習(xí)全局特征,單級(jí)架構(gòu)和雙級(jí)的架構(gòu)通用表示如圖5所示.表2總結(jié)了目標(biāo)檢測(cè)模型采用的特征提取方法.

圖5.i)雙級(jí)檢測(cè)器結(jié)構(gòu)和 ii)單級(jí)檢測(cè)器結(jié)構(gòu)的通用表示


下面,我們將在多種設(shè)置的環(huán)境下收集的數(shù)據(jù)進(jìn)行比較,并分析了它們構(gòu)成.例如,在 Waymo數(shù)據(jù)集上,大約有6.1M標(biāo)記的車輛,只有2.98M標(biāo)記的行人和騎自行車的人.KITTI基準(zhǔn)由7.481k訓(xùn)練圖像和7.518k測(cè)試圖像以及相應(yīng)的點(diǎn)云組成,這些點(diǎn)云總共包括80.256k標(biāo)記對(duì)象.這些基準(zhǔn)還包括不同的類別,例如,KITTI包括3個(gè)類別:汽車、行人和自行車,而nuScenes包括23個(gè)類別的對(duì)象.

接下來無人駕駛車輛的目標(biāo)模型的選擇,其中大多數(shù)項(xiàng)目使用 RPN結(jié)構(gòu),以及使用PointNet或PointNet++執(zhí)行實(shí)例或?qū)ο蠓指钊蝿?wù),如表5所示.

由于基于融合的方法依賴于兩種不同類型的數(shù)據(jù)集,因此它們之間的同步和校準(zhǔn)非常重要.如表6所示,這些方法總體上取得了較好的性能效果;然而,模型[45]、[46]、[51]、[113]計(jì)算效率低下,推理時(shí)間超過170ms,與僅使用激光雷達(dá)的方法相比,這些解決方案的運(yùn)行速度很慢.盡管這些方法取得了良好的性能結(jié)果,但是他們嚴(yán)重依賴現(xiàn)成的2D物體檢測(cè),不能接受利用3D信息生成更精確的邊界框.

如表7所示,大多數(shù)模型使用單階段架構(gòu),與雙階段模型相比單階段模型速度更快,但實(shí)現(xiàn)的3D目標(biāo)檢測(cè)性能較低,然而,最近 Point-RCNN[10],Fast Point R-CNN[31]等通過實(shí)現(xiàn)第二階段,顯著提高了3D檢測(cè)性能.這是因?yàn)槟P偷母鱾€(gè)階段可以單獨(dú)訓(xùn)練和評(píng)估,并且可以執(zhí)行額外的增強(qiáng)技術(shù),而且特征的多尺度、不同特征的聚合有利于提高3維目標(biāo)檢測(cè)的性能.

總結(jié)
近年來,隨著3D傳感技術(shù)和計(jì)算技術(shù)的發(fā)展,用于目標(biāo)檢測(cè)的深度學(xué)習(xí)模型的數(shù)據(jù)集得以擴(kuò)展.本文對(duì)比分析了目前最先進(jìn)的目標(biāo)檢測(cè)方法,以滿足LiDAR或基于融合LiDAR的解決方案.除了對(duì)現(xiàn)有的不同方法進(jìn)行系統(tǒng)研究外,還發(fā)現(xiàn)了一些存在的問題,如模型的可解釋性、復(fù)雜的感知場(chǎng)景、小物體或遮擋物體、正負(fù)不平衡采樣等,仍然是自動(dòng)駕駛3維目標(biāo)檢測(cè)的主要挑戰(zhàn).這些問題表明,盡管在自動(dòng)駕駛目標(biāo)檢測(cè)方面取得了最新進(jìn)展,如無錨點(diǎn)檢測(cè)器、一級(jí)和兩級(jí)檢測(cè)器的組合以提高檢測(cè)精度和改進(jìn)后處理NMS,代表了對(duì)現(xiàn)有模型的一些改進(jìn).對(duì)模型在不同階段的理解是解決問題的根本.最后總結(jié)了基于深度學(xué)習(xí)的LiDAR點(diǎn)云方法的一些挑戰(zhàn)和未來工作的可能方向.
?------------------------------------------------
雙一流大學(xué)研究生團(tuán)隊(duì)創(chuàng)建,一個(gè)專注于目標(biāo)檢測(cè)與深度學(xué)習(xí)的組織,希望可以將分享變成一種習(xí)慣。
整理不易,點(diǎn)贊三連!
