一文覽盡LiDAR點(diǎn)云目標(biāo)檢測(cè)方法
點(diǎn)擊上方“小白學(xué)視覺”,選擇加"星標(biāo)"或“置頂”
重磅干貨,第一時(shí)間送達(dá)
本文轉(zhuǎn)自:計(jì)算機(jī)視覺life
-
不使用3D卷積
-
輸入特征圖的channel數(shù)從128減少為64,網(wǎng)絡(luò)耗時(shí)減少2.5ms
-
網(wǎng)絡(luò)主結(jié)構(gòu)所有層channel數(shù)減半,網(wǎng)絡(luò)耗時(shí)減少4.5ms -
Upsampling的channel數(shù)從256減少到128,減輕detection head,網(wǎng)絡(luò)耗時(shí)減少3.9ms -
Tensor RT加速,提速45.5%
-
特征提取:在proposal中隨機(jī)篩選N個(gè)點(diǎn),1)獲得第一階段的點(diǎn)特征;2)獲得N個(gè)點(diǎn)的坐標(biāo),并用如下圖5所示的canonical transformation得到與原坐標(biāo)系無關(guān)的坐標(biāo)特征。兩種特征聯(lián)合在一起,作為proposal中點(diǎn)的特征表達(dá) -
Voxel表達(dá):將不同大小的proposal,通過voxel統(tǒng)一化到相同大?。篸l = 6,dw = 6,dh = 6 -
使用VFE layer提取最終特征
-
RoIAwareMaxPool:使用的是第一階段輸出的point-wise semantic part feature,在voxel中計(jì)算max pooling -
RoIAwareAvgPool:使用的是proposal中經(jīng)過canonical transformation點(diǎn)坐標(biāo)特征和segmentation score,在voxel中計(jì)算avg pooling
-
對(duì)于原始點(diǎn)云,使用一個(gè)全連接層,獲得point-wise feature。 -
在point-wise feature的基礎(chǔ)上,提取bev feature。提出了使用動(dòng)態(tài)voxel(dynamic voxelization,DV)的方式獲得bev圖,計(jì)算過程如圖3所示,相對(duì)傳統(tǒng)的voxel(Hard voxelization,HV),有3個(gè)好處,1)DV保留了voxel中的所有點(diǎn),HV使用隨機(jī)采樣的方法選取固定的點(diǎn)數(shù),有可能會(huì)丟失重要信息,如圖3中v1的計(jì)算;2)HV中每個(gè)voxel中選擇固定的點(diǎn)數(shù),且對(duì)整個(gè)點(diǎn)云選擇固定的voxel數(shù)量,因此會(huì)隨機(jī)丟棄點(diǎn)甚至整個(gè)voxel,這種方式可能導(dǎo)致不穩(wěn)定的檢測(cè)結(jié)果,如圖3中v2在HV中被丟棄;3)HV對(duì)于點(diǎn)數(shù)少于固定值的voxel使用0填充,這樣會(huì)造成額外的計(jì)算,如圖3中v2~v4。最后對(duì)于點(diǎn)云的每一個(gè)點(diǎn),使用公式(1)獲得點(diǎn)與voxel的投影關(guān)系,其中pi表示點(diǎn)云坐標(biāo),vj表示voxel,F(xiàn)V表示點(diǎn)到voxel的投影關(guān)系。 -
對(duì)于camera view,同樣可以使用公式(1)計(jì)算得到,而camera view的投影計(jì)算 -
bev圖和camera view圖經(jīng)過一個(gè)cnn后,獲得相應(yīng)的bev feature與camera view feature,再使用公式(2)(其中,F(xiàn)P表示voxel feature到點(diǎn)云的投影關(guān)系,是FV的逆)逆投影獲得不同view的點(diǎn)特征的表達(dá),最后與point-wise feature融合得到最終的點(diǎn)特征表達(dá)。
(1)
(2)
-
lidar representation:激光雷達(dá)點(diǎn)云的特征表達(dá),包括bev圖、camera/range view圖、point-wise feature、融合特征。 -
network backbone:用于特征提取的主體結(jié)構(gòu),可以為resnet,vgg等,也包括增強(qiáng)特征的方式,如fpn -
detection head:檢測(cè)網(wǎng)絡(luò)輸出,包括目標(biāo)的類別、位置、大小和姿態(tài),以及速度預(yù)測(cè)等,對(duì)于two-stage detector來說,roi pooling也是很重要的一個(gè)環(huán)節(jié)。
交流群
歡迎加入公眾號(hào)讀者群一起和同行交流,目前有SLAM、三維視覺、傳感器、自動(dòng)駕駛、計(jì)算攝影、檢測(cè)、分割、識(shí)別、醫(yī)學(xué)影像、GAN、算法競(jìng)賽等微信群(以后會(huì)逐漸細(xì)分),請(qǐng)掃描下面微信號(hào)加群,備注:”昵稱+學(xué)校/公司+研究方向“,例如:”張三 + 上海交大 + 視覺SLAM“。請(qǐng)按照格式備注,否則不予通過。添加成功后會(huì)根據(jù)研究方向邀請(qǐng)進(jìn)入相關(guān)微信群。請(qǐng)勿在群內(nèi)發(fā)送廣告,否則會(huì)請(qǐng)出群,謝謝理解~
評(píng)論
圖片
表情

