(附論文&代碼)PanoNet3D:一種3D目標(biāo)檢測(cè)方法
點(diǎn)擊左上方藍(lán)字關(guān)注我們

作者 | 黃浴@知乎
鏈接 | https://zhuanlan.zhihu.com/p/344409383
論文:https://arxiv.org/pdf/2012.09418.pdf
代碼:https://github.com/poodarchu/Det3D

作者覺得大多數(shù)激光雷達(dá)檢測(cè)方法只是利用目標(biāo)幾何結(jié)構(gòu),所以提出在一個(gè)多視角框架下學(xué)習(xí)目標(biāo)的語義和結(jié)構(gòu)特征,其利用激光雷達(dá)的特性,2D距離圖像,以此提取語義特征。
該方法PanoNet3D結(jié)構(gòu)如圖:

上面分支,LiDAR點(diǎn)云作為輸入,用幾個(gè)簡(jiǎn)單的局部幾何特征修飾原始點(diǎn)特征,包括全局位置、局部相對(duì)所在體素中心的位移。
體素化有兩種:1)3D正常體素化;2)pillarization,類似PointPillars。
下面分支,點(diǎn)云轉(zhuǎn)換為偽距圖像,類似LaserNet,得到結(jié)果如下圖:5個(gè)通道,range r, height h, elevation angle theta, reflectance i, occupancy mask m。

饋入2D Semantic FPN (SFPN),獲取每個(gè)像素的深度語義特征。將兩個(gè)分支輸出特征匯總并傳遞到主檢測(cè)器。最終的框頭部在BEV平面生成檢測(cè)建議。單步檢測(cè)器,基于anchor,預(yù)測(cè)朝向框以及置信度得分。
文中提出了時(shí)域多幀融合和空域多幀融合,前者簡(jiǎn)單,后者需要選擇關(guān)鍵幀,如圖是一個(gè)例子

這里取兩幀n=2做實(shí)驗(yàn)。
檢測(cè)頭設(shè)計(jì)如圖:初始特征128維,整個(gè)場(chǎng)景大小限制為[-51.2, 51.2] [-51.2, 51.2] [-3, 3]米,分別在x-y-z方向。網(wǎng)絡(luò)由ResNet基本塊幾層組成。S表示每層步幅,N表示塊數(shù)。生成的SFPN特征圖具有和該層同樣分辨率的,標(biāo)記為紅色。可以是,3D voxelize輸入或者pillarize再輸入。

數(shù)據(jù)增強(qiáng)類似SECOND,cropped線下存儲(chǔ),做隨機(jī)全局變換,如translation、scaling、rotation等。
該文實(shí)現(xiàn)是基于Det3D:CBGS開源庫(kù)
結(jié)果:


END
整理不易,點(diǎn)贊三連↓
