一種投影法的點云目標檢測網(wǎng)絡
點擊下方卡片,關注“新機器視覺”公眾號
重磅干貨,第一時間送達
文章導讀
本文來源于早期的一篇基于投影法的三維目標檢測文章《An Euler-Region-Proposal for Real-time 3D Object Detection on Point Clouds》,網(wǎng)絡結構簡單清晰,由于將點云投影到圖像空間借助了二維目標檢測方法,所以在后期優(yōu)化上可以參照二維目標檢測的各種Tricks。
1
檢測背景
三維目標檢測網(wǎng)絡從輸入數(shù)據(jù)的形式上可以三類:
三維點云:PointNet,PointNet++等
體素空間:VoxelNet,Vovel-FPN等
投影空間:BirdNet,PIXOR,Complex-YOLO
本文是一篇將點云轉換到投影空間做3D目標檢測的文章,通常點云的投影形式有兩種:
點云投影到鳥瞰圖

點云投影到前視圖

將三維空間的數(shù)據(jù)投影到二維平面會造成信息的損失,所以在高度圖的基礎上,往往會添加強度信息、密度信息,深度信息等等。
2
核心思想
本文基于圖像檢測的YOLOv2版本,通過把3D點云降維到2D鳥瞰圖的方式,將圖像檢測的網(wǎng)絡用于點云的目標檢測中。出于降維后信息的損失考慮,本文采用點云多種特征綜合起來填充輸入通道,以達到目標信息的彌補。
網(wǎng)絡仍然以三通道作為輸出,區(qū)別與圖片中的RGB色系不同,這里先將三維點云進行柵格化,將點集分布到鳥瞰圖空間的網(wǎng)格中,然后編碼網(wǎng)格內點集的最大高度,最大強度,點云密度三種信息歸一化后分別填充到R,G,B三個通道中形成RGB-Map,然后采用YOLOv2的Darknet19進行特征提取并回歸出目標的相對中心點tx,ty ;相對寬高tw,tl ;復角tim,tre,以及類別p0...pn 。如下圖所示:

3
實現(xiàn)細節(jié)
點云預處理:本文將單幀三維點云轉換成一張俯視的三通道圖片,篩選出傳感器正前方ROI區(qū)域(80米x 40米)高度限定3米以內,并將點云柵格化到網(wǎng)格分辨率為8cm的二維網(wǎng)格圖中。
三通道分別由點云高度信息、點云強度信息、點云密度信息編碼所得,編碼方式如下:

其中Zg表示最大高度,Zb表示最大強度,Zr表示網(wǎng)格內歸一化的密度,Sj每個網(wǎng)格內的點云映射函數(shù),N表示每個網(wǎng)格中點的個數(shù)。
網(wǎng)絡搭建:本文的網(wǎng)絡結構在YOLOv2版本的基礎上使用E-RPN進行擴展?;就珼arket-19,只是在最后的輸出層增加了兩個復數(shù)角度的回歸。
特征提取采用darknet-19,如下圖所示:

在單尺寸特征圖上回歸目標的類別、中心點、長寬、朝向角,網(wǎng)絡特征圖的解碼輸出如下:

其中預測的中心點tx, ty通過sigmoid函數(shù)歸一化到每個網(wǎng)格的相對位置,cx,cy為輸出特征圖上網(wǎng)格索引位置,預測的長寬tw,tl 通過對數(shù)函數(shù)表征的是相對于anchor長寬pw,pl的偏移,預測的復數(shù)實部和虛部通過反正切求得朝向角。
錨點設計考慮在鳥瞰圖視角下,同一類目標的長寬尺寸變化不大,但是目標存在方向信息,所以在設計錨點的時候,根據(jù)數(shù)據(jù)集內的外接框分布,采用聚類的方式定義了三種不同尺寸和兩個角度方向:
車輛尺寸(朝上)
車輛尺寸(朝下)
自行車尺寸(朝上)
自行車尺寸(朝下)
行人尺寸(朝左)
目標的朝向角可以通過相應的回歸參數(shù)tim和tre計算得出,他們對應于復數(shù)的相位,角度只需使用arctan2即可求出。采用復數(shù)的方式主要考慮:
避免奇異性;
在一個封閉的數(shù)學空間,能對模型的推廣產(chǎn)生有利影響;

損失函數(shù):Complex-YOLO的損失函數(shù)在YOLOv2的基礎上增加了歐拉角度回歸損失:

其中YOLOv2的損失如下,針對中心點和長寬分別采用L2對預測值和真實值求差的平方:

歐拉角的損失如下,針對角度的兩個參數(shù)采用L2對預測值和真實值求差的平方:

使用復數(shù)進行角度回歸,總體上來說疊加的比較生硬,我們知道后面的版本將中心點和寬高放在一起保留bbox完整性然后計算IoU系列損失,如果能把旋轉角也和bbox其他屬性整合在一個定位損失中會更好。
3
要點分析
將圖像檢測網(wǎng)絡YOLOv2應用到點云檢測中,把三維點云轉換成鳥瞰圖的形式作為輸入;
編碼點云的高度,強度,密度信息到輸入通道中;
在網(wǎng)絡輸出的位置信息,尺度信息,類別信息后增加了角度信息的輸出;
采用復角的方式表征朝向角避免了單純回歸一個值所存在的奇異值問題(0°突變360°);
4
思考與展望
a. 點云檢測網(wǎng)絡在其預處理部分往往需要消耗大量時間,雖然基于投影的檢測方法在網(wǎng)絡前向傳播的時效性比較好,但是對點云的預處理部分仍然拖累整體耗時。
b. 采用鳥瞰圖形式的檢測,由于點云近密遠稀的特征,限制了其有效檢測距離,所以本文只在40M以內的效果比較好。
c. 將俯視投影后,由于z方向上的特征壓縮,對于行人等在x-y平面上占據(jù)分辨率較小的物體很難提取到豐富的特征進行檢測任務,所以相比車輛,行人的檢測精度較低。
基于上述幾點問題,在延續(xù)投影法的大方向不變前提下,可以嘗試進行以下優(yōu)化:
Backbone,Neck,Head三塊有很多好的選擇;
Free anchor相比Fixed anchor對尺寸更加靈活;?
引入ASPP,SPP等操作增大感受野;?
引入注意力機制對稀疏目標關注其點云特征;?
激活函數(shù)的優(yōu)化,數(shù)據(jù)增廣等等
基于工程的優(yōu)化已經(jīng)Tricks的疊加,該網(wǎng)絡比較適合簡單場景的嵌入式運行:

本文僅做學術分享,如有侵權,請聯(lián)系刪文。
