點(diǎn)擊上方“小白學(xué)視覺”，選擇加"星標(biāo)"或“置頂”

重磅干貨，第一時間送達(dá)
本文轉(zhuǎn)自|計算機(jī)視覺工坊

前言

三維數(shù)據(jù)通?？梢杂貌煌母袷奖硎?，包括深度圖像、點(diǎn)云、網(wǎng)格和體積網(wǎng)格。點(diǎn)云表示作為一種常用的表示格式，在三維空間中保留了原始的幾何信息，不需要任何離散化。因此，它是許多場景理解相關(guān)應(yīng)用（如自動駕駛和機(jī)器人）的首選表示。近年來，深度學(xué)習(xí)技術(shù)已成為計算機(jī)視覺、語音識別、自然語言處理、生物信息學(xué)等領(lǐng)域的研究熱點(diǎn)，然而，三維點(diǎn)云的深度學(xué)習(xí)仍然面臨著數(shù)據(jù)集規(guī)模小、維數(shù)高、非結(jié)構(gòu)化等諸多挑戰(zhàn)三維點(diǎn)云。在此基礎(chǔ)上，本文對基于點(diǎn)云數(shù)據(jù)下的深度學(xué)習(xí)方法最新進(jìn)展做了詳解，內(nèi)容包括三維形狀分類、三維目標(biāo)檢測與跟蹤、三維點(diǎn)云分割三大任務(wù)。

3D點(diǎn)云形狀識別

這些方法通常先學(xué)習(xí)每個點(diǎn)的embedding，然后使用聚集方法從整個點(diǎn)云中提取全局形狀embedding，最后通過幾個完全連接的層來實(shí)現(xiàn)分類?；谠诿總€點(diǎn)上進(jìn)行特征學(xué)習(xí)的方法，現(xiàn)有的3D形狀分類可分為基于投影的網(wǎng)絡(luò)和point-based的網(wǎng)絡(luò)。基于投影的方法首先將一個非結(jié)構(gòu)化點(diǎn)云投影到一個中間正則表示中，然后利用建立良好的二維或三維卷積來實(shí)現(xiàn)形狀分類。相比之下，基于點(diǎn)的方法直接作用于原始點(diǎn)云，而無需任何體素化或投影?；邳c(diǎn)的方法沒有引入顯式的信息丟失，并且越來越流行。

基于投影的方法

這些方法首先將三維物體投影到多個視圖中，提取相應(yīng)的視圖特征，然后融合這些特征進(jìn)行精確的物體識別。如何將多個視圖特征聚合為一個有區(qū)別的全局表示是一個關(guān)鍵的挑戰(zhàn)。該類方法主要包括：

MVCNN
MHBN
Learningrelationships for multi-view 3D object recognition
Volumetric andmulti-view CNNs for object classification
GVCNN: Groupviewconvolutional neural networks for 3D shape recognition
Dominant setclustering and pooling for multi-view 3D object recognition
Learningmulti-view representation with LSTM for 3D shape recognition and retrieval

除此之外，還有一些對3D點(diǎn)云進(jìn)行volumetric representation，主要包括：

VoxNet
3D shapenets: Adeep representation for volumetric shapes
OctNet: Learning deep3D representations at high resolutions
OCNN:Octree-based convolutional neural networks for 3D shape analysis
Pointgrid: A deepnetwork for 3d shape understanding

Point-based網(wǎng)絡(luò)

根據(jù)用于每個點(diǎn)特征學(xué)習(xí)的網(wǎng)絡(luò)體系結(jié)構(gòu)，該類方法可分為逐點(diǎn)MLP、卷積方式、基于Graph、基于數(shù)據(jù)索引的網(wǎng)絡(luò)和其他典型網(wǎng)絡(luò)。網(wǎng)絡(luò)匯總?cè)缦卤硭荆?/span>

3D點(diǎn)云目標(biāo)檢測與跟蹤

3D目標(biāo)檢測

三維目標(biāo)檢測的任務(wù)是精確地定位給定場景中所有感興趣的目標(biāo)。類似于圖像中的目標(biāo)檢測，三維目標(biāo)檢測方法可以分為兩類：region proposal-based methods 和 single shotmethods。

針對region proposal-based methods：這些方法首先提出幾個可能包含對象的區(qū)域（也稱為proposal），然后提取區(qū)域特征來確定每個proposal的類別標(biāo)簽。根據(jù)它們的proposal生成方法，這些方法可以進(jìn)一步分為三類：基于多視圖的方法、基于分割的方法和基于frustum的方法。

針對single shot methods：這些方法直接預(yù)測類別概率，并使用單級網(wǎng)絡(luò)回歸物體的三維bounding box。這些方法不需要region proposal和后處理。因此，它們可以高速運(yùn)行，非常適合實(shí)時應(yīng)用。根據(jù)輸入數(shù)據(jù)的類型，又可以分為兩類：基于BEV（投影圖）的方法和基于點(diǎn)云的方法。

兩種方式的網(wǎng)絡(luò)匯總：

3D目標(biāo)跟蹤

給定對象在第一幀中的位置，對象跟蹤的任務(wù)是估計其在隨后幀中的狀態(tài)。由于三維目標(biāo)跟蹤可以利用點(diǎn)云中豐富的幾何信息，因此有望克服二維圖像跟蹤所面臨的遮擋、光照和尺度變化等缺點(diǎn)。主要方法包括：

Leveraging shape completion for3D siamese tracking
Context-aware correlationfilter tracking
Efficient tracking proposalsusing 2D-3D siamese networks
Complexer-YOLO: Real-time 3Dobject detection and tracking

除了上述方式，還有一些基于光流思想的跟蹤算法。類似于二維視覺中的光流估計，已有多種方法開始從點(diǎn)云序列中學(xué)習(xí)有用信息（如三維場景流、空間臨時信息），主要包括：

Flownet3D: Learning scene flowin 3D point clouds
FlowNet3D++: Geometric lossesfor deep scene flow estimation
HPLFlowNet: Hierarchicalpermutohedral lattice flownet for scene flow estimation
PointRNN: Point recurrentneural network for moving point cloud processing
MeteorNet: Deep learning on dynamic 3D point cloud sequences
Just go with the flow:Self-supervised scene flow estimation

3D點(diǎn)云分割

三維點(diǎn)云分割需要了解全局幾何結(jié)構(gòu)和每個點(diǎn)的細(xì)粒度細(xì)節(jié)。根據(jù)分割粒度，三維點(diǎn)云分割方法可分為三類：語義分割（場景級）、實(shí)例分割（對象級）和部件分割（部件級）。

語義分割

語義分割是基于場景級別，主要包括基于投影和基于點(diǎn)的方法。

針對投影方式的分割算法：主要包括Multi-viewRepresentation、Spherical Representation、Volumetric Representation、PermutohedralLattice Representation、Hybrid Representation五種方式，下圖對近期的分割網(wǎng)絡(luò)進(jìn)行了匯總：

針對基于point方式的分割算法：基于點(diǎn)的網(wǎng)絡(luò)直接作用于不規(guī)則點(diǎn)云。然而，點(diǎn)云是無秩序的、非結(jié)構(gòu)化的，直接應(yīng)用標(biāo)準(zhǔn)CNN是不可行的。為此，提出了開創(chuàng)性的PointNet來學(xué)習(xí)使用共享MLP的逐點(diǎn)特征和使用對稱池函數(shù)的全局特征?；谠撍枷?，后期的方法大致可以分為點(diǎn)MLP方法、點(diǎn)卷積方法、基于RNN的方法和基于圖的方法。針對近期point-based分割網(wǎng)絡(luò)，下表進(jìn)行了詳細(xì)的匯總：

實(shí)例分割

與語義分割相比，實(shí)例分割更具挑戰(zhàn)性，因?yàn)樗枰獙c(diǎn)進(jìn)行更精確、更精細(xì)的推理。特別是，它不僅要區(qū)分語義不同的點(diǎn)，而且要區(qū)分語義相同的實(shí)例?？偟膩碚f，現(xiàn)有的方法可以分為兩類：基于proposal的方法和proposal-free的方法。

基于proposal的方式將實(shí)例分割問題轉(zhuǎn)化為兩個子任務(wù)：三維目標(biāo)檢測和實(shí)例掩碼預(yù)測。而基于proposal-free的方式?jīng)]有對象檢測模塊，相反，這類方法通常將實(shí)例分割視為語義分割之后的后續(xù)聚類步驟。特別地，大多數(shù)現(xiàn)有的方法是基于假設(shè)屬于相同實(shí)例的點(diǎn)應(yīng)該具有非常相似的特征。因此，這些方法主要集中在鑒別特征學(xué)習(xí)和點(diǎn)分組兩個方面。兩種方式的網(wǎng)絡(luò)匯總?cè)缦滤荆?/span>

部件分割（Part Segmentation）

三維形狀的部件分割有兩個難點(diǎn)。首先，具有相同語義標(biāo)簽的形狀零件具有較大的幾何變化和模糊性。其次，該方法對噪聲和采樣應(yīng)該具有魯棒性?，F(xiàn)有算法主要包括：

VoxSegNet: Volumetric CNNs forsemantic part segmentation of 3D shapes
3D shape segmentation withprojective convolutional networks
SyncSpecCNN: Synchronizedspectral CNN for 3D shape segmentation
3D shape segmentation via shapefully convolutional networks
CoSegNet: Deep co-segmentationof 3D shapes with group consistency loss

本文參考：https://arxiv.org/pdf/1912.12033.pdf

下載1：OpenCV-Contrib擴(kuò)展模塊中文版教程

在「小白學(xué)視覺」公眾號后臺回復(fù)：擴(kuò)展模塊中文教程，即可下載全網(wǎng)第一份OpenCV擴(kuò)展模塊教程中文版，涵蓋擴(kuò)展模塊安裝、SFM算法、立體視覺、目標(biāo)跟蹤、生物視覺、超分辨率處理等二十多章內(nèi)容。

下載2：Python視覺實(shí)戰(zhàn)項(xiàng)目52講

在「小白學(xué)視覺」公眾號后臺回復(fù)：Python視覺實(shí)戰(zhàn)項(xiàng)目，即可下載包括圖像分割、口罩檢測、車道線檢測、車輛計數(shù)、添加眼線、車牌識別、字符識別、情緒檢測、文本內(nèi)容提取、面部識別等31個視覺實(shí)戰(zhàn)項(xiàng)目，助力快速學(xué)校計算機(jī)視覺。

下載3：OpenCV實(shí)戰(zhàn)項(xiàng)目20講

在「小白學(xué)視覺」公眾號后臺回復(fù)：OpenCV實(shí)戰(zhàn)項(xiàng)目20講，即可下載含有20個基于OpenCV實(shí)現(xiàn)20個實(shí)戰(zhàn)項(xiàng)目，實(shí)現(xiàn)OpenCV學(xué)習(xí)進(jìn)階。

交流群

歡迎加入公眾號讀者群一起和同行交流，目前有SLAM、三維視覺、傳感器、自動駕駛、計算攝影、檢測、分割、識別、醫(yī)學(xué)影像、GAN、算法競賽等微信群（以后會逐漸細(xì)分），請掃描下面微信號加群，備注：”昵稱+學(xué)校/公司+研究方向“，例如：”張三 + 上海交大 + 視覺SLAM“。請按照格式備注，否則不予通過。添加成功后會根據(jù)研究方向邀請進(jìn)入相關(guān)微信群。請勿在群內(nèi)發(fā)送廣告，否則會請出群，謝謝理解~

匯總|基于3D點(diǎn)云的深度學(xué)習(xí)方法

前言