點(diǎn)擊上方“小白學(xué)視覺”,選擇加"星標(biāo)"或“置頂”
重磅干貨,第一時間送達(dá)

前言
三維數(shù)據(jù)通??梢杂貌煌母袷奖硎?,包括深度圖像、點(diǎn)云、網(wǎng)格和體積網(wǎng)格。點(diǎn)云表示作為一種常用的表示格式,在三維空間中保留了原始的幾何信息,不需要任何離散化。因此,它是許多場景理解相關(guān)應(yīng)用(如自動駕駛和機(jī)器人)的首選表示。近年來,深度學(xué)習(xí)技術(shù)已成為計算機(jī)視覺、語音識別、自然語言處理、生物信息學(xué)等領(lǐng)域的研究熱點(diǎn),然而,三維點(diǎn)云的深度學(xué)習(xí)仍然面臨著數(shù)據(jù)集規(guī)模小、維數(shù)高、非結(jié)構(gòu)化等諸多挑戰(zhàn)三維點(diǎn)云。在此基礎(chǔ)上,本文對基于點(diǎn)云數(shù)據(jù)下的深度學(xué)習(xí)方法最新進(jìn)展做了詳解,內(nèi)容包括三維形狀分類、三維目標(biāo)檢測與跟蹤、三維點(diǎn)云分割三大任務(wù)。3D點(diǎn)云形狀識別
這些方法通常先學(xué)習(xí)每個點(diǎn)的embedding,然后使用聚集方法從整個點(diǎn)云中提取全局形狀embedding,最后通過幾個完全連接的層來實(shí)現(xiàn)分類?;谠诿總€點(diǎn)上進(jìn)行特征學(xué)習(xí)的方法,現(xiàn)有的3D形狀分類可分為基于投影的網(wǎng)絡(luò)和point-based的網(wǎng)絡(luò)。基于投影的方法首先將一個非結(jié)構(gòu)化點(diǎn)云投影到一個中間正則表示中,然后利用建立良好的二維或三維卷積來實(shí)現(xiàn)形狀分類。相比之下,基于點(diǎn)的方法直接作用于原始點(diǎn)云,而無需任何體素化或投影?;邳c(diǎn)的方法沒有引入顯式的信息丟失,并且越來越流行。基于投影的方法
這些方法首先將三維物體投影到多個視圖中,提取相應(yīng)的視圖特征,然后融合這些特征進(jìn)行精確的物體識別。如何將多個視圖特征聚合為一個有區(qū)別的全局表示是一個關(guān)鍵的挑戰(zhàn)。該類方法主要包括:- Learningrelationships for multi-view 3D object recognition
- Volumetric andmulti-view CNNs for object classification
- GVCNN: Groupviewconvolutional neural networks for 3D shape recognition
- Dominant setclustering and pooling for multi-view 3D object recognition
- Learningmulti-view representation with LSTM for 3D shape recognition and retrieval
除此之外,還有一些對3D點(diǎn)云進(jìn)行volumetric representation,主要包括:- 3D shapenets: Adeep representation for volumetric shapes
- OctNet: Learning deep3D representations at high resolutions
- OCNN:Octree-based convolutional neural networks for 3D shape analysis
- Pointgrid: A deepnetwork for 3d shape understanding
Point-based網(wǎng)絡(luò)
根據(jù)用于每個點(diǎn)特征學(xué)習(xí)的網(wǎng)絡(luò)體系結(jié)構(gòu),該類方法可分為逐點(diǎn)MLP、卷積方式、基于Graph、基于數(shù)據(jù)索引的網(wǎng)絡(luò)和其他典型網(wǎng)絡(luò)。網(wǎng)絡(luò)匯總?cè)缦卤硭荆?/span>3D點(diǎn)云目標(biāo)檢測與跟蹤
3D目標(biāo)檢測
三維目標(biāo)檢測的任務(wù)是精確地定位給定場景中所有感興趣的目標(biāo)。類似于圖像中的目標(biāo)檢測,三維目標(biāo)檢測方法可以分為兩類:region proposal-based methods 和 single shotmethods。針對region proposal-based methods:這些方法首先提出幾個可能包含對象的區(qū)域(也稱為proposal),然后提取區(qū)域特征來確定每個proposal的類別標(biāo)簽。根據(jù)它們的proposal生成方法,這些方法可以進(jìn)一步分為三類:基于多視圖的方法、基于分割的方法和基于frustum的方法。
針對single shot methods:這些方法直接預(yù)測類別概率,并使用單級網(wǎng)絡(luò)回歸物體的三維bounding box。這些方法不需要region proposal和后處理。因此,它們可以高速運(yùn)行,非常適合實(shí)時應(yīng)用。根據(jù)輸入數(shù)據(jù)的類型,又可以分為兩類:基于BEV(投影圖)的方法和基于點(diǎn)云的方法。3D目標(biāo)跟蹤
給定對象在第一幀中的位置,對象跟蹤的任務(wù)是估計其在隨后幀中的狀態(tài)。由于三維目標(biāo)跟蹤可以利用點(diǎn)云中豐富的幾何信息,因此有望克服二維圖像跟蹤所面臨的遮擋、光照和尺度變化等缺點(diǎn)。主要方法包括:- Leveraging shape completion for3D siamese tracking
- Context-aware correlationfilter tracking
- Efficient tracking proposalsusing 2D-3D siamese networks
- Complexer-YOLO: Real-time 3Dobject detection and tracking
除了上述方式,還有一些基于光流思想的跟蹤算法。類似于二維視覺中的光流估計,已有多種方法開始從點(diǎn)云序列中學(xué)習(xí)有用信息(如三維場景流、空間臨時信息),主要包括:- Flownet3D: Learning scene flowin 3D point clouds
- FlowNet3D++: Geometric lossesfor deep scene flow estimation
- HPLFlowNet: Hierarchicalpermutohedral lattice flownet for scene flow estimation
- PointRNN: Point recurrentneural network for moving point cloud processing
- MeteorNet: Deep learning on dynamic 3D point cloud sequences
- Just go with the flow:Self-supervised scene flow estimation
3D點(diǎn)云分割
三維點(diǎn)云分割需要了解全局幾何結(jié)構(gòu)和每個點(diǎn)的細(xì)粒度細(xì)節(jié)。根據(jù)分割粒度,三維點(diǎn)云分割方法可分為三類:語義分割(場景級)、實(shí)例分割(對象級)和部件分割(部件級)。語義分割
語義分割是基于場景級別,主要包括基于投影和基于點(diǎn)的方法。針對投影方式的分割算法:主要包括Multi-viewRepresentation、Spherical Representation、Volumetric Representation、PermutohedralLattice Representation、Hybrid Representation五種方式,下圖對近期的分割網(wǎng)絡(luò)進(jìn)行了匯總:
針對基于point方式的分割算法:基于點(diǎn)的網(wǎng)絡(luò)直接作用于不規(guī)則點(diǎn)云。然而,點(diǎn)云是無秩序的、非結(jié)構(gòu)化的,直接應(yīng)用標(biāo)準(zhǔn)CNN是不可行的。為此,提出了開創(chuàng)性的PointNet來學(xué)習(xí)使用共享MLP的逐點(diǎn)特征和使用對稱池函數(shù)的全局特征?;谠撍枷?,后期的方法大致可以分為點(diǎn)MLP方法、點(diǎn)卷積方法、基于RNN的方法和基于圖的方法。針對近期point-based分割網(wǎng)絡(luò),下表進(jìn)行了詳細(xì)的匯總:實(shí)例分割
與語義分割相比,實(shí)例分割更具挑戰(zhàn)性,因?yàn)樗枰獙c(diǎn)進(jìn)行更精確、更精細(xì)的推理。特別是,它不僅要區(qū)分語義不同的點(diǎn),而且要區(qū)分語義相同的實(shí)例??偟膩碚f,現(xiàn)有的方法可以分為兩類:基于proposal的方法和proposal-free的方法。基于proposal的方式將實(shí)例分割問題轉(zhuǎn)化為兩個子任務(wù):三維目標(biāo)檢測和實(shí)例掩碼預(yù)測。而基于proposal-free的方式?jīng)]有對象檢測模塊,相反,這類方法通常將實(shí)例分割視為語義分割之后的后續(xù)聚類步驟。特別地,大多數(shù)現(xiàn)有的方法是基于假設(shè)屬于相同實(shí)例的點(diǎn)應(yīng)該具有非常相似的特征。因此,這些方法主要集中在鑒別特征學(xué)習(xí)和點(diǎn)分組兩個方面。兩種方式的網(wǎng)絡(luò)匯總?cè)缦滤荆?/span>部件分割(Part Segmentation)
三維形狀的部件分割有兩個難點(diǎn)。首先,具有相同語義標(biāo)簽的形狀零件具有較大的幾何變化和模糊性。其次,該方法對噪聲和采樣應(yīng)該具有魯棒性?,F(xiàn)有算法主要包括:- VoxSegNet: Volumetric CNNs forsemantic part segmentation of 3D shapes
- 3D shape segmentation withprojective convolutional networks
- SyncSpecCNN: Synchronizedspectral CNN for 3D shape segmentation
- 3D shape segmentation via shapefully convolutional networks
- CoSegNet: Deep co-segmentationof 3D shapes with group consistency loss
本文參考:https://arxiv.org/pdf/1912.12033.pdf下載1:OpenCV-Contrib擴(kuò)展模塊中文版教程
在「小白學(xué)視覺」公眾號后臺回復(fù):擴(kuò)展模塊中文教程,即可下載全網(wǎng)第一份OpenCV擴(kuò)展模塊教程中文版,涵蓋擴(kuò)展模塊安裝、SFM算法、立體視覺、目標(biāo)跟蹤、生物視覺、超分辨率處理等二十多章內(nèi)容。下載2:Python視覺實(shí)戰(zhàn)項(xiàng)目52講在「小白學(xué)視覺」公眾號后臺回復(fù):Python視覺實(shí)戰(zhàn)項(xiàng)目,即可下載包括圖像分割、口罩檢測、車道線檢測、車輛計數(shù)、添加眼線、車牌識別、字符識別、情緒檢測、文本內(nèi)容提取、面部識別等31個視覺實(shí)戰(zhàn)項(xiàng)目,助力快速學(xué)校計算機(jī)視覺。下載3:OpenCV實(shí)戰(zhàn)項(xiàng)目20講在「小白學(xué)視覺」公眾號后臺回復(fù):OpenCV實(shí)戰(zhàn)項(xiàng)目20講,即可下載含有20個基于OpenCV實(shí)現(xiàn)20個實(shí)戰(zhàn)項(xiàng)目,實(shí)現(xiàn)OpenCV學(xué)習(xí)進(jìn)階。交流群
歡迎加入公眾號讀者群一起和同行交流,目前有SLAM、三維視覺、傳感器、自動駕駛、計算攝影、檢測、分割、識別、醫(yī)學(xué)影像、GAN、算法競賽等微信群(以后會逐漸細(xì)分),請掃描下面微信號加群,備注:”昵稱+學(xué)校/公司+研究方向“,例如:”張三 + 上海交大 + 視覺SLAM“。請按照格式備注,否則不予通過。添加成功后會根據(jù)研究方向邀請進(jìn)入相關(guān)微信群。請勿在群內(nèi)發(fā)送廣告,否則會請出群,謝謝理解~