亚州三级视频,无码一区二区三,超碰在线进入,中文字幕国产在线,欧美一级片在线电影,免费黄色成人网址,精品黄片免费看,无码一区二区三区三

點擊上方“小白學視覺”，選擇加"星標"或“置頂”

重磅干貨，第一時間送達

在過去的幾年里，像微軟Kinect或Asus Xtion傳感器這樣，既能提供彩色圖像又能提供密集深度圖像的新型相機系統(tǒng)變得唾手可得。人們對此類系統(tǒng)的期望很高，它們將推動機器人技術和視覺與增強現(xiàn)實領域中基于3D感知的新應用。

三維深度學習方法已經(jīng)從使用三維數(shù)據(jù)的派生表示轉變?yōu)橹苯邮褂迷紨?shù)據(jù)。在方法方面，將二維卷積神經(jīng)網(wǎng)絡應用于三維數(shù)據(jù)已轉化為專門為三維場景設計的方法，這大大提高了對象分類和語義分割等任務的性能。

本文將重點介紹最近的三維對象分類和語義分割。我們將首先回顧一些獲取和表示三維數(shù)據(jù)的常用方法的背景，接下來，介紹三種不同的基本三維數(shù)據(jù)表示方法。最后，我們將介紹未來有希望的新研究方向，并從我們的角度總結該領域的未來方向。

三維表示

獲取三維數(shù)據(jù)后，需要將其表示為一種形式，作為正在構建的處理流的輸入。

以下是常見的四種表述：

(a) 點云；(b) 體素網(wǎng)格；(c) 三角網(wǎng)格；(d) 多視圖表示

1、點云是三維空間中點的集合；每個點由某個（x、y、z）位置確定，我們還可以為其指定其他屬性（如RGB顏色）。

2、體素網(wǎng)格是從點云發(fā)展而來的，體素類似于三維空間中的像素。

3、多邊形網(wǎng)格由一組具有公共頂點的凸多邊形曲面組成，這些曲面可以近似于幾何曲面。

4、多視圖表示是從不同模擬視角獲得的渲染二維多邊形網(wǎng)格圖像的集合。

多視圖表示是將深度學習模型應用于三維場景的最簡單方法。該問題已轉化為二維問題，但它仍允許在一定程度上對三維幾何結構進行推理。這一思想的早期應用基于[1]一種簡單但非常有效的網(wǎng)絡體系結構，它可以從三維對象的多個二維視圖中學習特征描述符。在預先訓練好的VGG網(wǎng)絡中逐個輸入圖像，以提取顯著特征，組合這些結果向量，并將這些信息傳遞給剩余的卷積層以進行進一步的特征學習。

固定數(shù)量的二維視圖仍然只是底層三維結構的不完美近似。由于從二維圖像獲得的特征信息有限，語義分割等任務，尤其是在跨越更復雜的對象和場景時，變得更具挑戰(zhàn)性，這些缺點促使人們研究直接使用三維數(shù)據(jù)進行學習的方法。

通過體素網(wǎng)格學習可以解決多視圖表示的主要缺點。體素網(wǎng)格縮小了2D和3D之間的差距。它們是圖像最接近的三維表示，這使得二維DL概念很容易應用于三維場景。

Maturana和Scherer于2015年提出的VoxNet[2]是第一個在具有給定體素網(wǎng)格的對象分類任務上實現(xiàn)優(yōu)異性能的VoxNet，VoxNet使用概率占用網(wǎng)格，其中每個體素包含體素在空間中被占用的概率。這樣做的一個優(yōu)點是，它允許網(wǎng)絡區(qū)分已知為自由的體素和占用率未知的體素。

該體系結構由兩個卷積層和一個池層組成，兩個完全連接的層用于計算輸出類別得分向量。VoxNet代表著邁向真正3D學習的一大步，但體素網(wǎng)格仍有一些缺點。首先，與點云相比，它們失去了分辨率。因為如果表示復雜結構的不同點非常接近，它們將綁定在同一個體素中。同時，與稀疏環(huán)境中的點云相比，體素網(wǎng)格可能會導致不必要的高內存使用率，這是因為它們主動消耗內存來表示空閑和未知空間，而點云只包含已知點。

考慮到使用基于體素的方法的問題，最近的工作集中在直接對原始點云數(shù)據(jù)進行操作的架構上。Qi等人于2016年提出的PointNet是處理這種不規(guī)則3D數(shù)據(jù)的最早方法。當我們在點云中給定N個點時，網(wǎng)絡需要學習一個獨特的特征，該特征相對于這些N個輸入點的完整排列是恒定的，因為這些輸入為神經(jīng)網(wǎng)絡提供了點的順序，而不影響基礎幾何結構。此外，網(wǎng)絡應對點云旋轉、平移和其他變換具有魯棒性，縮放操作不應影響預測結果。

為了解決學習點云幾何變換不變表示的問題，PointNet使用了一個稱為T-Net的小型網(wǎng)絡，該網(wǎng)絡將仿射變換應用于輸入點云。這個概念類似于空間變換網(wǎng)絡，但要簡單得多，因為不需要定義新類型的層。T-Net是一個可學習的參數(shù)組合，這些參數(shù)使PointNet能夠將輸入點云轉換為固定和標準化的空間，從而確保整個網(wǎng)絡對即使是最細微的變化也具有魯棒性。

整個PointNet體系結構繼承了最基本的方法、T-Net和多層，它們?yōu)辄c云創(chuàng)建特征表示。然而，除了對象分類之外，PointNet還支持對象和場景的語義分割。

結論

在過去的 5 年中，3D 深度學習方法已經(jīng)從使用 3D 數(shù)據(jù)的派生表示轉變?yōu)槭褂迷紨?shù)據(jù)。在這個過程中，我們采用的方法已經(jīng)從簡單的卷積神經(jīng)網(wǎng)絡應用于3D數(shù)據(jù)轉變?yōu)閷ｉT為3D場景設計的方法，極大地提高了對象分類和語義分割等任務的性能。

在過去的5年中，三維深度學習方法已經(jīng)從使用三維數(shù)據(jù)的派生表示法轉變?yōu)槭褂迷紨?shù)據(jù)。在這個過程中，我們采用的方法已經(jīng)從簡單的應用于三維數(shù)據(jù)的卷積神經(jīng)網(wǎng)絡轉變?yōu)閷ｉT為三維場景設計的方法，這大大提高了對象分類和語義分割等任務的性能。

參考

[1] Multi-view Convolutional Neural Networks for 3D Shape Recognition

[2] VoxNet: A 3D Convolutional Neural Network for Real-Time Object Recognition (2015)

[3] PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation

好消息，小白學視覺團隊的知識星球開通啦，為了感謝大家的支持與厚愛，團隊決定將價值149元的知識星球現(xiàn)時免費加入。各位小伙伴們要抓住機會哦！

下載1：OpenCV-Contrib擴展模塊中文版教程

在「小白學視覺」公眾號后臺回復：擴展模塊中文教程，即可下載全網(wǎng)第一份OpenCV擴展模塊教程中文版，涵蓋擴展模塊安裝、SFM算法、立體視覺、目標跟蹤、生物視覺、超分辨率處理等二十多章內容。

下載2：Python視覺實戰(zhàn)項目52講

在「小白學視覺」公眾號后臺回復：Python視覺實戰(zhàn)項目，即可下載包括圖像分割、口罩檢測、車道線檢測、車輛計數(shù)、添加眼線、車牌識別、字符識別、情緒檢測、文本內容提取、面部識別等31個視覺實戰(zhàn)項目，助力快速學校計算機視覺。

下載3：OpenCV實戰(zhàn)項目20講

在「小白學視覺」公眾號后臺回復：OpenCV實戰(zhàn)項目20講，即可下載含有20個基于OpenCV實現(xiàn)20個實戰(zhàn)項目，實現(xiàn)OpenCV學習進階。

交流群

歡迎加入公眾號讀者群一起和同行交流，目前有SLAM、三維視覺、傳感器、自動駕駛、計算攝影、檢測、分割、識別、醫(yī)學影像、GAN、算法競賽等微信群（以后會逐漸細分），請掃描下面微信號加群，備注：”昵稱+學校/公司+研究方向“，例如：”張三 + 上海交大 + 視覺SLAM“。請按照格式備注，否則不予通過。添加成功后會根據(jù)研究方向邀請進入相關微信群。請勿在群內發(fā)送廣告，否則會請出群，謝謝理解~

3D深度學習簡介