清華團(tuán)隊將Transformer用到3D點(diǎn)云分割
點(diǎn)擊上方“小白學(xué)視覺”,選擇加"星標(biāo)"或“置頂”
重磅干貨,第一時間送達(dá)
當(dāng)Transformer遇上3D點(diǎn)云,效果會怎么樣?
一個是當(dāng)下最熱門的模型(NLP、圖像領(lǐng)域表現(xiàn)都不錯),另一個是自動駕駛領(lǐng)域、機(jī)器人抓取等領(lǐng)域的關(guān)鍵技術(shù)。

來自清華計算機(jī)系的團(tuán)隊,開發(fā)出了一個全新的PCT網(wǎng)絡(luò),相比于目前主流的點(diǎn)云分割模型PointNet,不僅參數(shù)量減少,準(zhǔn)確度還從89.2%提升到了93.2%。

而且,相比于主流的點(diǎn)云分割網(wǎng)絡(luò)PointNet,分割的邊緣明顯更清晰:

但將Transformer推廣到3D點(diǎn)云,相關(guān)研究還非常少。
為此,團(tuán)隊自己做出了一種Transformer模型,并創(chuàng)新了其中的一些結(jié)構(gòu),將之適配到了點(diǎn)云上
點(diǎn)云是一個坐標(biāo)系下點(diǎn)的數(shù)據(jù)集,包括坐標(biāo)、顏色、強(qiáng)度等多種信息。

而3D點(diǎn)云,則是用點(diǎn)云表示三維世界的一種方法,可以想象成將三維物體進(jìn)行原子化,用多個點(diǎn)來表示一種物體。
之所以3D建模采用點(diǎn)云這種方法,是因為它不僅建模速度快,而且精度高、細(xì)節(jié)更準(zhǔn)確。
點(diǎn)云的生成方法,也符合激光雷達(dá)收集數(shù)據(jù)的特性,目前已經(jīng)被用于自動駕駛技術(shù)中。

那么,為什么要用Transformer生成點(diǎn)云呢?
由于點(diǎn)云數(shù)據(jù)自身的不規(guī)則性和無序性,此前無法直接用卷積神經(jīng)網(wǎng)絡(luò)對點(diǎn)云進(jìn)行處理。
如果想用深度學(xué)習(xí)處理點(diǎn)云相關(guān)的任務(wù),就會非常不方便。
但當(dāng)研究者們將目光放到Transformer上時,發(fā)現(xiàn)它的核心注意力機(jī)制,本身其實非常適合處理點(diǎn)云。

點(diǎn)云處理,需要設(shè)計一種排列不變、且不依賴于點(diǎn)之間連接關(guān)系的算子;注意力機(jī)制本身,就是這種算子。
加之Transformer在之前的圖像任務(wù)上,都已經(jīng)取得了非常不錯的性能,用來做點(diǎn)云的話,說不定效果也不錯。
因此,團(tuán)隊開發(fā)了一個名叫PCT(Point Cloud Transformer)的點(diǎn)云Transformer,成功實踐了這一點(diǎn)。

網(wǎng)絡(luò)結(jié)構(gòu)整體分為三部分:輸入嵌入、注意力層和分類分割。
輸入嵌入部分的目的,是將點(diǎn)云從歐式空間xyz映射到128維空間。這里分為兩種嵌入的方式,點(diǎn)嵌入和鄰域嵌入,點(diǎn)嵌入負(fù)責(zé)單點(diǎn)信息,鄰域嵌入則負(fù)責(zé)單點(diǎn)和鄰域信息。
在注意力層中,作者采用了自注意力(self-attention)機(jī)制和偏置注意力(offset-attention)機(jī)制。
其中,offset-attention也是這篇論文的創(chuàng)新之處,作者為了讓Transformer的注意力機(jī)制能更好地作用于點(diǎn)云,提出了這種注意力機(jī)制,性能要比自注意力機(jī)制更好。

而在分類分割操作上,作者選擇對經(jīng)過注意力層后的特征直接進(jìn)行池化(采樣),再分別進(jìn)行分類和分割的下一步操作。
那么,這樣的網(wǎng)絡(luò)結(jié)構(gòu),是否效果真如想象中那么好?
事實上,從分類和分割的效果上來看,圖像做得都還不錯。
先看分類的效果,在ModelNet40數(shù)據(jù)集上的分類結(jié)果表明,PCT的分類精度可以達(dá)到93.2%,超越了目前所有點(diǎn)云的分類模型。

而在3D點(diǎn)云分割的效果上,模型做得也不錯。
從注意力圖(attention map,標(biāo)量矩陣,查看層的重要性)的可視化來看,模型分割的邊緣和形狀也很清晰。

那么,與其他網(wǎng)絡(luò)對比的分割效果如何呢?
下圖是PCT與其他網(wǎng)絡(luò)對比的效果。

從16類列出的物體檢測精確度來看,PCT的效果達(dá)到了86.4%的水平,超過了目前所有3D點(diǎn)云分割的最新模型,同樣達(dá)到了SOTA。
至于模型參數(shù),最終的結(jié)果也非常不錯。

其中參數(shù)最大的PCT,精度也達(dá)到了最高的93.2%,如果更側(cè)重于小型參數(shù)量,那么NPCT和SPCT則在1.36M參數(shù)的情況下,精確度分別達(dá)到了91%和92%。
從實際對比情況來看,三種PCT網(wǎng)絡(luò)結(jié)構(gòu)的分割效果,都要比PointNet的效果好得多(最右邊為初始模型)。

6名作者來自清華大學(xué)胡事民團(tuán)隊,卡迪夫大學(xué)。
清華大學(xué)計算機(jī)系的圖形學(xué)實驗室成立于1998年3月,相關(guān)論文曾多次在ACM SIGGRAPH、IEEE CVPR等重要國際刊物上發(fā)表。
實驗室目前的主要研究方向為計算機(jī)圖形學(xué)、計算機(jī)視覺、智能信息處理、智能機(jī)器人、系統(tǒng)軟件等。

一作國孟昊,清華大學(xué)CS博士在讀,來自胡事民團(tuán)隊。
國孟昊曾經(jīng)是西安電子科技大學(xué)軟件工程2016級本科生,大二曾獲ACM金牌,數(shù)學(xué)建模美賽一等獎,在騰訊、商湯實習(xí)過。
目前,這一模型的相關(guān)代碼已經(jīng)開源,感興趣的小伙伴可以戳文末地址查看~
PCT論文地址:
https://arxiv.org/abs/2012.09688
PCT項目地址:
https://github.com/MenghaoGuo/PCT
交流群
歡迎加入公眾號讀者群一起和同行交流,目前有SLAM、三維視覺、傳感器、自動駕駛、計算攝影、檢測、分割、識別、醫(yī)學(xué)影像、GAN、算法競賽等微信群(以后會逐漸細(xì)分),請掃描下面微信號加群,備注:”昵稱+學(xué)校/公司+研究方向“,例如:”張三?+?上海交大?+?視覺SLAM“。請按照格式備注,否則不予通過。添加成功后會根據(jù)研究方向邀請進(jìn)入相關(guān)微信群。請勿在群內(nèi)發(fā)送廣告,否則會請出群,謝謝理解~

