<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          清華團(tuán)隊將Transformer用到3D點(diǎn)云分割

          共 2535字,需瀏覽 6分鐘

           ·

          2021-10-26 13:46

          點(diǎn)擊上方小白學(xué)視覺”,選擇加"星標(biāo)"或“置頂

          重磅干貨,第一時間送達(dá)

          當(dāng)Transformer遇上3D點(diǎn)云,效果會怎么樣?

          一個是當(dāng)下最熱門的模型(NLP、圖像領(lǐng)域表現(xiàn)都不錯),另一個是自動駕駛領(lǐng)域、機(jī)器人抓取等領(lǐng)域的關(guān)鍵技術(shù)。

          來自清華計算機(jī)系的團(tuán)隊,開發(fā)出了一個全新的PCT網(wǎng)絡(luò),相比于目前主流的點(diǎn)云分割模型PointNet,不僅參數(shù)量減少,準(zhǔn)確度還從89.2%提升到了93.2%

          而且,相比于主流的點(diǎn)云分割網(wǎng)絡(luò)PointNet,分割的邊緣明顯更清晰:

          但將Transformer推廣到3D點(diǎn)云,相關(guān)研究還非常少。

          為此,團(tuán)隊自己做出了一種Transformer模型,并創(chuàng)新了其中的一些結(jié)構(gòu),將之適配到了點(diǎn)云上

          將Transformer推廣到點(diǎn)云上

          點(diǎn)云是一個坐標(biāo)系下點(diǎn)的數(shù)據(jù)集,包括坐標(biāo)、顏色、強(qiáng)度等多種信息。

          而3D點(diǎn)云,則是用點(diǎn)云表示三維世界的一種方法,可以想象成將三維物體進(jìn)行原子化,用多個點(diǎn)來表示一種物體。

          之所以3D建模采用點(diǎn)云這種方法,是因為它不僅建模速度快,而且精度高、細(xì)節(jié)更準(zhǔn)確。

          點(diǎn)云的生成方法,也符合激光雷達(dá)收集數(shù)據(jù)的特性,目前已經(jīng)被用于自動駕駛技術(shù)中。

          那么,為什么要用Transformer生成點(diǎn)云呢?

          由于點(diǎn)云數(shù)據(jù)自身的不規(guī)則性和無序性,此前無法直接用卷積神經(jīng)網(wǎng)絡(luò)對點(diǎn)云進(jìn)行處理。

          如果想用深度學(xué)習(xí)處理點(diǎn)云相關(guān)的任務(wù),就會非常不方便。

          但當(dāng)研究者們將目光放到Transformer上時,發(fā)現(xiàn)它的核心注意力機(jī)制,本身其實非常適合處理點(diǎn)云。

          點(diǎn)云處理,需要設(shè)計一種排列不變、且不依賴于點(diǎn)之間連接關(guān)系的算子;注意力機(jī)制本身,就是這種算子。

          加之Transformer在之前的圖像任務(wù)上,都已經(jīng)取得了非常不錯的性能,用來做點(diǎn)云的話,說不定效果也不錯。

          因此,團(tuán)隊開發(fā)了一個名叫PCT(Point Cloud Transformer)的點(diǎn)云Transformer,成功實踐了這一點(diǎn)。

          網(wǎng)絡(luò)結(jié)構(gòu)整體分為三部分:輸入嵌入、注意力層和分類分割。

          輸入嵌入部分的目的,是將點(diǎn)云從歐式空間xyz映射到128維空間。這里分為兩種嵌入的方式,點(diǎn)嵌入和鄰域嵌入,點(diǎn)嵌入負(fù)責(zé)單點(diǎn)信息,鄰域嵌入則負(fù)責(zé)單點(diǎn)和鄰域信息。

          在注意力層中,作者采用了自注意力(self-attention)機(jī)制和偏置注意力(offset-attention)機(jī)制。

          其中,offset-attention也是這篇論文的創(chuàng)新之處,作者為了讓Transformer的注意力機(jī)制能更好地作用于點(diǎn)云,提出了這種注意力機(jī)制,性能要比自注意力機(jī)制更好。

          而在分類分割操作上,作者選擇對經(jīng)過注意力層后的特征直接進(jìn)行池化(采樣),再分別進(jìn)行分類和分割的下一步操作。

          那么,這樣的網(wǎng)絡(luò)結(jié)構(gòu),是否效果真如想象中那么好?

          參數(shù)少一半,效果還更好

          事實上,從分類和分割的效果上來看,圖像做得都還不錯。

          先看分類的效果,在ModelNet40數(shù)據(jù)集上的分類結(jié)果表明,PCT的分類精度可以達(dá)到93.2%,超越了目前所有點(diǎn)云的分類模型。

          而在3D點(diǎn)云分割的效果上,模型做得也不錯。

          從注意力圖(attention map,標(biāo)量矩陣,查看層的重要性)的可視化來看,模型分割的邊緣和形狀也很清晰。

          那么,與其他網(wǎng)絡(luò)對比的分割效果如何呢?

          下圖是PCT與其他網(wǎng)絡(luò)對比的效果。

          從16類列出的物體檢測精確度來看,PCT的效果達(dá)到了86.4%的水平,超過了目前所有3D點(diǎn)云分割的最新模型,同樣達(dá)到了SOTA。

          至于模型參數(shù),最終的結(jié)果也非常不錯。

          其中參數(shù)最大的PCT,精度也達(dá)到了最高的93.2%,如果更側(cè)重于小型參數(shù)量,那么NPCT和SPCT則在1.36M參數(shù)的情況下,精確度分別達(dá)到了91%和92%。

          從實際對比情況來看,三種PCT網(wǎng)絡(luò)結(jié)構(gòu)的分割效果,都要比PointNet的效果好得多(最右邊為初始模型)。

          作者介紹

          6名作者來自清華大學(xué)胡事民團(tuán)隊,卡迪夫大學(xué)。

          清華大學(xué)計算機(jī)系的圖形學(xué)實驗室成立于1998年3月,相關(guān)論文曾多次在ACM SIGGRAPH、IEEE CVPR等重要國際刊物上發(fā)表。

          實驗室目前的主要研究方向為計算機(jī)圖形學(xué)、計算機(jī)視覺、智能信息處理、智能機(jī)器人、系統(tǒng)軟件等。

          一作國孟昊,清華大學(xué)CS博士在讀,來自胡事民團(tuán)隊。

          國孟昊曾經(jīng)是西安電子科技大學(xué)軟件工程2016級本科生,大二曾獲ACM金牌,數(shù)學(xué)建模美賽一等獎,在騰訊、商湯實習(xí)過。

          目前,這一模型的相關(guān)代碼已經(jīng)開源,感興趣的小伙伴可以戳文末地址查看~

          PCT論文地址:
          https://arxiv.org/abs/2012.09688

          PCT項目地址:
          https://github.com/MenghaoGuo/PCT

          下載1:OpenCV-Contrib擴(kuò)展模塊中文版教程
          在「小白學(xué)視覺」公眾號后臺回復(fù):擴(kuò)展模塊中文教程即可下載全網(wǎng)第一份OpenCV擴(kuò)展模塊教程中文版,涵蓋擴(kuò)展模塊安裝、SFM算法、立體視覺、目標(biāo)跟蹤、生物視覺、超分辨率處理等二十多章內(nèi)容。

          下載2:Python視覺實戰(zhàn)項目52講
          小白學(xué)視覺公眾號后臺回復(fù):Python視覺實戰(zhàn)項目,即可下載包括圖像分割、口罩檢測、車道線檢測、車輛計數(shù)、添加眼線、車牌識別、字符識別、情緒檢測、文本內(nèi)容提取、面部識別等31個視覺實戰(zhàn)項目,助力快速學(xué)校計算機(jī)視覺。

          下載3:OpenCV實戰(zhàn)項目20講
          小白學(xué)視覺公眾號后臺回復(fù):OpenCV實戰(zhàn)項目20講即可下載含有20個基于OpenCV實現(xiàn)20個實戰(zhàn)項目,實現(xiàn)OpenCV學(xué)習(xí)進(jìn)階。

          交流群


          歡迎加入公眾號讀者群一起和同行交流,目前有SLAM、三維視覺、傳感器自動駕駛、計算攝影、檢測、分割、識別、醫(yī)學(xué)影像、GAN算法競賽等微信群(以后會逐漸細(xì)分),請掃描下面微信號加群,備注:”昵稱+學(xué)校/公司+研究方向“,例如:”張三?+?上海交大?+?視覺SLAM“。請按照格式備注,否則不予通過。添加成功后會根據(jù)研究方向邀請進(jìn)入相關(guān)微信群。請勿在群內(nèi)發(fā)送廣告,否則會請出群,謝謝理解~


          瀏覽 43
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  日韩视频网站在线 | 激情网站www | 免费观看国产一卡二卡电影 | 日韩伦理色片一区二区 | 成人深爱激情网 |