<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          基于視覺感知的多傳感器融合點云語義分割方法

          共 6436字,需瀏覽 13分鐘

           ·

          2022-02-16 08:55

          點擊下方卡片,關(guān)注“新機器視覺”公眾號

          視覺/圖像重磅干貨,第一時間送達

          來源 |?月明星稀風(fēng)蕭蕭@知乎、3D視覺工坊
          來源 |?https://zhuanlan.zhihu.com/p/419187044

          今天,我將分享一個 ICCV 2021 中的工作,基于視覺感知的多傳感器融合點云語義分割方法《Perception-Aware Multi-Sensor Fusion for 3D LiDAR Semantic Segmentation》。

          備注論文連接、代碼連接見文末

          1. Introduction


          語義分割是計算機視覺的關(guān)鍵問題之一,它可以提供細(xì)粒度環(huán)境信息。因此在許多應(yīng)用,比如機器人和自動駕駛中,都有極其重要的應(yīng)用。

          根據(jù)使用傳感器的種類,目前的語義分割方法可以分為三類:基于攝像頭的方法,基于激光雷達的方法和基于多傳感器融合的方法。

          基于相機的方法,也就是以Deeplab[1]為代表的2D語義分割方法。由于RGB圖像擁有豐富的顏色、紋理等表征信息,并且得益于公開數(shù)據(jù)集的豐富性,基于相機的語義分割方法已經(jīng)取得了極大的進展。但是,由于相機是被動傳感器,它很容易受到光線的干擾,所以采集到的數(shù)據(jù)是經(jīng)常存在噪聲,對于自動駕駛等應(yīng)用來說這是非常危險的。因此,近年來越來越多的研究者關(guān)注基于激光雷達的3D語義分割方法,提出了RangeNet[2]等方法。由于激光雷達是一個主動傳感器,因此可以提供可靠的環(huán)境信息,此外,它還能提供空間幾何信息。但是,激光雷達采集到的數(shù)據(jù)往往非常稀疏和不規(guī)則的,并且也缺乏顏色和紋理信息,這使得單純基于激光雷達數(shù)據(jù)去進行細(xì)粒度的語義分割是非常具有挑戰(zhàn)性的。

          因此,一個非常直接的想法就是融合相機和激光雷達的兩種傳感器的數(shù)據(jù)來共同完成語義分割任務(wù)。

          2. Motivation


          已有基于多傳感器數(shù)據(jù)的語義分割方法,比如RGBAL[3]和PointPainting[4],采用球面投影的方式將點云投影到圖像上,獲取相關(guān)的像素信息,然后將相關(guān)的圖像像素投影回點云空間,在點云空間上進行多傳感器融合。然而這種方式會導(dǎo)致相機傳感器中的數(shù)據(jù)損失嚴(yán)重,如圖1左邊所示,汽車和摩托車在投影之后紋理、形狀等視覺感知信息都嚴(yán)重丟失。


          針對上述問題,作者提出基于透視投影的融合方法,來保留足夠多的圖像信息,如上圖右邊所示。


          然而,如上圖所示,由于透視投影得到的點云非常稀疏,這導(dǎo)致神經(jīng)網(wǎng)絡(luò)只能提取到局部點云的特征,而難以從稀疏的點云中提取到物體的視覺感知特征。

          為了解決上述問題,作者提出了一種全新的多傳感器感知融合方案(PMF),來有效地融合來自相機和激光雷達兩個傳感器的信息。本文的主要貢獻包括以下三點:

          第一,提出了一種全新的多傳感器感知融合方案(PMF),可以有效地融合來自相機和激光雷達兩個傳感器的信息。

          第二,提出的多傳感器融合方法在光照極度不利(如黑夜)和點云極度稀疏的情況下,依然可以達到理想的語義分割效果。尤其在有視覺對抗樣本的情況下,本文方法依然可以達到理想的語義分割效果。

          第三,提出了一種全新的perception-aware loss,可以促進網(wǎng)絡(luò)捕捉不同模態(tài)的感知信息(RGB圖像的顏色和紋理,激光雷達數(shù)據(jù)的幾何形狀)。

          所提出的方法在大規(guī)模數(shù)據(jù)集如SemanticKITTI、nuScenes和Sensat上均可以達到排名靠前的結(jié)果。并通過一系列的消融實驗驗證了本方法的優(yōu)勢和合理性。

          3. Method


          3.1. Overview


          PMF方法首先使用透視投影(Perspective projection)將激光雷達數(shù)據(jù)投影到相機坐標(biāo)中。然后,通過一個雙流網(wǎng)絡(luò)提取多模態(tài)數(shù)據(jù)的特征,并將多模態(tài)特征通過多個基于殘差的融合塊(Residual-based fusion block)融合。最后,通過將感知損失函數(shù)(Perception-aware loss)引入網(wǎng)絡(luò)的訓(xùn)練,來量化兩種模式之間的感知差異,并幫助網(wǎng)絡(luò)學(xué)習(xí)到不同模態(tài)的感知特征(RGB圖像的顏色和紋理,激光雷達數(shù)據(jù)的幾何形狀)。其結(jié)構(gòu)如上圖所示,主要包含三個主要的模塊。

          3.2. 模塊一:Perspective projection


          考慮到之前的方法一般采用球面投影的方式將點云投影到圖像上,獲取相關(guān)的像素信息,然后將相關(guān)的圖像像素投影回點云空間,在點云空間上進行多傳感器融合。而這導(dǎo)致了嚴(yán)重的信息損失。為了解決這個問題,作者提出基于透視投影的融合方法,通過把激光雷達數(shù)據(jù)投影到相機坐標(biāo)系下,來保留足夠多的相機傳感器數(shù)據(jù)。
          把激光雷達數(shù)據(jù)投影到圖像的過程借助已知的標(biāo)定參數(shù)來實現(xiàn)。對于投影之后的每個激光雷達點,采用跟backbone方法SalsaNext[5]一樣的設(shè)計,即保留(d, x, y, z, r)五個維度的特征。其中,d表示深度值。

          3.3. 模塊二:Two stream network with residual-based fusion modules



          由于相機數(shù)據(jù)和激光雷達數(shù)據(jù)所包含的信息之間存在顯著差異,因此,使用雙分支的網(wǎng)絡(luò)來分別處理不同模態(tài)的數(shù)據(jù)。

          對于多模態(tài)特征的融合,由于考慮到相機數(shù)據(jù)很容易受到光照和天氣條件的影響,導(dǎo)致來自相機的數(shù)據(jù)可能是不可靠的。因此,作者設(shè)計了Residual-based的融合方式,只把融合的特征作為激光雷達特征的補充,而激光雷達特征保持不變。除此之外,為了進一步消除融合特征中噪聲信息的干擾,作者還加入Attention Module,來選擇性的把融合之后的特征加入到激光雷達的特征中。

          通過以上的設(shè)計,使得最終得到的融合特征更加可靠。

          3.4. 模塊三:Perception-aware loss



          從預(yù)測結(jié)果來看,由于激光雷達分支難以從稀疏點云中捕捉感知特征,即只有物體邊緣以及有投影到的數(shù)據(jù)的地方,特征才被激活。相比之下,相機分支卻可以很好地從稠密的圖像數(shù)據(jù)中學(xué)習(xí)到數(shù)據(jù)的特征,如上圖所見,相機分支在物體內(nèi)部的特征被激活,并且特征變化具有連續(xù)性

          因此,本文提出了一種Perception-aware loss,來使網(wǎng)絡(luò)可以更好的利用以上提到的各個分支的預(yù)測優(yōu)勢,最終達到更好的預(yù)測效果。具體設(shè)計如下:


          為了利用圖像分支的特征來提升點云分支的預(yù)測效果,首先在等式(1)中定義預(yù)測熵,然后根據(jù)等式(2)進一步計算預(yù)測置信度。由于并非來自相機分支的所有信息都是有效的,比如在物體的邊緣,預(yù)測置信度會比較低,因此,通過等式(3)來衡量來自相機分支信息的重要性。由于希望不同模態(tài)的預(yù)測結(jié)果應(yīng)該在語義上的分布是相似的,因此,在這里引入了KL散度。最終,通過公式(4)來計算激光雷達分支的Perception-aware Loss。

          如公式(4)所述,對于激光雷達分支,完整的損失函數(shù)包含Perception-aware Loss、Focal Loss以及Lov′asz softmax Loss。

          受Mutual Learning機制的啟發(fā),相機分支損失函數(shù)的設(shè)計采用和激光雷達分支相似的方案。


          4. Experiments


          在這一部分,展示了PMF在不同激光雷達數(shù)據(jù)集和不同天氣情況下的泛化性實驗結(jié)果,并引入一個對抗性實驗來驗證PMF在輸入對抗攻擊樣本情況下的魯邦性能。實驗結(jié)果證明,PMF在多種情況下都具有很好的泛化性,并且可以在對抗攻擊中保持高魯棒性。

          4.1. Results on SemanticKITTI


          為了評估本方法在SemanticKITTI上的精度,將PMF與幾種最先進的激光雷達語義分割方法進行了比較。由于SemanticKITTI只提供前視圖攝像機的圖像,因此本方法將點云投影到透視圖中,并只保留圖像上的可用點來構(gòu)建SemanticKITTI的一個子集。為了評估的公平性,作者使用其他方法公開的最先進的訓(xùn)練模型在前視圖數(shù)據(jù)上進行評估。


          實驗結(jié)果如上表所示??梢钥闯?,PMF在基于投影的方法中達到最好性能。例如,PMF在mIoU中的性能優(yōu)于SalsaNext4.5%。然而,PMF的性能比最先進的三維卷積方法,即Cylinder3D[6]相比差1.0%。但是考慮到遠(yuǎn)距離感知對自動駕駛汽車的安全性也至關(guān)重要,因此作者還進行了基于距離的評估。


          實驗結(jié)果證明,當(dāng)距離大于30米時,PMF的性能超過了Cylinder3D[6],達到最好性能。作者認(rèn)為,這是由于相機數(shù)據(jù)可以為遠(yuǎn)處物體提供了更多的信息,因此基于融合的方法在遠(yuǎn)距離上優(yōu)于僅使用激光雷達數(shù)據(jù)的方法。這也表明基于PMF更適合于解決稀疏激光雷達數(shù)據(jù)的語義分割任務(wù)。

          4.2. Results on nuScenes


          論文也在一個更復(fù)雜、也更稀疏的數(shù)據(jù)集nuScenes上進一步評估了所提出的方法。nuScenes的點云比SemanticKITTI的點云更稀疏(35k點/幀 vs. 125k點/幀)。


          實驗結(jié)果如上表所示。從結(jié)果來看,PMF 在 nuScenes 數(shù)據(jù)集上實現(xiàn)了最佳性能。這些結(jié)果與預(yù)期一致,即,由于PMF集成了RGB圖像,因此能夠在更加稀疏的點云條件下依然能達到理想的語義分割效果。


          除此之外,如上圖所示,PMF方法在夜晚也具有很好的語義分割效果,再一次證明了PMF方法的魯棒性。更多的可視化結(jié)果請查看論文附錄。

          4.3. Results on SensatUrban


          在投稿之后,此篇文章的方法還參加了SensatUrban ICCV2021競賽。



          注意,因為SensatUrban數(shù)據(jù)集上數(shù)據(jù)形式的限制,所以無法使用透視投影,因此采用的是基于鳥瞰圖的投影方式來處理數(shù)據(jù)的。其他關(guān)于實施方案的細(xì)節(jié)見GitHub。

          4.4. Adversarial Analysis



          由于真實世界總是存在一些會讓汽車迷惑的場景,比如貼在公交車上的海報以及藝術(shù)家畫在地面上的涂鴉。作者希望汽車在行駛過程中不會被這些場景所迷惑,否則這對于自動駕駛汽車來說將是十分危險的。


          因此,為了模擬這種真實世界的場景,進一步驗證方法的魯棒性,作者從其他場景剪裁了一些物體(如上圖的汽車和人),并粘貼在目標(biāo)場景中來得到新的相機數(shù)據(jù),但是并沒有改變場景的激光雷達數(shù)據(jù)。
          從上圖的結(jié)果表明,單純基于相機數(shù)據(jù)的方法很容易把這些粘貼上去的假物體識別為真實物體,而基于多傳感器數(shù)據(jù)的PMF卻不會受到這些假物體的干擾,并且可以實現(xiàn)精確的語義分割效果。更多的對抗攻擊實驗結(jié)果見附錄。
          值得注意的是,在這個實驗中并沒有使用額外的對抗攻擊訓(xùn)練方法來訓(xùn)練PMF。

          4.5. Effect of perception-aware loss



          為了驗證Perception-aware loss的影響,作者可視化了在有Perception-aware loss和沒有Perception-aware loss情況下的激光雷達分支的預(yù)測。從上圖的可視化效果來看,加入Perception-aware loss訓(xùn)練的模型可以學(xué)習(xí)到汽車的完整形狀,而baseline模型只關(guān)注點的局部特征。這證明了Perception-aware loss的引入可以幫助激光雷達分支更好的學(xué)習(xí)到圖像的信息。

          5. Conclusion


          最后總結(jié)一下,本文提出了一個有效的融合相機和激光雷達數(shù)據(jù)的語義分割方法PMF。與現(xiàn)有的在激光雷達坐標(biāo)系中進行特征融合的方法不同,本方法將激光雷達數(shù)據(jù)投影到相機坐標(biāo)系中,使這兩種模態(tài)的感知特征(RGB圖像的顏色和紋理,激光雷達數(shù)據(jù)的幾何形狀)能夠協(xié)同融合。在兩個基準(zhǔn)數(shù)據(jù)集上的實驗結(jié)果和對抗攻擊實驗的結(jié)果表明了該方法的優(yōu)越性。表明了,通過融合來自相機和激光雷達的互補信息,PMF對復(fù)雜的戶外場景和光照變化具有高度的魯棒性。未來,作者將嘗試提高 PMF 的效率,并將其擴展到其他自動駕駛?cè)蝿?wù)上。

          論文連接
          Perception-Aware Multi-Sensor Fusion for 3D LiDAR Semantic Segmentation
          (https://openaccess.thecvf.com/content/ICCV2021/papers/Zhuang_Perception-Aware_Multi-Sensor_Fusion_for_3D_LiDAR_Semantic_Segmentation_ICCV_2021_paper.pdf)

          代碼連接
          GitHub - ICEORY/PMF: Perception-aware multi-sensor fusion for 3D LiDAR semantic segmentation (ICCV 2021)(https://github.com/ICEORY/PMF)

          參考文獻

          [1] Chen, Liang-Chieh, et al. "Deeplab: Semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected crfs."?IEEE transactions on pattern analysis and machine intelligence?40.4 (2017): 834-848.
          [2] Milioto, Andres, et al. "Rangenet++: Fast and accurate lidar semantic segmentation."?2019 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS).?IEEE, 2019.
          [3] El Madawi, Khaled, et al. "Rgb and lidar fusion based 3d semantic segmentation for autonomous driving."?2019 IEEE Intelligent Transportation Systems Conference (ITSC). IEEE, 2019.
          [4] Vora, Sourabh, et al. "Pointpainting: Sequential fusion for 3d object detection."?Proceedings of the?IEEE/CVF conference on computer vision and pattern recognition.?2020.
          [5] Cortinhal, Tiago, George Tzelepis, and Eren Erdal Aksoy. "SalsaNext: Fast, uncertainty-aware semantic segmentation of LiDAR point clouds."?International Symposium on Visual Computing. Springer, Cham, 2020.
          [6] Zhu, Xinge, et al. "Cylindrical and asymmetrical 3d convolution networks for lidar segmentation."?Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021.

          本文僅做學(xué)術(shù)分享,如有侵權(quán),請聯(lián)系刪文。

          —THE END—
          瀏覽 45
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  A片免费网站在线观看 | 午夜网久久久成人 | 国产精品腿扒开做爽爽爽挤奶网站 | 蜜桃久久午夜 | 色色婷婷基地 |