<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          ICCV 2021 | PMF: 基于視覺感知的多傳感器融合點(diǎn)云語義分割方法

          共 7006字,需瀏覽 15分鐘

           ·

          2021-10-13 12:32

          ↑ 點(diǎn)擊藍(lán)字?關(guān)注極市平臺(tái)

          作者丨月明星稀風(fēng)蕭蕭@知乎(已授權(quán))
          來源丨h(huán)ttps://zhuanlan.zhihu.com/p/419187044
          編輯丨極市平臺(tái)

          極市導(dǎo)讀

          ?

          基于視覺感知多傳感器融合點(diǎn)云語義分割方法?>>加入極市CV技術(shù)交流群,走在計(jì)算機(jī)視覺的最前沿

          目錄

          1. Introduction
          2. Motivation
          3. Method
          • 1.Overview
          • 2.模塊一:Perspective projection
          • 3.模塊二:Two stream network with residual-based fusion modules
          • 4.模塊三:Perception-aware loss
          1. Experiments
          • 1.Results on SemanticKITTI


          • 2.Results on nuScenes


          • 3.Results on SensatUrban


          • 4.Adversarial Analysis


          • 5.Effect of perception-aware loss
          1. Conclusion

          今天,我將分享一個(gè) ICCV 2021 中的工作,基于視覺感知的多傳感器融合點(diǎn)云語義分割方法《Perception-Aware Multi-Sensor Fusion for 3D LiDAR Semantic Segmentation》。

          論文連接

          https://openaccess.thecvf.com/content/ICCV2021/papers/Zhuang_Perception-Aware_Multi-Sensor_Fusion_for_3D_LiDAR_Semantic_Segmentation_ICCV_2021_paper.pdf

          代碼連接

          https://github.com/ICEORY/PMF

          1. Introduction

          語義分割是計(jì)算機(jī)視覺的關(guān)鍵問題之一,它可以提供細(xì)粒度環(huán)境信息。因此在許多應(yīng)用,比如機(jī)器人和自動(dòng)駕駛中,都有極其重要的應(yīng)用。

          根據(jù)使用傳感器的種類,目前的語義分割方法可以分為三類:基于攝像頭的方法,基于激光雷達(dá)的方法和基于多傳感器融合的方法。

          基于相機(jī)的方法,也就是以Deeplab[1]為代表的2D語義分割方法。由于RGB圖像擁有豐富的顏色、紋理等表征信息,并且得益于公開數(shù)據(jù)集的豐富性,基于相機(jī)的語義分割方法已經(jīng)取得了極大的進(jìn)展。但是,由于相機(jī)是被動(dòng)傳感器,它很容易受到光線的干擾,所以采集到的數(shù)據(jù)是經(jīng)常存在噪聲,對(duì)于自動(dòng)駕駛等應(yīng)用來說這是非常危險(xiǎn)的。因此,近年來越來越多的研究者關(guān)注基于激光雷達(dá)的3D語義分割方法,提出了RangeNet[2]等方法。由于激光雷達(dá)是一個(gè)主動(dòng)傳感器,因此可以提供可靠的環(huán)境信息,此外,它還能提供空間幾何信息。但是,激光雷達(dá)采集到的數(shù)據(jù)往往非常稀疏和不規(guī)則的,并且也缺乏顏色和紋理信息,這使得單純基于激光雷達(dá)數(shù)據(jù)去進(jìn)行細(xì)粒度的語義分割是非常具有挑戰(zhàn)性的。

          因此,一個(gè)非常直接的想法就是融合相機(jī)和激光雷達(dá)的兩種傳感器的數(shù)據(jù)來共同完成語義分割任務(wù)。

          2. Motivation

          已有基于多傳感器數(shù)據(jù)的語義分割方法,比如RGBAL[3]和PointPainting[4],采用球面投影的方式將點(diǎn)云投影到圖像上,獲取相關(guān)的像素信息,然后將相關(guān)的圖像像素投影回點(diǎn)云空間,在點(diǎn)云空間上進(jìn)行多傳感器融合。然而這種方式會(huì)導(dǎo)致相機(jī)傳感器中的數(shù)據(jù)損失嚴(yán)重,如圖1左邊所示,汽車和摩托車在投影之后紋理、形狀等視覺感知信息都嚴(yán)重丟失。

          針對(duì)上述問題,作者提出基于透視投影的融合方法,來保留足夠多的圖像信息,如上圖右邊所示。

          然而,如上圖所示,由于透視投影得到的點(diǎn)云非常稀疏,這導(dǎo)致神經(jīng)網(wǎng)絡(luò)只能提取到局部點(diǎn)云的特征,而難以從稀疏的點(diǎn)云中提取到物體的視覺感知特征。

          為了解決上述問題,作者提出了一種全新的多傳感器感知融合方案(PMF),來有效地融合來自相機(jī)和激光雷達(dá)兩個(gè)傳感器的信息。本文的主要貢獻(xiàn)包括以下三點(diǎn):

          第一,提出了一種全新的多傳感器感知融合方案(PMF),可以有效地融合來自相機(jī)和激光雷達(dá)兩個(gè)傳感器的信息。

          第二,提出的多傳感器融合方法在光照極度不利(如黑夜)和點(diǎn)云極度稀疏的情況下,依然可以達(dá)到理想的語義分割效果。尤其在有視覺對(duì)抗樣本的情況下,本文方法依然可以達(dá)到理想的語義分割效果。

          第三,提出了一種全新的perception-aware loss,可以促進(jìn)網(wǎng)絡(luò)捕捉不同模態(tài)的感知信息(RGB圖像的顏色和紋理,激光雷達(dá)數(shù)據(jù)的幾何形狀)。

          所提出的方法在大規(guī)模數(shù)據(jù)集如SemanticKITTI、nuScenes和Sensat上均可以達(dá)到排名靠前的結(jié)果。并通過一系列的消融實(shí)驗(yàn)驗(yàn)證了本方法的優(yōu)勢(shì)和合理性。

          3. Method

          3.1. Overview

          PMF方法首先使用透視投影(Perspective projection)將激光雷達(dá)數(shù)據(jù)投影到相機(jī)坐標(biāo)中。然后,通過一個(gè)雙流網(wǎng)絡(luò)提取多模態(tài)數(shù)據(jù)的特征,并將多模態(tài)特征通過多個(gè)基于殘差的融合塊(Residual-based fusion block)融合。最后,通過將感知損失函數(shù)(Perception-aware loss)引入網(wǎng)絡(luò)的訓(xùn)練,來量化兩種模式之間的感知差異,并幫助網(wǎng)絡(luò)學(xué)習(xí)到不同模態(tài)的感知特征(RGB圖像的顏色和紋理,激光雷達(dá)數(shù)據(jù)的幾何形狀)。其結(jié)構(gòu)如上圖所示,主要包含三個(gè)主要的模塊。

          3.2. 模塊一:Perspective projection

          考慮到之前的方法一般采用球面投影的方式將點(diǎn)云投影到圖像上,獲取相關(guān)的像素信息,然后將相關(guān)的圖像像素投影回點(diǎn)云空間,在點(diǎn)云空間上進(jìn)行多傳感器融合。而這導(dǎo)致了嚴(yán)重的信息損失。為了解決這個(gè)問題,作者提出基于透視投影的融合方法,通過把激光雷達(dá)數(shù)據(jù)投影到相機(jī)坐標(biāo)系下,來保留足夠多的相機(jī)傳感器數(shù)據(jù)。

          把激光雷達(dá)數(shù)據(jù)投影到圖像的過程借助已知的標(biāo)定參數(shù)來實(shí)現(xiàn)。對(duì)于投影之后的每個(gè)激光雷達(dá)點(diǎn),采用跟backbone方法SalsaNext[5]一樣的設(shè)計(jì),即保留(d, x, y, z, r)五個(gè)維度的特征。其中,d表示深度值。

          3.3. 模塊二:Two stream network with residual-based fusion modules

          由于相機(jī)數(shù)據(jù)和激光雷達(dá)數(shù)據(jù)所包含的信息之間存在顯著差異,因此,使用雙分支的網(wǎng)絡(luò)來分別處理不同模態(tài)的數(shù)據(jù)。

          對(duì)于多模態(tài)特征的融合,由于考慮到相機(jī)數(shù)據(jù)很容易受到光照和天氣條件的影響,導(dǎo)致來自相機(jī)的數(shù)據(jù)可能是不可靠的。因此,作者設(shè)計(jì)了Residual-based的融合方式,只把融合的特征作為激光雷達(dá)特征的補(bǔ)充,而激光雷達(dá)特征保持不變。除此之外,為了進(jìn)一步消除融合特征中噪聲信息的干擾,作者還加入Attention Module,來選擇性的把融合之后的特征加入到激光雷達(dá)的特征中。

          通過以上的設(shè)計(jì),使得最終得到的融合特征更加可靠。

          3.4. 模塊三:Perception-aware loss

          從預(yù)測(cè)結(jié)果來看,由于激光雷達(dá)分支難以從稀疏點(diǎn)云中捕捉感知特征,即只有在物體邊緣以及有投影到的數(shù)據(jù)的地方,特征才被激活。相比之下,相機(jī)分支卻可以很好地從稠密的圖像數(shù)據(jù)中學(xué)習(xí)到數(shù)據(jù)的特征,如上圖所見,相機(jī)分支在物體內(nèi)部的特征被激活,并且特征變化具有連續(xù)性

          因此,本文提出了一種Perception-aware loss,來使網(wǎng)絡(luò)可以更好的利用以上提到的各個(gè)分支的預(yù)測(cè)優(yōu)勢(shì),最終達(dá)到更好的預(yù)測(cè)效果。具體設(shè)計(jì)如下:

          為了利用圖像分支的特征來提升點(diǎn)云分支的預(yù)測(cè)效果,首先在等式(1)中定義預(yù)測(cè)熵,然后根據(jù)等式(2)進(jìn)一步計(jì)算預(yù)測(cè)置信度。由于并非來自相機(jī)分支的所有信息都是有效的,比如在物體的邊緣,預(yù)測(cè)置信度會(huì)比較低,因此,通過等式(3)來衡量來自相機(jī)分支信息的重要性。由于希望不同模態(tài)的預(yù)測(cè)結(jié)果應(yīng)該在語義上的分布是相似的,因此,在這里引入了KL散度。最終,通過公式(4)來計(jì)算激光雷達(dá)分支的Perception-aware Loss。

          如公式(4)所述,對(duì)于激光雷達(dá)分支,完整的損失函數(shù)包含Perception-aware Loss、Focal Loss以及Lov′asz softmax Loss。

          受Mutual Learning機(jī)制的啟發(fā),相機(jī)分支損失函數(shù)的設(shè)計(jì)采用和激光雷達(dá)分支相似的方案。

          4. Experiments

          在這一部分,展示了PMF在不同激光雷達(dá)數(shù)據(jù)集和不同天氣情況下的泛化性實(shí)驗(yàn)結(jié)果,并引入一個(gè)對(duì)抗性實(shí)驗(yàn)來驗(yàn)證PMF在輸入對(duì)抗攻擊樣本情況下的魯邦性能。實(shí)驗(yàn)結(jié)果證明,PMF在多種情況下都具有很好的泛化性,并且可以在對(duì)抗攻擊中保持高魯棒性。

          4.1. Results on SemanticKITTI

          為了評(píng)估本方法在SemanticKITTI上的精度,將PMF與幾種最先進(jìn)的激光雷達(dá)語義分割方法進(jìn)行了比較。由于SemanticKITTI只提供前視圖攝像機(jī)的圖像,因此本方法將點(diǎn)云投影到透視圖中,并只保留圖像上的可用點(diǎn)來構(gòu)建SemanticKITTI的一個(gè)子集。為了評(píng)估的公平性,作者使用其他方法公開的最先進(jìn)的訓(xùn)練模型在前視圖數(shù)據(jù)上進(jìn)行評(píng)估。

          實(shí)驗(yàn)結(jié)果如上表所示。可以看出,PMF在基于投影的方法中達(dá)到最好性能。例如,PMF在mIoU中的性能優(yōu)于SalsaNext4.5%。然而,PMF的性能比最先進(jìn)的三維卷積方法,即Cylinder3D[6]相比差1.0%。但是考慮到遠(yuǎn)距離感知對(duì)自動(dòng)駕駛汽車的安全性也至關(guān)重要,因此作者還進(jìn)行了基于距離的評(píng)估。

          實(shí)驗(yàn)結(jié)果證明,當(dāng)距離大于30米時(shí),PMF的性能超過了Cylinder3D[6],達(dá)到最好性能。作者認(rèn)為,這是由于相機(jī)數(shù)據(jù)可以為遠(yuǎn)處物體提供了更多的信息,因此基于融合的方法在遠(yuǎn)距離上優(yōu)于僅使用激光雷達(dá)數(shù)據(jù)的方法。這也表明基于PMF更適合于解決稀疏激光雷達(dá)數(shù)據(jù)的語義分割任務(wù)。

          4.2. Results on nuScenes

          論文也在一個(gè)更復(fù)雜、也更稀疏的數(shù)據(jù)集nuScenes上進(jìn)一步評(píng)估了所提出的方法。nuScenes的點(diǎn)云比SemanticKITTI的點(diǎn)云更稀疏(35k點(diǎn)/幀 vs. 125k點(diǎn)/幀)。

          實(shí)驗(yàn)結(jié)果如上表所示。從結(jié)果來看,PMF 在 nuScenes 數(shù)據(jù)集上實(shí)現(xiàn)了最佳性能。這些結(jié)果與預(yù)期一致,即,由于PMF集成了RGB圖像,因此能夠在更加稀疏的點(diǎn)云條件下依然能達(dá)到理想的語義分割效果。

          除此之外,如上圖所示,PMF方法在夜晚也具有很好的語義分割效果,再一次證明了PMF方法的魯棒性。更多的可視化結(jié)果請(qǐng)查看論文附錄。

          4.3. Results on SensatUrban

          在投稿之后,此篇文章的方法還參加了SensatUrban ICCV2021競(jìng)賽。

          注意,因?yàn)镾ensatUrban數(shù)據(jù)集上數(shù)據(jù)形式的限制,所以無法使用透視投影,因此采用的是基于鳥瞰圖的投影方式來處理數(shù)據(jù)的。其他關(guān)于實(shí)施方案的細(xì)節(jié)見GitHub。

          4.4. Adversarial Analysis

          由于真實(shí)世界總是存在一些會(huì)讓汽車迷惑的場(chǎng)景,比如貼在公交車上的海報(bào)以及藝術(shù)家畫在地面上的涂鴉。作者希望汽車在行駛過程中不會(huì)被這些場(chǎng)景所迷惑,否則這對(duì)于自動(dòng)駕駛汽車來說將是十分危險(xiǎn)的。

          因此,為了模擬這種真實(shí)世界的場(chǎng)景,進(jìn)一步驗(yàn)證方法的魯棒性,作者從其他場(chǎng)景剪裁了一些物體(如上圖的汽車和人),并粘貼在目標(biāo)場(chǎng)景中來得到新的相機(jī)數(shù)據(jù),但是并沒有改變場(chǎng)景的激光雷達(dá)數(shù)據(jù)。

          從上圖的結(jié)果表明,單純基于相機(jī)數(shù)據(jù)的方法很容易把這些粘貼上去的假物體識(shí)別為真實(shí)物體,而基于多傳感器數(shù)據(jù)的PMF卻不會(huì)受到這些假物體的干擾,并且可以實(shí)現(xiàn)精確的語義分割效果。更多的對(duì)抗攻擊實(shí)驗(yàn)結(jié)果見附錄。

          值得注意的是,在這個(gè)實(shí)驗(yàn)中并沒有使用額外的對(duì)抗攻擊訓(xùn)練方法來訓(xùn)練PMF。

          4.5. Effect of perception-aware loss

          為了驗(yàn)證Perception-aware loss的影響,作者可視化了在有Perception-aware loss和沒有Perception-aware loss情況下的激光雷達(dá)分支的預(yù)測(cè)。從上圖的可視化效果來看,加入Perception-aware loss訓(xùn)練的模型可以學(xué)習(xí)到汽車的完整形狀,而baseline模型只關(guān)注點(diǎn)的局部特征。這證明了Perception-aware loss的引入可以幫助激光雷達(dá)分支更好的學(xué)習(xí)到圖像的信息。

          5. Conclusion

          最后總結(jié)一下,本文提出了一個(gè)有效的融合相機(jī)和激光雷達(dá)數(shù)據(jù)的語義分割方法PMF。與現(xiàn)有的在激光雷達(dá)坐標(biāo)系中進(jìn)行特征融合的方法不同,本方法將激光雷達(dá)數(shù)據(jù)投影到相機(jī)坐標(biāo)系中,使這兩種模態(tài)的感知特征(RGB圖像的顏色和紋理,激光雷達(dá)數(shù)據(jù)的幾何形狀)能夠協(xié)同融合。在兩個(gè)基準(zhǔn)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果和對(duì)抗攻擊實(shí)驗(yàn)的結(jié)果表明了該方法的優(yōu)越性。表明了,通過融合來自相機(jī)和激光雷達(dá)的互補(bǔ)信息,PMF對(duì)復(fù)雜的戶外場(chǎng)景和光照變化具有高度的魯棒性。未來,作者將嘗試提高 PMF 的效率,并將其擴(kuò)展到其他自動(dòng)駕駛?cè)蝿?wù)上。

          參考文獻(xiàn)
          [1] Chen, Liang-Chieh, et al. "Deeplab: Semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected crfs." IEEE transactions on pattern analysis and machine intelligence 40.4 (2017): 834-848.
          [2] Milioto, Andres, et al. "Rangenet++: Fast and accurate lidar semantic segmentation." 2019 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). IEEE, 2019.
          [3] El Madawi, Khaled, et al. "Rgb and lidar fusion based 3d semantic segmentation for autonomous driving." 2019 IEEE Intelligent Transportation Systems Conference (ITSC). IEEE, 2019.
          [4] Vora, Sourabh, et al. "Pointpainting: Sequential fusion for 3d object detection." Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2020.
          [5] Cortinhal, Tiago, George Tzelepis, and Eren Erdal Aksoy. "SalsaNext: Fast, uncertainty-aware semantic segmentation of LiDAR point clouds." International Symposium on Visual Computing. Springer, Cham, 2020.
          [6] Zhu, Xinge, et al. "Cylindrical and asymmetrical 3d convolution networks for lidar segmentation." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021.

          如果覺得有用,就請(qǐng)分享到朋友圈吧!

          △點(diǎn)擊卡片關(guān)注極市平臺(tái),獲取最新CV干貨

          公眾號(hào)后臺(tái)回復(fù)“CVPR21檢測(cè)”獲取CVPR2021目標(biāo)檢測(cè)論文下載~


          極市干貨
          神經(jīng)網(wǎng)絡(luò):視覺神經(jīng)網(wǎng)絡(luò)模型優(yōu)秀開源工作:timm庫使用方法和最新代碼解讀
          技術(shù)綜述:綜述:神經(jīng)網(wǎng)絡(luò)中 Normalization 的發(fā)展歷程CNN輕量化模型及其設(shè)計(jì)原則綜述
          算法技巧(trick):8點(diǎn)PyTorch提速技巧匯總圖像分類算法優(yōu)化技巧


          #?CV技術(shù)社群邀請(qǐng)函?#

          △長(zhǎng)按添加極市小助手
          添加極市小助手微信(ID : cvmart4)

          備注:姓名-學(xué)校/公司-研究方向-城市(如:小極-北大-目標(biāo)檢測(cè)-深圳)


          即可申請(qǐng)加入極市目標(biāo)檢測(cè)/圖像分割/工業(yè)檢測(cè)/人臉/醫(yī)學(xué)影像/3D/SLAM/自動(dòng)駕駛/超分辨率/姿態(tài)估計(jì)/ReID/GAN/圖像增強(qiáng)/OCR/視頻理解等技術(shù)交流群


          每月大咖直播分享、真實(shí)項(xiàng)目需求對(duì)接、求職內(nèi)推、算法競(jìng)賽、干貨資訊匯總、與?10000+來自港科大、北大、清華、中科院、CMU、騰訊、百度等名校名企視覺開發(fā)者互動(dòng)交流~



          覺得有用麻煩給個(gè)在看啦~??
          瀏覽 29
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  午夜成人福利片 | 天天狠天天插天天透 | 亚洲精品久久久久久久久久久久久久 | 大香蕉欧美 | 黄色电影视频网站 |