<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          復(fù)雜動態(tài)環(huán)境下的多模態(tài)語義SLAM

          共 4404字,需瀏覽 9分鐘

           ·

          2022-07-05 19:25

          0. 引言

          SLAM算法在自動駕駛、機器人導(dǎo)航、AR、VR等任務(wù)中越來越重要,但許多現(xiàn)有的SLAM算法都假定環(huán)境是靜態(tài)的,不能很好地處理動態(tài)環(huán)境,這就限制了SLAM算法的實際應(yīng)用。在論文"Multi-modal Semantic SLAM for Complex Dynamic Environments"中,作者提出了一種動態(tài)環(huán)境中的多模態(tài)語義SLAM,并在倉儲環(huán)境中針對移動的人和AGV車輛進(jìn)行了算法驗證。重要的是,算法已經(jīng)開源。

          1. 論文信息

          標(biāo)題:Multi-modal Semantic SLAM for Complex Dynamic Environments

          作者:Han Wang, Jing Ying Ko, Lihua Xie

          來源:2022 Robotics

          原文鏈接:https://arxiv.org/abs/2205.04300

          代碼鏈接:https://github.com/wh200720041/MMS_SLAM

          2. 摘要

          同時定位和建圖(SLAM)是許多現(xiàn)實機器人應(yīng)用中最重要的技術(shù)之一。大多數(shù)SLAM算法都假設(shè)靜態(tài)環(huán)境,然而對于大多數(shù)應(yīng)用來說并非如此。語義SLAM的最新工作旨在通過執(zhí)行基于圖像的分割來理解環(huán)境中的對象并從場景上下文中區(qū)分動態(tài)信息。然而,分割結(jié)果通常是不完美或不完整的,這可能隨后降低建圖質(zhì)量和定位準(zhǔn)確性。在本文中,我們提出了一個魯棒的多模態(tài)語義框架來解決復(fù)雜和高度動態(tài)環(huán)境中的SLAM問題。我們建議學(xué)習(xí)更強大的對象特征表示,并將兩次查看和思考的機制部署到主干網(wǎng)絡(luò),這導(dǎo)致對我們的基線實例分割模型的更好的識別結(jié)果。此外,將僅幾何聚類和視覺語義信息相結(jié)合,以減少由于小尺度對象、遮擋和運動模糊導(dǎo)致的分割錯誤的影響。我們已經(jīng)進(jìn)行了全面的實驗來評估所提出的方法的性能。結(jié)果表明,我們的方法可以準(zhǔn)確識別缺陷和運動模糊下的動態(tài)目標(biāo)。此外,所提出的SLAM框架能夠以超過10 Hz的處理速率有效地構(gòu)建靜態(tài)稠密地圖,這可以在許多實際應(yīng)用中實現(xiàn)。

          3. 算法分析

          如圖1所示是作者提出的多模態(tài)語義SLAM框架AM框架中,該框架能夠在不同的動態(tài)環(huán)境中提供實時定位,并解決由于誤分類、小尺度目標(biāo)和遮擋造成的分割錯誤。具體來說,作者修改了現(xiàn)有的主干網(wǎng)絡(luò),以學(xué)習(xí)更強大的對象特征表示,并在主干網(wǎng)絡(luò)中部署了兩次查看和思考的機制,提升了實力分割的性能。此外,作者結(jié)合幾何聚類和視覺語義信息來減少運動模糊的影響。

          圖1 多模態(tài)語義SLAM框架概述

          作者的主要貢獻(xiàn)總結(jié)如下:

          (1) 作者提出了一個魯棒快速的多模態(tài)語義SLAM框架,旨在解決復(fù)雜動態(tài)環(huán)境中的SLAM問題。具體來說,作者將幾何聚類和視覺語義信息相結(jié)合,以減少由于小尺度對象、遮擋和運動模糊導(dǎo)致的分割錯誤的影響。

          (2) 作者提出的網(wǎng)絡(luò)可以學(xué)習(xí)更強大的對象特征表示,并將兩次查看和思考的機制部署到主干網(wǎng)絡(luò),這使得實例分割模型獲得了更好的識別結(jié)果。

          (3) 作者對所提出的方法進(jìn)行了全面的評價。結(jié)果表明,該方法能夠提供可靠的定位和語義稠密地圖。

          3.1 框架流程

          如圖2所示是作者提出的多模態(tài)語義SLAM流程圖,它主要由四個模塊組成,即實例分割模塊、多模態(tài)融合模塊、定位模塊和全局優(yōu)化及建圖模塊。實例分割模塊使用實時實例分割網(wǎng)絡(luò)來提取RGB圖像中存在的所有潛在動態(tài)對象的語義信息。卷積神經(jīng)網(wǎng)絡(luò)離線訓(xùn)練,然后在線實現(xiàn),以達(dá)到實時性能。同時,多模態(tài)融合模塊通過傳感器融合將相關(guān)語義數(shù)據(jù)傳輸?shù)郊す饫走_(dá),并隨后使用多模態(tài)信息來進(jìn)一步加強分割結(jié)果。在定位模塊中使用靜態(tài)信息來尋找機器人姿態(tài),而在全局優(yōu)化和建圖模塊中使用靜態(tài)信息和動態(tài)信息來建立3D稠密語義地圖。

          圖2 多模態(tài)語義SLAM流程圖

          3.2 實例分割網(wǎng)絡(luò)

          為了降低實例分割的計算成本,作者使用精度較低的輕量級版本SOLOv2來實現(xiàn)實時實例分割。為了提高分割精度,作者將主干架構(gòu)從最初的特征金字塔網(wǎng)絡(luò)(FPN)修改為遞歸特征金字塔網(wǎng)絡(luò)(RFP)。RFP通過將來自FPN的額外反饋整合到自下而上的主干層中,并灌輸了兩次或多次查看的思想。這遞歸地增強了現(xiàn)有的FPN,并提供了越來越強的特征表示。同時,RFP自適應(yīng)增強和抑制神經(jīng)元激活的能力使得實例分割網(wǎng)絡(luò)能夠更有效地處理被遮擋的對象。此外,作者使用SAC (Switchable Atrous Convolution)代替主干架構(gòu)中的卷積層。SAC可以收集不同速率卷積計算的輸出,因此能夠從SAC中學(xué)習(xí)最佳系數(shù),并且能夠自適應(yīng)地選擇感受野的大小。這使得SOLOv2能夠高效地提取重要的空間信息。

          實例分割網(wǎng)絡(luò)的輸出是每個動態(tài)對象的像素級實例掩碼,以及它們對應(yīng)的邊界框和類型。為了更好地將動態(tài)信息集成到SLAM算法中,作者將輸出的二進(jìn)制掩碼轉(zhuǎn)換為包含場景中所有像素級實例掩碼的單個圖像,進(jìn)而區(qū)分靜態(tài)與動態(tài)物體。然后將二值掩碼應(yīng)用于語義融合模塊,生成一個三維動態(tài)掩碼。

          3.3 多模態(tài)融合

          為了解決運動模糊效應(yīng),作者首先進(jìn)行形態(tài)學(xué)膨脹處理,用于逐漸擴展動態(tài)對象的區(qū)域邊界。形態(tài)學(xué)膨脹結(jié)果標(biāo)記了動態(tài)對象周圍的模糊邊界。作者將動態(tài)對象及其邊界作為動態(tài)信息,進(jìn)而進(jìn)行運動模糊補償。

          此外,因為區(qū)域之間的模糊像素會導(dǎo)致分割錯誤。因此,作者結(jié)合點云聚類結(jié)果和分割結(jié)果來更好地細(xì)化動態(tài)對象。具體來說,作者對幾何信息執(zhí)行連通性分析,并與基于視覺的分割結(jié)果融合。

          最后,為了提高分割網(wǎng)絡(luò)的工作效率,作者首先對激光雷達(dá)采集到的三維點云進(jìn)行降維處理以減少數(shù)據(jù)規(guī)模,并將其作為點云聚類的輸入。然后將實例分割結(jié)果投影到點云坐標(biāo)上標(biāo)記每個點,當(dāng)大多數(shù)點(90%)是動態(tài)標(biāo)記點時,點云聚類將被視為動態(tài)聚類。當(dāng)靜態(tài)點靠近動態(tài)點聚類時,靜態(tài)點將被重新標(biāo)記為動態(tài)標(biāo)簽。并且當(dāng)附近沒有動態(tài)點云時,動態(tài)點將被重新標(biāo)記。

          3.4 定位及位姿估計

          應(yīng)用多模態(tài)動態(tài)分割后,算法將點云分為動態(tài)點云和靜態(tài)點云,靜態(tài)點云被用于定位和建圖模塊。與LOAM相比,作者提出的框架能夠支持30Hz的實時性能。與ORB-SLAM和VINS-MONO,它能抵抗照明變化。

          然后進(jìn)行數(shù)據(jù)關(guān)聯(lián)和姿態(tài)估計,即通過最小化點到邊和點到平面距離計算最終機器人姿態(tài),并通過最小化點對平面和點對邊的殘差之和來計算最終的機器人姿態(tài)。在非線性最小二乘的求解上,作者使用高斯-牛頓方法,并基于靜態(tài)信息推導(dǎo)出一個最優(yōu)的機器人姿態(tài)。

          最后進(jìn)行特征圖更新和關(guān)鍵幀選擇。一旦導(dǎo)出最佳姿態(tài),特征將分別更新為局部邊緣圖和局部平面圖,用于下一幀的數(shù)據(jù)關(guān)聯(lián)。為了降低計算成本,全局靜態(tài)映射將根據(jù)關(guān)鍵幀進(jìn)行更新。關(guān)鍵幀的生成策略為:當(dāng)機器人姿態(tài)的平移變化大于預(yù)定義的平移閾值,或機器人姿態(tài)的旋轉(zhuǎn)變化大于預(yù)定義的旋轉(zhuǎn)閾值時,將生成一個關(guān)鍵幀。

          3.5 全局地圖構(gòu)建

          語義地圖分為靜態(tài)地圖和動態(tài)地圖,具體來說,視覺信息可以通過將三維點重新投影到圖像平面上來實現(xiàn)。每次更新后,通過使用三維體素化網(wǎng)格對映射進(jìn)行降采樣,以防止內(nèi)存溢出。動態(tài)地圖由動態(tài)點云構(gòu)建,并用于顯示動態(tài)對象。生成的動態(tài)地圖可用于運動規(guī)劃等高級任務(wù)。

          4. 實驗

          在實驗設(shè)備方面,作者選用ROS作為語義模塊和SLM算法的接口,傳感器采用英特爾RealSense雷達(dá)相機L515捕捉RGB圖像和點云,數(shù)據(jù)處理在英特爾i7 CPU和RTX 2080 Ti GPU上進(jìn)行。

          在動態(tài)物體的選擇上,作者主要識別倉儲環(huán)境中的人體以及AGV車輛,如圖3所示是作者用于訓(xùn)練網(wǎng)絡(luò)的不同AGV車輛模型。此外,為了解決小數(shù)據(jù)集問題,作者使用隨機尺度抖動等數(shù)據(jù)增強方法,提高網(wǎng)絡(luò)的魯棒性。

          圖3 訓(xùn)練集中不同類型的agv

          (a)機械臂AGV;(b)叉車AGV;(c)掃描AGV;(d)先鋒機器人;(e)帶輸送帶的運輸AGV;(f)倉庫環(huán)境;

          4.1 實例分割性能評估

          作者首先在COCO數(shù)據(jù)集上分別從分割損失和平均精度(mAP)兩方面評估分割性能。在網(wǎng)絡(luò)搭建上,作者基于MMDetection 2.0構(gòu)建實例分割網(wǎng)絡(luò)Solo v2,并在由81個類組成的COCO數(shù)據(jù)集上訓(xùn)練。同時選擇ResNet-50作為主干架構(gòu),并使用在ImageNet上預(yù)訓(xùn)練的ResNet-50,結(jié)果如表1所示。

          表1 實例分割的性能對比

          結(jié)果顯示,通過在Solo v2上部署SAC和RFP網(wǎng)絡(luò),分割性能進(jìn)一步提高了5.9%,而時間僅增加了17 ms。總的來說,Solo v2通過自適應(yīng)感受野學(xué)習(xí)兩次查看圖像,因此它能夠突出實例分割網(wǎng)絡(luò)的重要語義信息。分割的可視化結(jié)果如圖4所示,驗證了作者提出的方法實現(xiàn)了更高的準(zhǔn)確性。

          圖4 原始Solo v2與作者方法的對比

          4.2 稠密建圖和動態(tài)跟蹤

          在具體實驗中,當(dāng)人類操作員在倉庫中頻繁走動時,手動控制AGV移動并同時建立倉庫環(huán)境地圖。定位結(jié)果如圖5所示。其中作者比較了真值、作者使用的SLAM方法和原始SLAM??梢钥闯?,作者提出的多模態(tài)語義SLAM比傳統(tǒng)SLAM更加魯棒和穩(wěn)定。建圖結(jié)果如圖6所示,該方法能夠有效地識別出潛在的動態(tài)對象,并將其從靜態(tài)地圖中分離出來。建圖結(jié)果顯示,盡管操作人員經(jīng)常走在機器人前面,但他們未在靜態(tài)地圖中出現(xiàn)。所有潛在的動態(tài)對象都被包圍在邊界框中,并被添加到最終的語義地圖中,以實時可視化每個對象的狀態(tài),其中移動的人被著色為紅色,而AGV被著色為綠色。此外,作者提出的方法能夠在復(fù)雜的動態(tài)環(huán)境中識別和定位多個目標(biāo)。

          圖5 動態(tài)環(huán)境中的定位結(jié)果對比

          圖6 靜態(tài)地圖創(chuàng)建和最終語義建圖結(jié)果

          (a)由所提出的SLAM框架構(gòu)建的靜態(tài)地圖;(b)最終的語義建圖結(jié)果

          4.3 消融實驗

          作者比較了不同動態(tài)濾波方法的定位漂移。首先從SLAM中移除語義識別模塊,并對其性能進(jìn)行評估。然后,使用視覺語義識別(Solo v2)來移除動態(tài)信息,將結(jié)果與提出的語義多模態(tài)SLAM進(jìn)行比較。具體實驗方法為,首先讓機器人保持靜止,并讓一名人類操作員在機器人前面頻繁行走,記錄定位漂移,以便評估在動態(tài)對象下的性能。然后計算平均平移漂移誤差(ATDE)和最大平移漂移誤差(MTDE)來驗證定位,定量結(jié)果如表2所示,可視化結(jié)果如圖7所示。可以看出,與原始SLAM相比,作者提出的方法顯著降低了定位漂移。

          表2 動態(tài)環(huán)境下的定位漂移消融實驗

          圖7 定位漂移的消融實驗

          (a)原始圖像;(b)視覺語義識別結(jié)果;(c) 由于運動的對象的定位漂移,局部漂移用紅色圓圈突出顯示

          5. 結(jié)論

          在論文"Multi-modal Semantic SLAM for Complex Dynamic Environments"中,作者提出了一個語義多模態(tài)框架來解決動態(tài)環(huán)境中的SLAM問題,能夠有效地減少復(fù)雜動態(tài)環(huán)境中動態(tài)對象的影響,并進(jìn)行稠密建圖。作者還在用于智能制造的倉儲AGV上進(jìn)行了評估,實驗結(jié)果表明作者提出的方法顯著提高了現(xiàn)有SLAM算法的魯棒性和準(zhǔn)確性。


          瀏覽 184
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  超碰青青草在线 | 特黄AAAAAAA免费无码 | 俺来也俺就去www色情网 | 色黄视频在线 | 麻豆入口|