論文簡(jiǎn)述 | Structure-SLAM:室內(nèi)環(huán)境中的低漂移單目SLAM
點(diǎn)擊上方“小白學(xué)視覺(jué)”,選擇加"星標(biāo)"或“置頂”
重磅干貨,第一時(shí)間送達(dá)
標(biāo)題:Structure-SLAM: Low-Drift Monocular SLAM in Indoor Environments
作者:Yanyan Li、Nikolas Brasch、Yida Wang、Nassir Navab、Federico Tombari
來(lái)源: IEEE 2020
本文提出了一種針對(duì)室內(nèi)場(chǎng)景的低漂移單目SLAM方法,其中單目SLAM經(jīng)常由于缺乏紋理而失敗.我們的方法將跟蹤過(guò)程的旋轉(zhuǎn)和平移估計(jì)解耦,以減少室內(nèi)環(huán)境中的長(zhǎng)期漂移.為了充分利用場(chǎng)景中可用的幾何信息,利用卷積神經(jīng)網(wǎng)絡(luò)從每個(gè)輸入的RGB圖像中實(shí)時(shí)估計(jì)表面法向量.首先,利用曼哈頓世界假設(shè),使用球形均值漂移聚類,基于線和表面法向量估計(jì)無(wú)漂移旋轉(zhuǎn).然后根據(jù)點(diǎn)和線特征計(jì)算平移.最后,用地圖到幀的優(yōu)化策略來(lái)優(yōu)化估計(jì)的姿態(tài).該方法的性能優(yōu)于ICL-NUIM等.
論文地址:
https://arxiv.org/pdf/2008.01963.pdf視覺(jué)同步定位和建圖對(duì)自主機(jī)器人和增強(qiáng)現(xiàn)實(shí)非常重要,因?yàn)樗鼈冇糜诠烙?jì)姿態(tài)和重建未知環(huán)境.在許多SLAM用例和應(yīng)用中,單目攝像機(jī)是室內(nèi)場(chǎng)景中最常見(jiàn)的相機(jī).室內(nèi)環(huán)境通常以缺乏紋理表面和不規(guī)則分布的特征點(diǎn)為特征.特別是低紋理的墻壁、地板和天花板很難用最先進(jìn)的基于特征的方法和直接方法來(lái)處理.對(duì)于低紋理場(chǎng)景,結(jié)合點(diǎn)和線特征的SLAM系統(tǒng)也應(yīng)用于低紋理場(chǎng)景.例如PL-SLAM、PLVO都將工作場(chǎng)景擴(kuò)展到具有可見(jiàn)結(jié)構(gòu)邊緣的低紋理環(huán)境.由于該圖是根據(jù)一系列輸入幀構(gòu)建的,因此誤差會(huì)隨著時(shí)間的推移而累積,從而導(dǎo)致漂移.從而影響稠密重建.
克服這些錯(cuò)誤有兩個(gè)主要策略:閉環(huán)檢測(cè),結(jié)合姿態(tài)圖優(yōu)化,檢測(cè)以前看到的路標(biāo)并優(yōu)化基于新約束的位姿圖,從而校正累積漂移.然而帶來(lái)了額外的計(jì)算負(fù)擔(dān).并且只有在重新回到同一個(gè)地方時(shí)才能消除漂移.另一種策略是假設(shè)世界幀中有一個(gè)底層(全局)結(jié)構(gòu),然后每個(gè)跟蹤幀可以直接與這個(gè)世界結(jié)構(gòu)對(duì)齊,而不是與最后一幀或關(guān)鍵幀對(duì)齊.結(jié)構(gòu)化場(chǎng)景最常見(jiàn)的表述是曼哈頓世界(MW),其中圖1(a)中所示的環(huán)境由幾何結(jié)構(gòu)(平面和線)組成.它在室內(nèi)環(huán)境中特別有用,在室內(nèi)環(huán)境中,墻壁、地板和天花板等結(jié)構(gòu)通常在多個(gè)房間中顯示一致的對(duì)齊,從而實(shí)現(xiàn)全局對(duì)齊.


(圖一)
該方法適應(yīng)于低紋理的室內(nèi)場(chǎng)景,基于dense normal預(yù)測(cè)和曼哈頓世界假設(shè)實(shí)現(xiàn)低漂移單目SLAM.
下圖是StructureSLAM框架,在前端,編碼器-解碼器網(wǎng)絡(luò)預(yù)測(cè)密集的表面法線,同時(shí)從RGB圖像中提取點(diǎn)和線特征.在后端,首先使用法線和直線形式的場(chǎng)景結(jié)構(gòu)來(lái)估計(jì)攝像機(jī)的全局旋轉(zhuǎn).然后,使用點(diǎn)和線特征獲得用于平移的剩余3個(gè)自由度.使用局部地圖校正初始姿態(tài)估計(jì),關(guān)鍵幀是根據(jù)點(diǎn)特征和線特征來(lái)選擇的.

在傳統(tǒng)的基于特征的系統(tǒng)中,漂移的主要來(lái)源是旋轉(zhuǎn)估計(jì).即使曼哈頓假設(shè)是室內(nèi)SLAM的一個(gè)很好的約束,但很難在單目方法中實(shí)施,因?yàn)橹荒塬@得有限的3D信息.
周等人[10]應(yīng)用[24]將平行線段分類成不同的組,并從消失點(diǎn)估計(jì)主導(dǎo)方向.如果深度圖可用,可以直接計(jì)算表面法線.
Joo等人[25]為曼哈頓框架估計(jì)提供了一個(gè)分支定界框架.
MVO[23]提出了一種單位球均值漂移方法來(lái)尋找曼哈頓世界和相機(jī)系統(tǒng)之間的旋轉(zhuǎn)矩陣.對(duì)于平移部分,它們計(jì)算并對(duì)齊每個(gè)正交方向上點(diǎn)的密度分布,避免了昂貴的點(diǎn)匹配.
OPVO[26]使用平面來(lái)估計(jì)曼哈頓框架旋轉(zhuǎn),將其應(yīng)用限制在至少有兩個(gè)正交平面的環(huán)境中.
LPVO[12]為旋轉(zhuǎn)估計(jì)增加了直線的消失點(diǎn).兩者都使用基于點(diǎn)的方法進(jìn)行評(píng)估.
L-SLAM[13]在預(yù)測(cè)步驟中使用LPVO平移估計(jì).用基于卡爾曼濾波器的SLAM更新代替了來(lái)自LPVO的基于圖形的平移估計(jì).與[12]、[13]相比,我們構(gòu)建了一個(gè)基于點(diǎn)、線和預(yù)測(cè)法線的初始化模塊.此外,在解耦初始化之后,添加細(xì)化模塊來(lái)優(yōu)化姿態(tài).
文獻(xiàn)10
StructSLAM:Visual?SLAM?with?Building?Structure?Lines
文獻(xiàn)24
Robust?Multiple?Structures?Estimation?with?J-linkage
文獻(xiàn)25
Globally?Optimal?Manhattan?Frame?Estimation?in?Real-time
文獻(xiàn)23
?Divide?and?Conquer:
Efficient?Density-based?Tracking?of?3D?Sensors?in?Manhattan?Worlds
文獻(xiàn)26
?Visual?Odometry?with?Drift-free?Rotation?Estimation?Using?Indoor?Scene?Regularities
文獻(xiàn)12
Low-drift?Visual?Odometry?in?Structured?Environments?by?Decoupling?Rotational?and?Translational?Motion
文獻(xiàn)13
Linear?RGB-D?SLAM?for?Planar?Environments
圖5給出了不同估計(jì)方法的未訓(xùn)練的圖像的結(jié)果.在我們的方法中,我們屏蔽掉燈罩(first row)和小盒子(second row),因?yàn)檫@些區(qū)域被分類為非平面的.前兩rows顯示了室內(nèi)環(huán)境的常見(jiàn)示例.兩者都顯示了良好的結(jié)果,GeoNet顯示了較小的不準(zhǔn)確性.對(duì)于最后兩rows非常罕見(jiàn)的場(chǎng)景,我們的模型的平面區(qū)域檢測(cè)和法線估計(jì)仍然產(chǎn)生合理的結(jié)果,而來(lái)自GeoNet的法線預(yù)測(cè)的質(zhì)量嚴(yán)重下降.

(圖五)
下圖是StructureSLAM、ORB-SLAM和ICL NUIM數(shù)據(jù)集中“of-k3”序列的地面實(shí)況的軌跡分析

為了在不同的環(huán)境中評(píng)估我們的方法,我們從ICL-NUIM數(shù)據(jù)集和TUM RGB-D數(shù)據(jù)集中選擇結(jié)構(gòu)化圖像序列.

表二顯示了在幾個(gè)序列上所有方法的RMSE,lr和of代表ICL-NUIM數(shù)據(jù)集中的客廳和辦公室序列.s-t-near和s-not-near分別是TUM RGB-D數(shù)據(jù)集中structure-texture-near and structure-notexture-near序列.s-t-near和s-tfar顯示了由多個(gè)紋理平面組成的相同環(huán)境,s-not-near和s-not-far由相似的結(jié)構(gòu)組成,但沒(méi)有紋理.
為了體現(xiàn)我們方法的魯棒性,我們計(jì)算了這些序列的PRE,這些序列可以通過(guò)ORB-SLAM和我們的方法進(jìn)行魯棒處理.對(duì)于紋理化序列的s-t-far和s-t-near,ORB-SLAM和提出的方法具有相似的性能.對(duì)于ORB-SLAM,圖6(左)中序列“of-kt3”的相對(duì)誤差明顯較大,這對(duì)應(yīng)于圖4中給出的結(jié)果.如圖7所示,與ORB-SLAM方法相比,StructureSLAM方法在旋轉(zhuǎn)估計(jì)方面更穩(wěn)定.

我們還比較了不同方法跟蹤的幀數(shù),與ORB-SLAM相比,我們的方法檢索相機(jī)姿態(tài)更加可靠,特別是在“l(fā)r-kt2”、“of-kt3”和“s-t-far”中.如圖6右側(cè)的序列“of-kt3”所示,我們的方法快速初始化并跟蹤序列中的所有幀.對(duì)于圖8中的HRBB4,可以發(fā)現(xiàn)類似的結(jié)果.與僅在第628幀后初始化的ORB-SLAM相比,我們的方法能夠在第110幀左右更早地初始化.此外,所提出的方法在環(huán)境劇烈變化的走廊右上角顯示更魯棒.


我們提出了一個(gè)基于點(diǎn)、線和表面法線的單目相機(jī)的SLAM系統(tǒng).使用曼哈頓世界假設(shè)進(jìn)行旋轉(zhuǎn)估計(jì),使用點(diǎn)和線特征進(jìn)行窗口平移估計(jì).效果挺不錯(cuò)的.
