Canny-VO: 基于幾何3D-2D邊緣對準(zhǔn)的RGB-D視覺里程計
點擊上方“小白學(xué)視覺”,選擇加"星標(biāo)"或“置頂”
重磅干貨,第一時間送達
轉(zhuǎn)自|當(dāng)SLAM遇見小王同學(xué)

摘要
本文回顧了自由曲線配準(zhǔn)的經(jīng)典問題, 并將其應(yīng)用于一個有效的稱為Canny-VO的RGBD視覺里程計系統(tǒng), ?因為它能有效地跟蹤從圖像中提取的所有Canny邊緣特征. 提出了邊緣配準(zhǔn)中常用的距離變換的兩種替代方法:近似最近鄰域和定向最近鄰域. ?3D/2D邊緣對齊在效率和精度方面受益于這些替代公式. 它消除了對數(shù)據(jù)到模型配準(zhǔn)、雙線性插值和亞梯度計算等計算要求更高的范例的需求. ?為了確保系統(tǒng)在存在異常值和傳感器噪聲時的魯棒性, 配準(zhǔn)被公式化為最大后驗概率問題, 并且所得到的加權(quán)最小二乘目標(biāo)通過迭代重新加權(quán)最小二乘方法來解決. 研究了各種穩(wěn)健的權(quán)函數(shù), 并根據(jù)殘差的統(tǒng)計量進行了最優(yōu)選擇. 最近鄰場的自適應(yīng)采樣定義進一步提高了效率.?對公共SLAM基準(zhǔn)序列的廣泛評估證明了最先進的性能和優(yōu)于經(jīng)典歐幾里德距離場的優(yōu)勢.
導(dǎo)言
基于圖像的攝像機運動估計稱為視覺里程計(VO). 在許多應(yīng)用中起著重要作用, 例如無人移動機器人的控制和導(dǎo)航, 特別是當(dāng)沒有外部參考信號可用時. 在過去的十年中, 我們見證了許多成功的工作,目前的工作集中在基于邊緣的配準(zhǔn)上, 它在用于配準(zhǔn)的數(shù)據(jù)量和計算復(fù)雜度之間找到了一個很好的折衷.
考慮到邊緣檢測器是在不變關(guān)鍵點提取器之前發(fā)現(xiàn)的, 毫不奇怪, 計算機視覺領(lǐng)域的開創(chuàng)性工作, 如[13]設(shè)想了整個3D曲線的映射和配準(zhǔn), 雖然基于稀疏點的方法已被證明非常有效地從運動的結(jié)構(gòu)反問題中減去對應(yīng)問題, 基于曲線的估計仍然是有趣的, 這是由于以下幾何上的優(yōu)勢:
圖像中的邊緣構(gòu)成了要配準(zhǔn)到模型中的大量數(shù)據(jù)點, 因此導(dǎo)致卓越的信噪比和提高的整體精度 在人造環(huán)境中, 邊緣代表一種更自然的選擇, 在人造環(huán)境中, 物體通常由均勻著色(即無紋理)的片狀平面構(gòu)成 線和曲線比點導(dǎo)致更有意義的環(huán)境3D表示.?基于曲線的3D模型可以例如簡化對象形狀、大小和邊界的推斷
然而直到最近, 在文獻中還沒有出現(xiàn)實際的、基于邊緣或曲線的跟蹤和建圖系統(tǒng), ?只有解決了配準(zhǔn)問題, 才容易知道3D曲線中的哪一點重新投影到圖像平面中測量的2D曲線中的哪一點. 因此, 對應(yīng)問題必須作為3D-2D配準(zhǔn)的一部分來解決。圍繞迭代最近點范式[14]、距離變換[15]的研究,以及最近的進展,如基于連續(xù)樣條的參數(shù)化[16]、[17],如今減輕了假定對應(yīng)關(guān)系的迭代計算, 從而使得在線自由形式的基于曲線的配準(zhǔn)成為可能.
本文的貢獻如下:
詳細回顧了3D-2D自由形式的邊緣對準(zhǔn), 總結(jié)了該問題的難點和現(xiàn)有機器人實時邊緣對準(zhǔn)方法給出的解決方案 距離變換的兩個替代方案: 近似最近鄰域和定向最近鄰域—具有提高配準(zhǔn)效率和精度的特性 基于最近鄰場的實時RGB-D視覺里程計系統(tǒng),? 通過將基于3D-2D ICP的運動估計公式化為最大后驗概率問題來實現(xiàn)魯棒跟蹤 對可公開獲得的RGB-D數(shù)據(jù)集進行了廣泛的評估, 并對性能進行了比較, 證明了與以前最先進的邊緣對齊方法相比的改進
實驗結(jié)果
我們從分析部分觀測數(shù)據(jù)的配準(zhǔn)偏差開始. 然后我們轉(zhuǎn)向系統(tǒng)中的最佳參數(shù)選擇, 主要討論穩(wěn)健權(quán)函數(shù)的選擇. 我們的主要實驗比較了分別使用EDF、ANNF 、ONNF,的定量結(jié)果.所有都采用高斯-牛頓法. 評估使用了兩個公開的基準(zhǔn)數(shù)據(jù)集. 最后我們提供了一個具有挑戰(zhàn)性的RGB-D序列來定性地評估我們的VO系統(tǒng)在相對大規(guī)模的室內(nèi)環(huán)境中的性能.
請注意, 下表中列出的軌跡評估結(jié)果, 包括相對姿態(tài)誤差(RPEs)和絕對軌跡誤差(ATEs)均以均方根誤差(RMEs)給出.
我們在地平面上定義了一個人工圓形圖案. 這個圖案有一張A4紙那么大. 然后我們假設(shè)一個向下看的透視相機, 焦距為500.0,VGA分辨率. 選擇照相機的高度, 使得圖案覆蓋圖像的整個寬度. 因此參考系的姿態(tài)由t和R決定, 一旦提取3D邊緣點, 參考幀的位置被干擾, 并使用EDF、ANNF或ONNF重新優(yōu)化. 為了創(chuàng)建與[17]中介紹的情況非常相似的部分觀察情況, 在覆蓋π /4 rad的圖像中, 僅保留了圓形邊緣的一小部分連續(xù)部分(沿圓形隨機定位). 每種方法測試1000次. 請注意測試沒有使用穩(wěn)健的權(quán)重函數(shù), 以便不隱藏估計中的潛在偏差, 這就是我們所追求的. 還要注意的是, 我們沒有向數(shù)據(jù)中添加任何噪聲,如圖7所示. 在優(yōu)化后, ONNF報告了幾乎為零的偏差, 從而清楚地證明了它在處理部分觀測數(shù)據(jù)方面優(yōu)于其他兩種方法.

在我們的方法中, 精確提取Canny邊緣是精確運動估計的關(guān)鍵. 漸變貼圖的質(zhì)量決定了差異. 因此, 我們研究了具有不同核大小的Sobel濾波器, 并且發(fā)現(xiàn)對稱的5 × 5核優(yōu)于3 × 3濾波器, 并且足以進行良好的估計. 圖像的高級平滑進一步有助于改善邊緣檢測.
為了確定最佳魯棒權(quán)重函數(shù), 我們首先定義序列中的參考幀, 然后使用每一幀和最近的參考幀之間的地面真實相對姿態(tài)來計算殘差. 殘差在由同一RGB-D相機捕獲的幾個序列上收集, 然后匯總在直方圖中. 作為一個例子, 在圖8中示出了使用人工神經(jīng)網(wǎng)絡(luò)距離度量對殘差的所有擬合結(jié)果, 并且在表2中報告了每個模型的參數(shù). 用EDF和ONNF對殘差的擬合結(jié)果可以用同樣的方法得到. 一般來說, T分布在擬合直方圖上是最好的, 尤其是對于大殘差.

我們在數(shù)據(jù)集中的幾乎所有序列上評估我們的方法, 我們的主要目的是證明所提出的人工神經(jīng)網(wǎng)絡(luò)和神經(jīng)網(wǎng)絡(luò)在精度和魯棒性方面優(yōu)于經(jīng)典的線性微分方程.?為了實現(xiàn)公平的比較, 我們實現(xiàn)了我們自己的基于EDF的跟蹤器, 其性能優(yōu)于[37]. 此外為了全面評估性能, 評估中包括了一個基于稀疏特征的解決方案ORB-SLAM2 (RGB-D版本). 然而請注意, 我們僅使用[47]的跟蹤器來公平評估實驗中的純跟蹤性能(通過將mbOnlyTracking設(shè)置為真).


如表三和表四所示, 基于人工神經(jīng)網(wǎng)絡(luò)的范式比EDF(我們將其歸因于使用有符號點到切線的距離)獲得了更好的精度, 并且由于無偏差估計,基于人工神經(jīng)網(wǎng)絡(luò)的跟蹤明顯優(yōu)于其他方法。由于邊緣對齊方法依賴于精確的Canny邊緣檢測,因此看到[47]在幾個序列上表現(xiàn)更好也就不足為奇了, 在之前數(shù)據(jù)集中, 由于劇烈的旋轉(zhuǎn)會出現(xiàn)顯著的圖像模糊. 如果使用更先進的設(shè)備, 例如配備了全局快門RGB相機的Kinect V2, 這個問題就不那么明顯了. 在其他序列中也可以看到基于邊緣對齊的方法的大均方根值, 這是由不明確的結(jié)構(gòu)引起的. 在具有相同顏色的兩個平面的結(jié)合處僅檢測到一個邊緣, 這明顯導(dǎo)致跟蹤失敗, 因為至少一個自由度的運動變得不可觀察. 然而總的來說, 基于神經(jīng)網(wǎng)絡(luò)和神經(jīng)網(wǎng)絡(luò)的跟蹤器工作得非常好, 因為中值誤差仍然相當(dāng)小. 總之序列fr2 xyz和fr3非結(jié)構(gòu)紋理的半密度重建結(jié)果在圖9中給出. 由于沒有進行全局優(yōu)化, 這些重建的清晰性再次強調(diào)了邊緣對齊的質(zhì)量.

Handa在2014年提供了一個高質(zhì)量的室內(nèi)數(shù)據(jù)集, 用于評估RGB-D VO/SLAM系統(tǒng). 雖然它是合成的, 但結(jié)構(gòu)和紋理是使用專業(yè)的3D內(nèi)容創(chuàng)建軟件逼真地渲染的. 適當(dāng)考慮照明和反射屬性, 我們使用客廳集合來評估我們的算法, 該集合包含由同一房間內(nèi)的不同軌跡組成的四個序列. 該場景有幾個對VO/SLAM系統(tǒng)具有挑戰(zhàn)性的元素, 包括反射表面、局部紋理差的區(qū)域和多個照明源. 評價結(jié)果見表五和表六. 我們看到基于ONNF的跟蹤器在比較中再次給出了最好的性能。由于合成數(shù)據(jù)集中不存在圖像模糊效果,因此基于ONNF的跟蹤方案的優(yōu)勢更加明顯。ORB-SLAM2的性能在某些點上受到局部無紋理場景的影響,在這些點上只出現(xiàn)斑點和曲線(對象的邊界),而不是像角一樣的特征。最后,在圖10中,我們再次使用基于ONNF的跟蹤來提供客廳kt2的半感重建



我們捕獲并分析了我們自己的大規(guī)模室內(nèi)RGBD序列, 這是對澳大利亞國立大學(xué)(ANU)工程研究學(xué)院完整水平的掃描. 它比大多數(shù)TUM數(shù)據(jù)集更具挑戰(zhàn)性, 至少有兩個原因. 首先場景是一個大約300平方米的開放空間辦公區(qū)域, 具有高度自相似的位置. 建筑物的足跡如圖11所示. 照明不像在小規(guī)模環(huán)境中那樣一致, 例如桌子或小辦公室. 其次這個序列包含了一系列具有挑戰(zhàn)性的結(jié)構(gòu), 比如反射面(窗戶玻璃)和雜亂的物體(植物). 我們使用微軟Kinect v2進行數(shù)據(jù)收集, RGB和深度圖像被預(yù)先對齊并調(diào)整到VGA分辨率, 類似于在TUM基準(zhǔn)序列中所做的.



通過在圖12中可視化重建結(jié)果來定性地評估所有算法。[47]的全局BA模塊再次被禁用,以強調(diào)純跟蹤性能。雖然[47]在直線部分表現(xiàn)很好,但在拐角處會出現(xiàn)嚴(yán)重的問題。跟蹤不良是由于窗玻璃上的反射成像產(chǎn)生了虛假特征。利用良好的信噪比和提出的魯棒加權(quán)策略,所有基于邊緣對準(zhǔn)的跟蹤器在拐角處仍然表現(xiàn)良好。人工神經(jīng)網(wǎng)絡(luò)和自然神經(jīng)網(wǎng)絡(luò)相對于法國電力的優(yōu)勢是顯而易見的從直線部分看。通過查看起點附近的兩個回收站(藍色和紅色),ONNF在端到端錯誤方面表現(xiàn)最佳。請注意,筆直的走廊看起來有些彎曲,因為透明窗玻璃一側(cè)有一些透視效果,這提供了不準(zhǔn)確的深度測量。圖13給出了更詳細的地圖和在使用基于ONNF的跟蹤進行勘探期間發(fā)生的一些特寫鏡頭。

在實際應(yīng)用中, 實時性能通常是任何VO系統(tǒng)所要求的. 為了看到效率方面的提高, 我們比較了每種方法在具有酷睿i7-4770 CPU的桌面上的計算時間. 如圖14所示, 跟蹤線程中的計算包括四個部分:Canny邊緣檢測(CE)、距離變換(DT)、優(yōu)化(Opt)和其他. 如前所述, 神經(jīng)網(wǎng)絡(luò)的延遲時間計算幾乎與能量密度函數(shù)一樣快, 而能量密度函數(shù)由于自適應(yīng)采樣和并行計算是最有效的. 另一個顯著的不同發(fā)生在優(yōu)化中. 由于在評估目標(biāo)函數(shù)期間需要雙線性插值,?基于EDF的方法比人工神經(jīng)網(wǎng)絡(luò)花費更多的時間.?基于ONNF的跟蹤基本上和基于ann的跟蹤一樣快.?基于最近鄰場的方法的優(yōu)化時間的差異是由于另一種修改.?我們在中包含了隨機優(yōu)化策略基于ONNF的跟蹤的實現(xiàn), 從少量的3D點開始, 逐漸增加數(shù)量, 直到達到最小值, 在這里對所有點進行優(yōu)化.?注意圖14中的結(jié)果在點數(shù)(最多6500)上被歸一化, 并且它包括對整個圖像金字塔(從級別0到級別2)的計算.?此外參考系準(zhǔn)備線程以10 Hz并行運行.
即使使用三個金字塔級別, 我們的方法也能在CPU上實現(xiàn)大約25 Hz的實時處理. 計算的主要瓶頸是圖像處理. 考慮到這可以卸載到嵌入式硬件中, 我們相信我們的方法對于計算受限的設(shè)備來說是一個有趣的選擇.
結(jié)論
本文引入近似最近鄰場作為3D-2D曲線對準(zhǔn)中歐幾里德距離場的有效的、至少同樣精確的替代, 在計算效率方面具有明顯的益處.?我們進一步證明了有效的子采樣策略對于最近鄰場提取是容易實現(xiàn)的.基于幾何方法的半稠密特征對齊具有明顯的優(yōu)勢, 即對光照變化的彈性, 以及包含在基于曲線的束調(diào)整中的能力, 該束調(diào)整依賴于結(jié)構(gòu)的全局、基于樣條的表示.?關(guān)注于曲線校準(zhǔn)中剩余誤差的有效公式, 我們相信目前的研究代表了這一研究領(lǐng)域的重要補充.?我們未來的目標(biāo)包括將定向最近鄰場納入大規(guī)?;谶吘壍腟LAM和基于樣條的常規(guī)相機全局優(yōu)化框架.
交流群
歡迎加入公眾號讀者群一起和同行交流,目前有SLAM、三維視覺、傳感器、自動駕駛、計算攝影、檢測、分割、識別、醫(yī)學(xué)影像、GAN、算法競賽等微信群(以后會逐漸細分),請掃描下面微信號加群,備注:”昵稱+學(xué)校/公司+研究方向“,例如:”張三?+?上海交大?+?視覺SLAM“。請按照格式備注,否則不予通過。添加成功后會根據(jù)研究方向邀請進入相關(guān)微信群。請勿在群內(nèi)發(fā)送廣告,否則會請出群,謝謝理解~


