CVPR 2020 視覺定位挑戰(zhàn)賽冠軍方案解讀

極市導(dǎo)讀
?本文介紹了今年CVPR視覺定位挑戰(zhàn)賽的冠軍方案,詳細(xì)介紹了本次賽題:如何在場景變化時進(jìn)行定位,以及冠軍方案思路。?>>加入極市CV技術(shù)交流群,走在計算機視覺的最前沿

關(guān)于視覺定位挑戰(zhàn)賽
視覺定位是一個估計6自由度(DoF)相機姿態(tài)的問題,從中獲取一個給定的圖像相對于一個參考場景表示。視覺定位是增強、混合和虛擬現(xiàn)實等應(yīng)用以及機器人技術(shù)(如自動駕駛汽車)的關(guān)鍵技術(shù)。
為了評估較長時間內(nèi)的視覺定位,官方提供了基準(zhǔn)數(shù)據(jù)集,旨在評估由季節(jié)(夏季、冬季、春季等)和照明(黎明、白天、日落、夜晚)條件變化引起的較大外觀變化的6自由度姿態(tài)估計精度。每個數(shù)據(jù)集由一組參考圖像及其相應(yīng)的地面真實姿態(tài)和一組查詢圖像組成。官方為每個數(shù)據(jù)集提供一個三角化的三維模型,并可用于基于結(jié)構(gòu)的定位方法。
主頁地址[1]:
https://www.visuallocalization.net
難點

冠軍方案
冠軍方案

建圖
定位
本階段的目標(biāo)是從上面建好地圖中定位輸入的圖像對應(yīng)相機的位姿。
粗定位:NetVLAD[3,4] retrieval (trained on Pitts-30k, top 50)
細(xì)定位:SP+SG+RANSAC PnP
下圖展示了查詢圖像與地圖中圖像的匹配效果。

下圖展示了根據(jù)Aachen Day-Night數(shù)據(jù)集建立的3D模型 (database (red), day-time query (green), night-time query images (blue))

結(jié)果
在上述數(shù)據(jù)集,不同定位閾值下的召回率排名如下圖,本方案能夠以較明顯的優(yōu)勢取勝。

展望
上文主要對視覺定位挑戰(zhàn)賽以及CVPR 2020的冠軍方案進(jìn)行了介紹。基于深度學(xué)習(xí)的相似圖像召回,圖像特征點匹配扮演了重要的角色。
雖然目前方案能夠獲得出色的性能表現(xiàn),但筆者認(rèn)為定位性能仍然具有提升空間。例如,由于目前建圖階段并不考慮實時性,此時可以使用SP+SG對整個場景進(jìn)行重建,這樣可以彌補SIFT在大視角變化時無法應(yīng)對的數(shù)據(jù)關(guān)聯(lián)。此外,相似圖像召回的方法不限于NetVLAD (CVPR 2016),可以使用性能更好的算法如[5]中提到的方案。注意到Hloc使用的是分級定位的思想,這使得分模塊實現(xiàn)/優(yōu)化變得比較輕松,例如上述改進(jìn)方法;但值得思考的是這種“局部最優(yōu)”拼湊起來的效果一定是“全局最優(yōu)”嗎?匹配做的好,位姿結(jié)算一定準(zhǔn)確嗎?后續(xù)的工作可以對此進(jìn)行更多地討論與研究(谷歌公布2020圖像匹配挑戰(zhàn)對該問題進(jìn)行了較為詳細(xì)的說明,建議閱讀[8])。
參考
推薦閱讀
CVPR 2020 夜間目標(biāo)檢測挑戰(zhàn)賽冠軍方案解讀 CVPR 2020 SLAM挑戰(zhàn)賽冠軍方案解讀,搞定超難數(shù)據(jù)集TartanAir 時隔一年,盤點CVPR 2019影響力最大的20篇論文

