概述 | 全景圖像拼接技術全解析
點擊上方“小白學視覺”,選擇加"星標"或“置頂”
重磅干貨,第一時間送達
前言
圖像/視頻拼接的主要目的是為了解決相機視野(FOV-Field Of View)限制,生成更寬的FOV圖像/視頻場景。視頻拼接在體育直播、全景顯示、數(shù)字娛樂、視頻處理中都被廣泛應用,同時視頻/圖像拼接涉及到矯正圖像、對其與匹配圖像、融合、統(tǒng)一光照、無縫連接、多尺度重建等各個圖像算法模型與細節(jié)處理,可以說是圖像處理技術的綜合運用。特別是最近幾年收到深度學習的影響,各種基于深度學習的圖像對齊與拼接技術也取得了長足發(fā)展。
01
圖像拼接流程
圖像拼接流程主要是針對輸入系列視頻幀或者圖像,基于像素像素或者特征點相似然后對齊圖像、融合對齊之后的圖像,更新全景圖像拼接結果,圖示如下:

最常見就是基于SIFT/SURF/OBR/AKAZE等方法實現(xiàn)特征提取,基于RANSAC等方法實現(xiàn)對齊,基于圖像融合或者無縫克隆算法實現(xiàn)對齊圖像的拼接。
針對不同的拼接方式可以分為圖像拼接、視頻拼接、全景拼接。針對圖像拼接可以分為像素相似與特征相似;視頻拼接又分為固定相機、移動相機;全景拼接分為單相機、相機列陣、魚眼相機列陣。圖示如下:


02
深度學習方法
通過卷積神經(jīng)網(wǎng)絡CNN可以更好的學習與提取圖像特征、通過語義分割獲取初始匹配、然后對齊,圖示如下:

其中IA與IB是輸入圖像,CNN是預訓練的特征提取網(wǎng)絡模型,匹配網(wǎng)絡與回歸網(wǎng)絡。其中匹配網(wǎng)絡主要是計算相似程度,其網(wǎng)絡計算方式如下:

回歸網(wǎng)絡的結構如下:

評論
圖片
表情
