<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          基于深度學(xué)習(xí)的特征提取和匹配

          共 4492字,需瀏覽 9分鐘

           ·

          2021-05-13 07:32

          轉(zhuǎn)載自 | 計算機(jī)視覺life

          作者 | 黃浴

          鏈接 | https://zhuanlan.zhihu.com/p/78053406

          編者薦語

          計算機(jī)視覺需要圖像預(yù)處理,比如特征提取,包括特征點(diǎn),邊緣和輪廓之類。以前做跟蹤和3-D重建,首先就得提取特征。特征點(diǎn)以前成功的就是SIFT/SURF/FAST之類,現(xiàn)在完全可以通過CNN模型形成的特征圖來定義。

          特征提取


          Discriminative learning of deep convolutional feature point descriptors【1】
          該方法通過卷積神經(jīng)網(wǎng)絡(luò)(CNN)學(xué)習(xí)鑒別式補(bǔ)丁表示,特別是訓(xùn)練具有成對(非)相應(yīng)補(bǔ)丁的Siamese網(wǎng)絡(luò)。在訓(xùn)練和測試期間它使用L2距離,提出了一種128-D描述符,其歐幾里德距離反映了補(bǔ)丁相似性,并且可作任何涉及SIFT的替代。
          如圖所示,用一個Siamese網(wǎng)絡(luò)來學(xué)習(xí)這樣的描述符,其中非線性映射由CNN表示,它對對應(yīng)或非對應(yīng)補(bǔ)丁對優(yōu)化。補(bǔ)丁通過模型提取描述符然后計算其L2范數(shù),作為圖像描述符的標(biāo)準(zhǔn)相似性度量。而目標(biāo)是學(xué)習(xí)一個描述符,在其空間中讓非對應(yīng)的補(bǔ)丁相隔甚遠(yuǎn),而在對應(yīng)的補(bǔ)丁緊密相連。
          考慮每個圖像塊xi具有索引pi,該索引pi唯一地標(biāo)識從給定視點(diǎn)大致投影到2D圖像塊的3D點(diǎn),而目標(biāo)函數(shù)定義如下:
          其中p1,p2分別是投影到x1,x2的3D點(diǎn)索引。
          這里下表給出的是三層網(wǎng)絡(luò)架構(gòu):64×64輸入在第3層中產(chǎn)生128維輸出。每個卷積層由四個子層組成:濾波器層,非線性層,池化層和歸一化層。
          非線性層,使用雙曲線切線單元(Tanh)池化層使用L2池化,歸一化很重要,這里使用減法歸一化,在第一和二層之后用高斯核減去5×5鄰域的加權(quán)平均值。
          Learned Invariant Feature Transform【2】
          LIFT是一種深度網(wǎng)絡(luò)架構(gòu),實(shí)現(xiàn)了完整的特征點(diǎn)檢測、朝向估計和特征描述,如圖所示。
          下圖是以Siamese架構(gòu)為基礎(chǔ)的整個特征檢測和描述流水線。為了訓(xùn)練網(wǎng)絡(luò),采用圖中的四分支Siamese結(jié)構(gòu)。每個分支包含三個不同CNN,一個檢測器、一個朝向估計器和一個描述子。使用四聯(lián)(quadruplets)圖像補(bǔ)丁。每個包括:圖像塊P1和P2對應(yīng)于同樣3D點(diǎn)的不同視圖,圖像塊P3包含不同3D點(diǎn)的投影,圖像塊P4不包含任何顯著特征點(diǎn)。在訓(xùn)練期間,每個四聯(lián)第i個補(bǔ)丁Pi將通過第i個分支。
          為了實(shí)現(xiàn)端到端可微分,每個分支的組件連接如下:


          • 1) 給定輸入圖像塊P,檢測器提供得分圖S;
          • 2) 在得分圖S上執(zhí)行soft argmax 并返回單個潛在特征點(diǎn)位置x。
          • 3) 用空間變換器層裁剪(Spatial Transformer layer Crop)提取一個以x為中心的較小的補(bǔ)丁p(如圖5-3), 作為朝向估計器的輸入。
          • 4) 朝向估計器預(yù)測補(bǔ)丁方向θ。
          • 5) 根據(jù)該方向第二個空間變換器層(圖中的Rot)旋轉(zhuǎn)p產(chǎn)生pθ。
          • 6) pθ送到描述子網(wǎng)絡(luò)計算特征向量d。


          最后的運(yùn)行結(jié)構(gòu)如圖所示。由于朝向估計器和描述子只在局部最大值進(jìn)行評估,將檢測器解耦并在傳統(tǒng)NMS的尺度空間中運(yùn)行,以獲得其他兩個組件的建議。
          最后看LIFT和SIFT結(jié)果比較的例子,如圖所示。



          特征匹配

          • MatchNet【3】


          MatchNet由一個深度卷積網(wǎng)絡(luò)組成,該網(wǎng)絡(luò)從補(bǔ)丁中提取特征,并由三個全連接層組成網(wǎng)絡(luò)計算所提取特征之間的相似性。
          如圖是MatchNet訓(xùn)練時的網(wǎng)絡(luò)架構(gòu)(圖C),聯(lián)合學(xué)習(xí)將補(bǔ)丁映射到特征表示的特征網(wǎng)絡(luò)(圖 A)和將特征對映射到相似性的測度網(wǎng)絡(luò)(圖 B)。輸出尺寸由(高×寬×深)給出。PS是卷積和池化層的補(bǔ)丁大小; S是步幅。層類型:C=卷積,MP=最大池化,F(xiàn)C=全連接。因?yàn)樘畛渚矸e層和池化層,故輸出高度和寬度是輸入除以步幅的值。對FC層,大小B,F(xiàn)選自:B∈{64,128,256,512},F(xiàn)∈{128,256,512,1024}。除FC3外,所有卷積層和FC層用ReLU激活,輸出用Softmax歸一化。
          下圖是MatchNet預(yù)測的流水線圖,網(wǎng)絡(luò)拆解為并行的特征網(wǎng)絡(luò)和測度網(wǎng)絡(luò)。分兩個階段使用特征網(wǎng)絡(luò)和測度網(wǎng)絡(luò):首先為所有補(bǔ)丁生成特征編碼,然后將這些特征配對并推送它們通過測度網(wǎng)絡(luò)獲得分?jǐn)?shù)。


          • UCN【4】


          通用對應(yīng)網(wǎng)絡(luò)(Universal Correspondence Network,UCN)用于幾何和語義匹配的視覺對應(yīng),包括從剛性運(yùn)動到類內(nèi)形狀或外觀變化等不同場景。深度測度學(xué)習(xí)過程,直接學(xué)習(xí)來保留幾何或語義相似性的特征空間。一種卷積空間變換器(convolutional spatial transformer,CST)模擬傳統(tǒng)特征(如SIFT)的補(bǔ)丁歸一化,可顯著提高類內(nèi)形狀變化語義對應(yīng)(semantic correspondences)的準(zhǔn)確性。
          如圖是UCN和傳統(tǒng)方法的比較:各種類型的視覺對應(yīng)問題需要不同的方法,例如用于稀疏結(jié)構(gòu)的SIFT或SURF,用于密集匹配的DAISY或DSP,用于語義匹配的SIFT flow或FlowWeb。UCN準(zhǔn)確有效地學(xué)習(xí)幾何對應(yīng)、致密軌跡或語義對應(yīng)的度量空間。
          下圖是UCN系統(tǒng)概述:網(wǎng)絡(luò)是全卷積的,由一系列卷積、池化、非線性和卷積空間變換器組成,還有通道L2歸一化和對應(yīng)對比損失函數(shù)。作為輸入,網(wǎng)絡(luò)采用圖像對應(yīng)點(diǎn)的一對圖像和坐標(biāo)(藍(lán)色:正,紅色:負(fù))。對應(yīng)于正樣本點(diǎn)(來自兩個圖像)的特征被訓(xùn)練為彼此更接近,而對應(yīng)于負(fù)樣本點(diǎn)的特征被訓(xùn)練為相隔一定距離。在最后L2歸一化之前和FCNN之后,設(shè)置一個卷積空間變換器來歸一化補(bǔ)丁或考慮更大的上下文信息。
          下圖是視覺對應(yīng)的對比損失函數(shù)示意圖:需要三個輸入,從圖像中提取的兩個密集特征及其坐標(biāo),和用于正負(fù)對應(yīng)對的表。損失函數(shù)計算公式如下
          其中s=1位正對應(yīng)對,而s=0為負(fù)對應(yīng)對。
          如圖比較卷積空間變換器和其他方法的比較:(a)SIFT標(biāo)準(zhǔn)化旋轉(zhuǎn)和縮放;(b)空間變換器將整個圖像作為輸入來估計變換;(c)卷積空間變換器對特征進(jìn)行獨(dú)立變換。


          • DGC-Net【5】


          DGC-Net(Dense Geometric Correspondence Network)【5】是一種基于CNN實(shí)現(xiàn)從粗到細(xì)致密像素對應(yīng)圖(pixel correspondence map)的框架,它利用光流法的優(yōu)勢,并擴(kuò)展到大變換,提供密集和亞像素精確的估計。訓(xùn)練數(shù)據(jù)來自合成的變換,也應(yīng)用于相機(jī)姿態(tài)估計的問題。
          如圖所示,一對輸入圖像被饋入由兩個預(yù)訓(xùn)練的CNN分支組成的模塊,這些分支構(gòu)成一個特征金字塔。相關(guān)層從金字塔的粗層(頂)獲取源圖像和目標(biāo)圖像的特征圖,并估計它們之間的成對相似性。然后,對應(yīng)圖(correspondence map)解碼器獲取相關(guān)層(correlation layer)的輸出并直接預(yù)測該金字塔在特定層的像素對應(yīng)關(guān)系。最后,以迭代方式細(xì)化估計。
          為了在特征空間中創(chuàng)建輸入圖像對的表示,構(gòu)造了一個有兩個共享權(quán)重分支的Siamese神經(jīng)網(wǎng)絡(luò)。分支用在ImageNet訓(xùn)練的VGG-16架構(gòu),并在最后的池化層截斷,然后進(jìn)行L2歸一化。在每個分支的不同部分提取特征fs,ft創(chuàng)建具有5-層特征金字塔(從頂部到底部),其分辨率是[15×15, 30×30, 60×60, 120×120, 240×240],在網(wǎng)絡(luò)訓(xùn)練過程的其余時間固定CNN分支的權(quán)重。
          為估計兩個圖像之間的相似性,計算源圖像和目標(biāo)圖像的標(biāo)準(zhǔn)化特征圖之間的相關(guān)體積。不同于光流法,直接計算全局相關(guān)性并在相關(guān)層前后做L2標(biāo)準(zhǔn)化以強(qiáng)烈減少模糊匹配(見圖所示)。
          將相關(guān)層輸出送到5個卷積塊(Conv-BN-ReLU)組成的對應(yīng)圖解碼器,估計特征金字塔特定層l 的2D致密對應(yīng)域ω(l)est。這是參數(shù)化估計,圖中每個預(yù)測像素位置屬于寬度和高度歸一化的圖像坐標(biāo)區(qū)間[-1,1]。也就是說,上采樣在(l-1)層的預(yù)測對應(yīng)域,讓第l層源圖像的特征圖變形到目標(biāo)特征。最后,在上采樣域,變形源fs(ω(l)est)和目標(biāo)ft(l)的特征沿著通道維度拼接在一起,并相應(yīng)地作為輸入提供給第l級的對應(yīng)圖解碼器。
          解碼器中每個卷積層被填充以保持特征圖的空間分辨率不變。此外,為了能夠在金字塔的底層捕獲更多空間上下文信息,從l = 3開始,將不同的空洞(dilation)因子添加到卷積塊以增加感受野。特征金字塔創(chuàng)建者、相關(guān)層和對應(yīng)圖解碼器的分層鏈一起組成CNN架構(gòu),稱為DGC-Net。
          給定圖像對和地面實(shí)況像素相關(guān)映射ωgt,定義分層目標(biāo)損失函數(shù)如下:
          其中||.||1是估計的對應(yīng)圖和GT對應(yīng)圖之間的L1距離,M(l)gt 是GT二值掩碼(匹配掩碼),表示源圖像的每個像素在目標(biāo)是否具有對應(yīng)關(guān)系。
          除了DGC-Net生成的像素對應(yīng)圖之外,還直接預(yù)測每個對應(yīng)的置信度。具體來說,通過添加匹配(matchability)分支來修改DGC-Net結(jié)構(gòu)。它包含四個卷積層,輸出了概率圖(參數(shù)化為sigmoid函數(shù)),標(biāo)記預(yù)測對應(yīng)圖每個像素的置信度,這樣架構(gòu)稱為DGC + M-Net。把此問題作為像素分類任務(wù),優(yōu)化一個二值交叉熵(BCE),其中邏輯損失(logits loss)定義為:
          最終的損失為:
          更多的DGC-Net網(wǎng)絡(luò)細(xì)節(jié)見圖所示。
          而DGC+M-Net的一些網(wǎng)絡(luò)細(xì)節(jié)見圖所示。



          參考文獻(xiàn)

          • 1. E. Simo-Serra et al., “Discriminative learning of deep convolutional feature point descriptors”. ICCV 2015
          • 2. K Yi et al.,“Learned Invariant Feature Transform”, arXiv 1603.09114, 2016
          • 3. X Xu et al.,“MatchNet: Unifying Feature and Metric Learning for Patch-Based Matching”, CVPR 2015
          • 4. C Choy et al., “Universal Correspondence Network”,NIPS 2016
          • 5. I Melekhov et al, “DGC-Net: Dense Geometric Correspondence Network”, CVPR 2019
          本文僅做學(xué)術(shù)分享,如有侵權(quán),請聯(lián)系刪文。

          ?------------------------------------------------


          雙一流高校研究生團(tuán)隊創(chuàng)建 ↓

          專注于計算機(jī)視覺原創(chuàng)并分享相關(guān)知識 ?


          整理不易,點(diǎn)贊三連!

          瀏覽 54
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  大香蕉伊人在线观看免费 | 国产三级床戏 | 午夜资源网 | 破坏版无码AV在线播放 | 日本黄色片 |