<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          【特征提取】基于深度學習的特征提取和匹配方法介紹

          共 6245字,需瀏覽 13分鐘

           ·

          2021-04-12 10:20

          點擊上方小白學視覺”,選擇加"星標"或“置頂

          重磅干貨,第一時間送達

          本文轉(zhuǎn)自 | AI深度學習視線


          精彩內(nèi)容

          計算機視覺需要圖像預處理,比如特征提取,包括特征點,邊緣和輪廓之類。以前做跟蹤和3-D重建,首先就得提取特征。特征點以前成功的就是SIFT/SURF/FAST之類,現(xiàn)在完全可以通過CNN模型形成的特征圖來定義。




          1


          • Discriminative learning of deep convolutional feature point descriptors

          該方法通過卷積神經(jīng)網(wǎng)絡(CNN)學習鑒別式補丁表示,特別是訓練具有成對(非)相應補丁的Siamese網(wǎng)絡。在訓練和測試期間它使用L2距離,提出了一種128-D描述符,其歐幾里德距離反映了補丁相似性,并且可作任何涉及SIFT的替代。

          如圖所示,用一個Siamese網(wǎng)絡來學習這樣的描述符,其中非線性映射由CNN表示,它對對應或非對應補丁對優(yōu)化。補丁通過模型提取描述符然后計算其L2范數(shù),作為圖像描述符的標準相似性度量。而目標是學習一個描述符,在其空間中讓非對應的補丁相隔甚遠,而在對應的補丁緊密相連。

          考慮每個圖像塊xi具有索引pi,該索引pi唯一地標識從給定視點大致投影到2D圖像塊的3D點,而目標函數(shù)定義如下:

          其中p1,p2分別是投影到x1,x2的3D點索引。

          這里下表給出的是三層網(wǎng)絡架構(gòu):64×64輸入在第3層中產(chǎn)生128維輸出。每個卷積層由四個子層組成:濾波器層,非線性層,池化層和歸一化層。

          非線性層,使用雙曲線切線單元(Tanh)池化層使用L2池化,歸一化很重要,這里使用減法歸一化,在第一和二層之后用高斯核減去5×5鄰域的加權(quán)平均值。




          • Learned Invariant Feature Transform

          LIFT是一種深度網(wǎng)絡架構(gòu),實現(xiàn)了完整的特征點檢測、朝向估計和特征描述,如圖所示。

          下圖是以Siamese架構(gòu)為基礎的整個特征檢測和描述流水線。為了訓練網(wǎng)絡,采用圖中的四分支Siamese結(jié)構(gòu)。每個分支包含三個不同CNN,一個檢測器、一個朝向估計器和一個描述子。使用四聯(lián)(quadruplets)圖像補丁。每個包括:圖像塊P1和P2對應于同樣3D點的不同視圖,圖像塊P3包含不同3D點的投影,圖像塊P4不包含任何顯著特征點。在訓練期間,每個四聯(lián)第i個補丁Pi將通過第i個分支


          為了實現(xiàn)端到端可微分,每個分支的組件連接如下:

          • 1) 給定輸入圖像塊P,檢測器提供得分圖S;

          • 2) 在得分圖S上執(zhí)行soft argmax 并返回單個潛在特征點位置x。

          • 3) 用空間變換器層裁剪(Spatial Transformer layer Crop)提取一個以x為中心的較小的補丁p(如圖5-3), 作為朝向估計器的輸入。

          • 4) 朝向估計器預測補丁方向θ。

          • 5) 根據(jù)該方向第二個空間變換器層(圖中的Rot)旋轉(zhuǎn)p產(chǎn)生pθ。

          • 6) pθ送到描述子網(wǎng)絡計算特征向量d。

          最后的運行結(jié)構(gòu)如圖所示。由于朝向估計器和描述子只在局部最大值進行評估,將檢測器解耦并在傳統(tǒng)NMS的尺度空間中運行,以獲得其他兩個組件的建議。


          最后看LIFT和SIFT結(jié)果比較的例子,如圖所示。




          • MatchNet

          MatchNet由一個深度卷積網(wǎng)絡組成,該網(wǎng)絡從補丁中提取特征,并由三個全連接層組成網(wǎng)絡計算所提取特征之間的相似性。

          如圖是MatchNet訓練時的網(wǎng)絡架構(gòu)(圖C),聯(lián)合學習將補丁映射到特征表示的特征網(wǎng)絡(圖 A)和將特征對映射到相似性的測度網(wǎng)絡(圖 B)。輸出尺寸由(高×寬×深)給出。PS是卷積和池化層的補丁大小; S是步幅。層類型:C=卷積,MP=最大池化,F(xiàn)C=全連接。因為填充卷積層和池化層,故輸出高度和寬度是輸入除以步幅的值。對FC層,大小B,F(xiàn)選自:B∈{64,128,256,512},F(xiàn)∈{128,256,512,1024}。除FC3外,所有卷積層和FC層用ReLU激活,輸出用Softmax歸一化。



          下圖是MatchNet預測的流水線圖,網(wǎng)絡拆解為并行的特征網(wǎng)絡和測度網(wǎng)絡。分兩個階段使用特征網(wǎng)絡和測度網(wǎng)絡:首先為所有補丁生成特征編碼,然后將這些特征配對并推送它們通過測度網(wǎng)絡獲得分數(shù)。




          • UCN

          通用對應網(wǎng)絡(Universal Correspondence Network,UCN)用于幾何和語義匹配的視覺對應,包括從剛性運動到類內(nèi)形狀或外觀變化等不同場景。深度測度學習過程,直接學習來保留幾何或語義相似性的特征空間。一種卷積空間變換器(convolutional spatial transformer,CST)模擬傳統(tǒng)特征(如SIFT)的補丁歸一化,可顯著提高類內(nèi)形狀變化語義對應(semantic correspondences)的準確性。

          如圖是UCN和傳統(tǒng)方法的比較:各種類型的視覺對應問題需要不同的方法,例如用于稀疏結(jié)構(gòu)的SIFT或SURF,用于密集匹配的DAISY或DSP,用于語義匹配的SIFT flow或FlowWeb。UCN準確有效地學習幾何對應、致密軌跡或語義對應的度量空間

          下圖是UCN系統(tǒng)概述:網(wǎng)絡是全卷積的,由一系列卷積、池化、非線性和卷積空間變換器組成,還有通道L2歸一化和對應對比損失函數(shù)。作為輸入,網(wǎng)絡采用圖像對應點的一對圖像和坐標(藍色:正,紅色:負)。對應于正樣本點(來自兩個圖像)的特征被訓練為彼此更接近,而對應于負樣本點的特征被訓練為相隔一定距離。在最后L2歸一化之前和FCNN之后,設置一個卷積空間變換器來歸一化補丁或考慮更大的上下文信息。

          下圖是視覺對應的對比損失函數(shù)示意圖:需要三個輸入,從圖像中提取的兩個密集特征及其坐標,和用于正負對應對的表。損失函數(shù)計算公式如下

          其中s=1位正對應對,而s=0為負對應對。

          如圖比較卷積空間變換器和其他方法的比較:(a)SIFT標準化旋轉(zhuǎn)和縮放;(b)空間變換器將整個圖像作為輸入來估計變換;(c)卷積空間變換器對特征進行獨立變換。





          • DGC-Net(Dense Geometric Correspondence Network)

          是一種基于CNN實現(xiàn)從粗到細致密像素對應圖(pixel correspondence map)的框架,它利用光流法的優(yōu)勢,并擴展到大變換,提供密集和亞像素精確的估計。訓練數(shù)據(jù)來自合成的變換,也應用于相機姿態(tài)估計的問題。

          如圖所示,一對輸入圖像被饋入由兩個預訓練的CNN分支組成的模塊,這些分支構(gòu)成一個特征金字塔。相關(guān)層從金字塔的粗層(頂)獲取源圖像和目標圖像的特征圖,并估計它們之間的成對相似性。然后,對應圖(correspondence map)解碼器獲取相關(guān)層(correlation layer)的輸出并直接預測該金字塔在特定層的像素對應關(guān)系。最后,以迭代方式細化估計。

          為了在特征空間中創(chuàng)建輸入圖像對的表示,構(gòu)造了一個有兩個共享權(quán)重分支的Siamese神經(jīng)網(wǎng)絡。分支用在ImageNet訓練的VGG-16架構(gòu),并在最后的池化層截斷,然后進行L2歸一化。在每個分支的不同部分提取特征fs,ft創(chuàng)建具有5-層特征金字塔(從頂部到底部),其分辨率是[15×15, 30×30, 60×60, 120×120, 240×240],在網(wǎng)絡訓練過程的其余時間固定CNN分支的權(quán)重。

          為估計兩個圖像之間的相似性,計算源圖像和目標圖像的標準化特征圖之間的相關(guān)體積。不同于光流法,直接計算全局相關(guān)性并在相關(guān)層前后做L2標準化以強烈減少模糊匹配(見圖所示)。

          將相關(guān)層輸出送到5個卷積塊(Conv-BN-ReLU)組成的對應圖解碼器,估計特征金字塔特定層l 的2D致密對應域ω(l)est。這是參數(shù)化估計,圖中每個預測像素位置屬于寬度和高度歸一化的圖像坐標區(qū)間[-1,1]。也就是說,上采樣在(l-1)層的預測對應域,讓第l層源圖像的特征圖變形到目標特征。最后,在上采樣域,變形源fs(ω(l)est)和目標ft(l)的特征沿著通道維度拼接在一起,并相應地作為輸入提供給第l級的對應圖解碼器。

          解碼器中每個卷積層被填充以保持特征圖的空間分辨率不變。此外,為了能夠在金字塔的底層捕獲更多空間上下文信息,從l = 3開始,將不同的空洞(dilation)因子添加到卷積塊以增加感受野。特征金字塔創(chuàng)建者、相關(guān)層和對應圖解碼器的分層鏈一起組成CNN架構(gòu),稱為DGC-Net。

          給定圖像對和地面實況像素相關(guān)映射ωgt,定義分層目標損失函數(shù)如下:

          其中||.||1是估計的對應圖和GT對應圖之間的L1距離,M(l)gt 是GT二值掩碼(匹配掩碼),表示源圖像的每個像素在目標是否具有對應關(guān)系。

          除了DGC-Net生成的像素對應圖之外,還直接預測每個對應的置信度。具體來說,通過添加匹配(matchability)分支來修改DGC-Net結(jié)構(gòu)。它包含四個卷積層,輸出了概率圖(參數(shù)化為sigmoid函數(shù)),標記預測對應圖每個像素的置信度,這樣架構(gòu)稱為DGC + M-Net。把此問題作為像素分類任務,優(yōu)化一個二值交叉熵(BCE),其中邏輯損失(logits loss)定義為:


          最終的損失為:


          更多的DGC-Net網(wǎng)絡細節(jié)見圖所示。


          而DGC+M-Net的一些網(wǎng)絡細節(jié)見圖所示。


          參考文獻

          • 1. E. Simo-Serra et al., “Discriminative learning of deep convolutional feature point descriptors”. ICCV 2015

          • 2. K Yi et al.,“Learned Invariant Feature Transform”, arXiv 1603.09114, 2016

          • 3. X Xu et al.,“MatchNet: Unifying Feature and Metric Learning for Patch-Based Matching”, CVPR 2015

          • 4. C Choy et al., “Universal Correspondence Network”,NIPS 2016

          下載1:OpenCV-Contrib擴展模塊中文版教程
          在「小白學視覺」公眾號后臺回復:擴展模塊中文教程,即可下載全網(wǎng)第一份OpenCV擴展模塊教程中文版,涵蓋擴展模塊安裝、SFM算法、立體視覺、目標跟蹤、生物視覺、超分辨率處理等二十多章內(nèi)容。

          下載2:Python視覺實戰(zhàn)項目52講
          小白學視覺公眾號后臺回復:Python視覺實戰(zhàn)項目,即可下載包括圖像分割、口罩檢測、車道線檢測、車輛計數(shù)、添加眼線、車牌識別、字符識別、情緒檢測、文本內(nèi)容提取、面部識別等31個視覺實戰(zhàn)項目,助力快速學校計算機視覺。

          下載3:OpenCV實戰(zhàn)項目20講
          小白學視覺公眾號后臺回復:OpenCV實戰(zhàn)項目20講,即可下載含有20個基于OpenCV實現(xiàn)20個實戰(zhàn)項目,實現(xiàn)OpenCV學習進階。

          交流群


          歡迎加入公眾號讀者群一起和同行交流,目前有SLAM、三維視覺、傳感器、自動駕駛、計算攝影、檢測、分割、識別、醫(yī)學影像、GAN、算法競賽等微信群(以后會逐漸細分),請掃描下面微信號加群,備注:”昵稱+學校/公司+研究方向“,例如:”張三 + 上海交大 + 視覺SLAM“。請按照格式備注,否則不予通過。添加成功后會根據(jù)研究方向邀請進入相關(guān)微信群。請勿在群內(nèi)發(fā)送廣告,否則會請出群,謝謝理解~


          瀏覽 59
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  操操操操操操操操操骚逼网 | 日本黄色片在线 | 国产精品秘 久久久久久电影院 | 欧美草壁视频 | 四虎影院av永久 素人无码成人网站 |