<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          TIP2021—重訪CV經(jīng)典: 首個(gè)無監(jiān)督深度學(xué)習(xí)圖像拼接框架

          共 5864字,需瀏覽 12分鐘

           ·

          2021-07-19 11:20

          點(diǎn)擊下方AI算法與圖像處理”,一起進(jìn)步!

          重磅干貨,第一時(shí)間送達(dá)

          來源:https://zhuanlan.zhihu.com/p/386863945 | 已授權(quán)轉(zhuǎn)載
          編輯:AI算法與圖像處理


          一、寫在前面

          圖像拼接(Image Stitching)可以說是計(jì)算機(jī)視覺領(lǐng)域中一個(gè)非常經(jīng)典且完備的體系,由于其包含如特征點(diǎn)檢測(cè)、映射估計(jì)、匹配對(duì)齊、投影變換和圖像融合等重要算法(其中每一個(gè)小點(diǎn)都可單獨(dú)拿出來研究),如此綜合全面的技術(shù)常常被選為各類畢業(yè)論文的研究課題。自2007年Matthew Brown在IJCV上發(fā)表“Automatic panoramic image stitching using invariant features”后,便吸引了眾多學(xué)者跑步入場(chǎng),很多被學(xué)術(shù)界和工業(yè)界青睞的算法如雙單應(yīng)矩陣、網(wǎng)格對(duì)齊、視頻拼接、立體拼接等如雨后春筍般映入眼簾。值得一提的是,如今Facebook在深度學(xué)習(xí)大放異彩的巨佬-何凱明和新星-Yuxin Wu都曾在圖像拼接還未“失寵”之前留下了美好回憶。更深入地,learning-based計(jì)算機(jī)視覺中很多任務(wù)與圖像拼接有著異曲同工之妙:都是在對(duì)比數(shù)據(jù)-學(xué)習(xí)映射關(guān)系-投影/映射至目標(biāo)空間這個(gè)流程下進(jìn)行的。

          https://link.springer.com/article/10.1007%2Fs11263-006-0002-3

          何凱明:https://pdfs.semanticscholar.org/b2db/139999b8adf1f40335538ecf35a472f58e60.pdf

          Yuxin Wu

          https://ppwwyyxx.com/blog/2016/How-to-Write-a-Panorama-Stitcher/

          隨著深度學(xué)習(xí)的快速發(fā)展,以大數(shù)據(jù)驅(qū)動(dòng)的有監(jiān)督學(xué)習(xí)在眾多計(jì)算機(jī)視覺課題中得到了廣泛研究?;谑止ぬ卣鞯膫鹘y(tǒng)視覺算法便慢慢退出了人們(arXiv)的視線,而其中圖像拼接為典型代表之一。當(dāng)然,近年也不乏懷舊派的忠實(shí)粉試圖來波文藝復(fù)興,但他們都只是在圖像拼接中某一個(gè)技術(shù)點(diǎn)上用深度學(xué)習(xí)進(jìn)行改進(jìn)。一個(gè)完整、靈活且魯棒的深度學(xué)習(xí)圖像拼接框架至今還未被人研究和探索過。下面,我將分享一篇近期我們組和電子科大劉帥成老師組(人均圖像拼接忠實(shí)老粉)合作的工作:Unsupervised Deep Image Stitching: Reconstructing Stitched Features to Images,目前該工作已被IEEE TIP接收。同時(shí),我們公開了首個(gè)真實(shí)場(chǎng)景的無監(jiān)督圖像拼接數(shù)據(jù)集,歡迎各位同行和前輩使用、測(cè)評(píng)。

          https://arxiv.org/pdf/2106.12859.pdf

          https://github.com/nie-lang/UnsupervisedDeepImageStitching

          二、研究動(dòng)機(jī)與發(fā)現(xiàn)

          傳統(tǒng)的基于手工特征點(diǎn)(如SIFT、ORB等)的圖像拼接方法嚴(yán)重依賴于特征點(diǎn)的檢測(cè)質(zhì)量,往往在低紋理,低光照或重復(fù)紋理等場(chǎng)景下失敗。而現(xiàn)有的深度學(xué)習(xí)有監(jiān)督拼接方案很少得到研究,其最主要的原因是拼接圖的Ground Truth難以獲得。

          為了解決以上兩個(gè)問題,我們提出了一種基于重建的無監(jiān)督圖像拼接方案。其重建的核心思想來自于一個(gè)有趣的發(fā)現(xiàn):像素級(jí)的不對(duì)齊現(xiàn)象可以在特征級(jí)上被一定程度削弱。因此,我們認(rèn)為:重建拼接特征比重建像素級(jí)拼接圖更容易,隨后拼接特征可以用來重建出拼接圖。如下圖從左至右依次展示了:1)像素不對(duì)齊 2)特征不對(duì)齊 3)重建的特征 4)重建的拼接圖。

          Fig. 1: Motivation

          三、無監(jiān)督圖像拼接

          如下圖,我們提出的無監(jiān)督拼接方案可以分為兩個(gè)階段:無監(jiān)督粗對(duì)齊和無監(jiān)督重建。第一個(gè)階段估計(jì)一個(gè)全局單應(yīng)性矩陣(homography)來粗對(duì)齊輸入圖像,第二階段重建粗對(duì)齊的結(jié)果得到拼接圖。

          • 無監(jiān)督粗對(duì)齊

          現(xiàn)有的無監(jiān)督deep homography方法在訓(xùn)練過程中,要求除了輸入網(wǎng)絡(luò)的patch對(duì)之外,還需要額外輸入patch對(duì)周圍的圖像信息。這種基于填充的約束方式可以避免warp后出現(xiàn)的黑色區(qū)域。但在低重疊率的圖像拼接場(chǎng)景中,這種patch對(duì)的選取方式可能導(dǎo)致兩個(gè)patch輸入之間找不到任何重疊區(qū)域(如下圖第1、2列),這樣會(huì)導(dǎo)致網(wǎng)絡(luò)對(duì)homography的估計(jì)毫無意義。為了解決上述問題,我們提出一種基于消融的約束方式(如下圖第3、4列),改動(dòng)如下:1)網(wǎng)絡(luò)的輸入為整張圖而不是patch,完全利用重疊區(qū)域 2)只約束warp后重疊區(qū)域的內(nèi)容一致。

          Fig. 3: Ablation-based Strategy

          • 無監(jiān)督重建

          第一步基于單homography的對(duì)齊不能解決視差的問題,會(huì)導(dǎo)致拼接圖中出現(xiàn)偽影。這一步我們提出一個(gè)無監(jiān)督的重建網(wǎng)絡(luò)來消除偽影。該網(wǎng)絡(luò)分為一個(gè)低分辨率重建分支和一個(gè)高分辨率優(yōu)化分支,其中重建分支用來消除偽影,優(yōu)化分支用來增強(qiáng)圖像質(zhì)量。

          Fig. 4: Learning Deformation Rules with Masks in Low-resolution

          在低分辨率的重建分支中,約束重建拼接圖的特征應(yīng)該盡可能接近warp過后的圖像特征。由此,我們提出了一個(gè)內(nèi)容約束和一個(gè)縫隙約束來引導(dǎo)重建過程的學(xué)習(xí)方式。對(duì)于內(nèi)容約束,我們約束拼接圖的Content Masks(上圖第3列)部分需要盡可能接近warped images的特征(VGG-19高層特征);對(duì)于縫隙約束,我們要求拼接圖的Seam Masks(上圖第4列)部分需要盡可能接近warped images的像素值。當(dāng)前低分辨率分支重建的過程可視化如下圖:網(wǎng)絡(luò)會(huì)優(yōu)先在encoder階段重建重疊區(qū)域的特征,然后在decoder階段恢復(fù)非重疊區(qū)域,最后重建出像素級(jí)的拼接圖。

          Fig. 5: Visualization of the Learning Process

          在高分辨率的優(yōu)化分支中,由于沒有Ground Truth作為監(jiān)督,我們采用和低分辨率相似的約束,只不過我們將Content Masks區(qū)域的VGG高層特征約束換為了低層特征約束。除此之外,為了防止高分辨率分支重建的圖像出現(xiàn)偽影(高分辨率下網(wǎng)絡(luò)的感受野相對(duì)降低),我們還增加了內(nèi)容一致性約束,即約束高分辨重建圖的像素內(nèi)容和低分辨率重建圖的像素內(nèi)容盡可能接近。下圖展示了低/高分辨率的輸出結(jié)果。

          Fig. 6: The Outputs of the Low-resolution Branch and High-resolution Branch

          四、數(shù)據(jù)集

          此外,我們還構(gòu)建了首個(gè)真實(shí)場(chǎng)景下的無監(jiān)督圖像拼接數(shù)據(jù)集(USIS-D)。該數(shù)據(jù)集包含了不同場(chǎng)景,不同重疊率和不同的視差的圖片對(duì)。訓(xùn)練集共10,440對(duì)圖像,測(cè)試集包含1,106對(duì)圖像。部分?jǐn)?shù)據(jù)展示如下:

          Fig. 7: Samples of the Constructed Dataset

          五、實(shí)驗(yàn)

          我們分別在homography估計(jì)任務(wù)和圖像拼接任務(wù)上進(jìn)行了定量和定性的評(píng)估。實(shí)驗(yàn)結(jié)果表示,甚至與現(xiàn)有的有監(jiān)督深度學(xué)習(xí)圖像拼接算法相比,我們的方法實(shí)現(xiàn)了更好的拼接結(jié)果。消融實(shí)驗(yàn)結(jié)果也證明了本文設(shè)計(jì)的不同模塊的有效性。更多實(shí)驗(yàn)結(jié)果和細(xì)節(jié)部分請(qǐng)參考原文。

          Fig. 8: Experimental Results

          Fig. 9: Visual Comparison Results

          六、一些思考及開放問題

          為了“重鑄”Stitching之光,并賦予拼接算法靈活且魯棒的特性,我們提出了首個(gè)無監(jiān)督深度學(xué)習(xí)圖像拼接框架。我們也希望本工作的實(shí)驗(yàn)結(jié)果和構(gòu)建的數(shù)據(jù)集能夠作為一個(gè)benchmark供后續(xù)工作參考。最后,我們還提出了一些思考及開放問題進(jìn)行適當(dāng)展望,歡迎各位同行及前輩交流、探討。

          • Towards panorama stitching

          本工作只考慮了左右兩視較為理想的圖像拼接情況,拼接場(chǎng)景所呈現(xiàn)的視場(chǎng)離360°全景還有一定距離。而增加輸入圖片數(shù)量又會(huì)帶來很大的空間負(fù)擔(dān),因此如何做好視場(chǎng)和模型空間的trade-off還是很值得去探索的。此外,本身就具備大視場(chǎng)的魚眼圖像或許會(huì)更適合當(dāng)前的deep image stitching,理論上兩張魚眼圖像就能夠展現(xiàn)一個(gè)完整的360°全景


          Fig. 10: Fisheye Panorama

          • Contrastive learning

          對(duì)比學(xué)習(xí)是自監(jiān)督學(xué)習(xí)近年來火熱的學(xué)習(xí)方式之一,而缺乏Ground Truth的圖像拼接算法與對(duì)比學(xué)習(xí)有著“渾然天成”的對(duì)應(yīng)關(guān)系。實(shí)際上,傳統(tǒng)圖像拼接算法也是通過對(duì)比兩幅圖像間的匹配程度及區(qū)域去進(jìn)行操作的。下圖是微軟亞研院在CVPR 2021上的一篇工作"Propagate Yourself: Exploring Pixel-Level Consistency for Unsupervised VisualRepresentation Learning",該工作提出了利用像素一致性去更好地促進(jìn)對(duì)比學(xué)習(xí)。而保持左右視圖在重疊區(qū)域的像素一致性,也正是圖像拼接的初衷所在。

          https://arxiv.org/pdf/2011.10043.pdf

          Fig. 11: Pixel-to-Propagation Consistency

          • Beyond stitching

          隨著VR技術(shù)的浪潮消散,全景拼接在工業(yè)界的需求也日益減少。此外,目前各類智能手機(jī)中也都集成了比較成熟的圖像拼接算法,套用股市里的一個(gè)經(jīng)典(xuan xue)語句——“利好落地便是利空”。所以,相較于視覺中的場(chǎng)景理解等high-level task, 當(dāng)前圖像拼接得到的關(guān)注并不是很多。但是,其中某些技術(shù)點(diǎn)仍具備廣闊的應(yīng)用場(chǎng)景,如單應(yīng)性矩陣估計(jì)(homography estimation)等。僅僅在今年的CVPR上,就可以看到很多基于homography的有趣研究,例如用homography指導(dǎo)雙目圖像壓縮,用homography去對(duì)齊多模態(tài)圖像,用homography幫助圖像修復(fù),甚至圖像超分也進(jìn)軍了homography。

          雙目圖像壓縮

          http://buaamc2.net/pdf/cvpr21hesic.pdf

          對(duì)齊多模態(tài)圖

          https://arxiv.org/pdf/2104.11693.pdf

          圖像修復(fù)

          https://arxiv.org/pdf/2104.11693.pdf

          像超分

          https://openaccess.thecvf.com/content/CVPR2021/papers/Son_SRWarp_Generalized_Image_Super-Resolution_under_Arbitrary_Transformation_CVPR_2021_paper.pdf


          Fig. 12: Deep Homography for Efficient Stereo Image Compression


          我們組最近也在單應(yīng)性矩陣估計(jì)這個(gè)任務(wù)上做了進(jìn)一步的改進(jìn),提出了“Depth-Aware Multi-Grid Deep Homography Estimation with Contextual Correlation”。與現(xiàn)有的絕大部分deep homography的工作不同,這個(gè)工作利用多網(wǎng)格單應(yīng)矩陣,將deep homography的應(yīng)用由“無視差場(chǎng)景”推廣到了“真實(shí)視差場(chǎng)景”。同時(shí),論文中設(shè)計(jì)的contextual correlation模塊比經(jīng)典的cost volume模塊更加高效(見下圖表)。目前該方法在所有的對(duì)比方法中取得了SOTA性能。論文已在arXiv上發(fā)布: arxiv.org/pdf/2107.0252,歡迎各位批評(píng)指正~

          https://arxiv.org/pdf/2107.02524.pdf



          努力分享優(yōu)質(zhì)的計(jì)算機(jī)視覺相關(guān)內(nèi)容,歡迎關(guān)注:


               
          個(gè)人微信(如果沒有備注不拉群!
          請(qǐng)注明:地區(qū)+學(xué)校/企業(yè)+研究方向+昵稱



          下載1:何愷明頂會(huì)分享


          AI算法與圖像處理」公眾號(hào)后臺(tái)回復(fù):何愷明,即可下載。總共有6份PDF,涉及 ResNet、Mask RCNN等經(jīng)典工作的總結(jié)分析


          下載2:終身受益的編程指南:Google編程風(fēng)格指南


          AI算法與圖像處理」公眾號(hào)后臺(tái)回復(fù):c++,即可下載。歷經(jīng)十年考驗(yàn),最權(quán)威的編程規(guī)范!



             
          下載3 CVPR2021

          AI算法與圖像處公眾號(hào)后臺(tái)回復(fù):CVPR,即可下載1467篇CVPR 2020論文 和 CVPR 2021 最新論文

          點(diǎn)亮 只需一秒,我卻能開心一天




          瀏覽 69
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  狠狠操在线观看 | 操碰在线中文字幕 | 成人性爱片免费视频 | 日韩久久久 | 久热精品视频在线播放 |