<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          揭開“視頻超分”黑科技的神秘面紗

          共 5428字,需瀏覽 11分鐘

           ·

          2021-10-22 09:47

          點擊下方AI算法與圖像處理”,一起進步!

          重磅干貨,第一時間送達

          在看電影時,有一幕大家應該都非常熟悉,警察從證據(jù)圖片中選取一塊區(qū)域放大,再放大,直到一個很小的目標變得清晰可見,從而發(fā)現(xiàn)重要的線索?,F(xiàn)實中是不是真的有這樣的技術(shù),可以把模糊的小圖變得清晰?答案是,一定程度上可以,這項黑科技就是超分辨率技術(shù),從低分辨率圖像恢復高分辨率圖像,提高圖像的質(zhì)量,從而獲得更加清晰的圖片。超分辨率技術(shù)具有廣泛的實際應用,如醫(yī)學圖像重建、人臉圖像重建、遠程傳感、全景視頻、無人機監(jiān)控、超高清電視等。同樣道理,實時視頻也可以進行超分辨率處理,將模糊的小分辨率視頻變成高清超高清視頻,本篇干貨分享就來揭開這項黑科技的神秘面紗。

          01

          什么是超分辨率
          我們看到的圖片或者視頻,都是通過顯示設(shè)備顯示一個個像素來進行表達的。像素是在特定的時間點上能表達一個特定顏色的點,類似一片片馬賽克。一幅圖片就是由多個像素進行表達的,如圖1所示。一幅圖片有多少行和多少列像素,通常就是我們說的圖片和視頻的分辨率,它也是人眼能夠分辨圖像或者視頻中的點或線的能力。

          1 圖片中的像素

          數(shù)字相機在將真實世界轉(zhuǎn)換為圖片時,對真實的光信號進行了離散化,每個像素是一個采樣,像素與像素之間是有間隔的。當圖像分辨率較低時,采樣率就比較低,或者可以理解為像素與像素之間的間隔是較大的;分辨率提高,像素與像素之間的間隔就變小,最終在顯示圖像時,就會對場景有更加精細的呈現(xiàn)。因此我們希望圖像的分辨率越高越好,可以得到更加清晰的圖像。但是,由于采集設(shè)備的能力,或者編碼壓縮、傳輸?shù)确矫娴南拗?,圖像的分辨率有時會比較低,為了提高這些圖像的質(zhì)量,可以通過提升分辨率來得到更高質(zhì)量的圖像。最直接樸素的想法就是用相鄰的像素來填補空白,即近鄰取樣插值。但是這樣的算法會出現(xiàn)有階梯狀鋸齒,明顯不能很好地提高圖像的質(zhì)量。雙線性插值、雙三次插值、Lanczos插值等算法可以提高比近鄰取樣插值更好的效果。這一類傳統(tǒng)的算法,往往被歸為圖像縮放技術(shù)。一般縮放的比例不會太高。

          2 近鄰取樣插值

          隨著深度學習技術(shù)的發(fā)展,將低分辨率圖像進行處理,得到一張高分辨率圖像,同時恢復出自然、清晰的紋理,就是我們常聽到的超分辨率技術(shù),往往針對較高倍數(shù)的縮放,如4倍8倍縮放等。經(jīng)典的圖像超分算法SRCNN,首次將卷積神經(jīng)網(wǎng)絡(luò)應用于圖像超分辨率技術(shù),相較于傳統(tǒng)的算法,SRCNN在圖像的重建質(zhì)量上取得了極大的提升。與傳統(tǒng)方法類似,它實際上也是利用低分辨率圖像對空缺信息進行填補,從而提高分辨率和質(zhì)量。在學習階段,有同一幅圖的高分辨率和低分辨率兩個版本,輸入低分辨率圖,通過CNN網(wǎng)絡(luò)后,輸出高分辨率圖像,同時與原有的高分辨率圖進行對比,更新迭代下一次的學習,最后得到的CNN網(wǎng)絡(luò),就可以用來恢復低分辨率圖像。如圖3所示,首先將低分辨率圖輸入到網(wǎng)絡(luò),經(jīng)過特征提取、非線性映射、重建等步驟,輸入高分辨率圖像。SRCNN之所以比傳統(tǒng)網(wǎng)絡(luò)更加優(yōu)秀,是因為它即通過對低分辨率圖像的特征進行學習和提取,針對不同的紋理特征,然后根據(jù)特征的不同,從而可以更加合理地進行高頻信息的生成。

          3 SRCNN模型中的卷積結(jié)構(gòu)

          視頻與圖像類似,分辨率的提升對于提升視頻質(zhì)量也至關(guān)重要。與圖像超分最大的不同,就是視頻可以利用多個連續(xù)的圖像/幀之間的相關(guān)信息,提升目標圖像/幀的分辨率。雖然可以將視頻拆分成多幅圖像,然后用圖像超分算法進行處理,但是會造成幀與幀之間出現(xiàn)不連貫的失真。近年來出現(xiàn)了一大批優(yōu)秀的應用于視頻的超分算法,以圖像超分算法為基礎(chǔ),通過增加相應的模塊來挖掘幀與幀之間的特征,從而提高視頻超分算法的性能

          視頻超分,假設(shè)低分辨率視頻是從高分辨率的視頻經(jīng)過一系列的退化操作而得到,超分算法就是將該退化操作進行求逆,從而可以將低分辨率視頻恢復成高分辨率視頻。該退化操作可以表達為:

          式中符號分別表示低分辨率視頻的第i幀,高分辨率視頻的第i幀,以i幀為中心的2N+1個高分辨率視頻幀,及退化操作。通常退化操作為下采樣,模糊,以及運動形變等?,F(xiàn)實情況中,退化可能更加復雜,如顏色空間轉(zhuǎn)換、壓縮等。超分算法的目標即求解該退化過程的逆操作:


          02

          視頻超分辨率算法的分類
          基于深度學習的視頻超分算法,一般會采用卷積神經(jīng)網(wǎng)絡(luò)(CNN)、生成對抗網(wǎng)絡(luò)(GAN)或者循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN。架構(gòu)基本上都是將低分辨率作為輸入,然后進行幀間對齊,特征提取,特征融合,最后重建生成高分辨率視頻,如圖4所示??梢钥闯觯c圖像超分最大的不同之處在于,視頻超分使用了幀間的信息。如何高效地使用這些信息,也是不同的算法的區(qū)別之處。

          圖4 視頻超分算法的基本框架

          視頻超分可以利用相鄰幀間的信息,從而極大提高超分算法的性能。根據(jù)使用相鄰幀間的信息的方法,對超分算法進行簡單的分類:相鄰幀進行對齊和非對齊兩類。其中對齊算法又可以分成使用運動估計和運動補償(MEMC)以及使用可變卷積兩類。非對齊算法可分成二維卷積、三維卷積、RCNN、Non-Local。具體分類可圖5,

          圖5 視頻超分算法分類

          基于運動估計和運動補償算法

          運動估計和補償算法在視頻超分中有著非常重要的作用,很多算法都以此為基礎(chǔ)。運動估計是為了提取出幀間的運動信息,然后根據(jù)運動信息將不同的幀進行對齊。運動估計大多采用光流法,即通過計算幀間的時域相關(guān)性和變化,得到運動信息,如圖6所示。運動補償即利用運動信息來對相鄰的幀進行處理,從而與要處理的幀進行對齊。常用的方法有線性插值和空域變換網(wǎng)絡(luò)(STN)。

          圖6 光流算法

          VSRnet

          VSRnet是圖像超分算法SRCNN在視頻上的擴展,最大的改進就是增加了運動估計和運動補償模塊,輸入圖像由一幅變成多幀。運動信息的提取采用了Druleas算法。

          VESPCN

          VESPCNVideo efficient sub-pixel convolutional network,引入了一個空域運動補償變換模塊(MCT),運動補償后的幀作為卷積網(wǎng)絡(luò)的輸入,再經(jīng)過特征提取和融合,最后經(jīng)過一個亞像素卷積層做上采樣得到高分辨率視頻。MCT模塊采用CNN由粗到精來提取運動信息、進行運動補償。粗估網(wǎng)絡(luò)以2個連續(xù)幀作為輸入,經(jīng)過5層卷積和1層亞像素卷積,得到粗略的光流運動信息,然后進行運動補償。粗估網(wǎng)絡(luò)的輸入為粗估網(wǎng)絡(luò)得到的光流信息和運動補償幀,經(jīng)過卷積網(wǎng)絡(luò)得到更精細的運動信息和運動補償幀。

          RBPN

          受后向投影算法的啟發(fā),RBPN算法設(shè)計了一個投影模塊。投影模塊位于特征提取模塊和重建模塊之間。特征提取分為兩個部分,一是對目標幀的低分辨率進行特征提取,二是對目標幀、相鄰幀、及兩幀的光流圖的組合進行特征提取。投影模塊由編碼器和解碼器組成。編碼器由單圖超分模塊(處理目標圖得到的特征圖)、多圖超分模塊(處理目標幀、相鄰幀、及兩幀的光流圖的組合得到的特征圖)和殘差塊組成(處理前述兩個模塊,得到殘差),將殘差圖與單圖超分的結(jié)果疊加,送入解碼器,解碼器由殘差塊和下采樣卷積組成。解碼器的輸出進入下一個投影模塊,將所有投影模塊的解碼器的輸出送入重建模塊,得到超分幀。投影模塊可以重復使用,直到遍歷所有的幀。

          可變卷積

          上述這一類的超分算法,其共同點是都運用運動估計和運動補償技術(shù)來將相鄰的圖像與目標圖像進行對齊,但是都無法保證運動信息的準確性,特別是當有光線變化或者較大的運動的時候。針對這點,可變形卷積被用來代替運動估計和補償,來對齊圖像。下述算法將對這種方法進行簡要介紹。

          可變卷積于2017年提出,與傳統(tǒng)的卷積層不同的點是,傳統(tǒng)卷積層,每一層都的核都是固定大?。豢勺兙矸e在核中加入了偏移量,如此以來,輸入特征通過卷積操作,便可以更好地對幾何模型進行變換。采用可變卷積的視頻超分算法主要有EDVR,DNLN,TDAN,D3Dnet,VESR-Net。本文選取EDVRVERSR-Net進行簡要介紹。

          EDVR

          該算法奪取了NTIRE19 Challenge的冠軍。該算法有兩個關(guān)鍵的模塊:a、金字塔、級聯(lián)和可變形對齊模塊(PCD),用來解決復雜運動和大運動;b、時空注意融合模塊(TSA),用來融合多個對齊的特征圖。最后是重建模塊。此外,輸入模糊圖像時,可以增加預處理模塊來去模糊。該框架也可以用來進行其它類型的視頻處理。

          VERSR-Net

          該算法奪得優(yōu)酷視頻增強和超分算法挑戰(zhàn)賽的冠軍。它由特征編碼器,特征融合器和重建模塊組成。特征編碼器由一個卷積層和多個CARB組成。特征融合模式借鑒了EDVR算法中的PCD模塊,用來進行特征幀對齊。然后將特征圖分解,形成空域,時域和不同顏色通道的特征,然后將這些特征進行融合。重建模塊先經(jīng)過CARB模塊,然后進行特征解碼,最后將特征與雙三次插值的得到的高分辨圖進行疊加,得到最終結(jié)果。

          非對齊超分算法

          除了前述的對齊方法之外,還有多種非對齊算法,即重建時不需要對幀進行對齊操作??梢约毞譃?strong>二維卷積法(FFCVSR)、三維卷積法(動態(tài)上采樣濾波(DUF)、循環(huán)卷積法(雙向循環(huán)卷積網(wǎng)絡(luò)(BRCN)、非局部網(wǎng)絡(luò)法。除了二維卷積法之外,其余方法都使用了時空域聯(lián)合信息。這類方法依靠神經(jīng)網(wǎng)絡(luò)學習得到特征和運動信息,因而不需要幀對齊。在此不做深入分析。

          03

          各算法性能對比
          根據(jù)各種算法提供的實驗數(shù)據(jù),EDVR,RBPNFFCVSR是三個比較優(yōu)秀的算法,特別是EDVRRBPN都已經(jīng)被多次驗證過,比早期的超分算法更高效。EDVRNTIRE2019挑戰(zhàn)賽的冠軍,該挑戰(zhàn)賽目標是處理大運動場景和各種真實的視頻場景,因而EDVR也是近來超分領(lǐng)域比較流行的算法。近期的超分算法比更早期的算法高效,可能得益于硬件計算能力的提升,使更深和更復雜的網(wǎng)絡(luò)變得更容易。這幾個優(yōu)秀的算法,也都有一個明顯的特點,就是它們都有相應的模塊來處理高頻分量和時間相關(guān)信息,如EDVC里面的跨層PCD對齊,RBPN里的后向投影和特征上下文。

          雖然視頻超分的性能已經(jīng)有了顯著的提升,但深度神經(jīng)網(wǎng)絡(luò)的引入,使得訓練和預測的計算復雜度、存儲開銷都非常高。隨著移動設(shè)備的發(fā)展,高效輕量級網(wǎng)絡(luò)的需求變得更為迫切。特別是在實時通信領(lǐng)域,對視頻超分提出了更高的要求,由于實時通信還有更多模塊使用計算資源,因此實時通信中的超分,不但需要極為簡潔的設(shè)計,10毫秒級的處理算法才能真正落地;另外對幀的時延也有較高要求,往往目標幀之后的幀是不能作為輸入,以減少時延,這對網(wǎng)絡(luò)結(jié)構(gòu)的設(shè)計也有更高的要求。

          隨著人工智能和設(shè)備運算能力的持續(xù)進步,視頻質(zhì)量恢復(Video Restoraion)在RTC系統(tǒng)中的地位必將水漲船高,而視頻超分是視頻質(zhì)量恢復的最核心組件。在前文提到的技術(shù)基礎(chǔ)之上,拍樂云也自研了可適配于主流移動設(shè)備的超分算法,并將持續(xù)投入開發(fā),為用戶提供更高品質(zhì)的實時視頻體驗。

          參考文獻

          [1] https://arxiv.org/abs/2003.02115 J. Chen, et al. VESR-Net: TheWinning Solution to Youku Video Enhancement and Super-Resolution Challenge
          [2] https://arxiv.org/abs/1905.02716 ?X. Wang, et al. EDVR: Video Restoration with Enhanced Deformable Convolutional Networks
          [3] https://arxiv.org/abs/2003.13170 M. Haris, et al. Space-Time-Aware Multi-Resolution Video Enhancement
          [4] https://arxiv.org/abs/2007.12928 H. Liu, et al. Video Super Resolution Based on Deep Learning: A Comprehensive Survey
          [5] Dong C, et al. Image Super-Resolution Using Deep Convolutional Networks. TPAMI 2016.


          努力分享優(yōu)質(zhì)的計算機視覺相關(guān)內(nèi)容,歡迎關(guān)注:

          交流群


          歡迎加入公眾號讀者群一起和同行交流,目前有美顏、三維視覺、計算攝影、檢測、分割、識別、醫(yī)學影像、GAN算法競賽等微信群


          個人微信(如果沒有備注不拉群!
          請注明:地區(qū)+學校/企業(yè)+研究方向+昵稱



          下載1:何愷明頂會分享


          AI算法與圖像處理」公眾號后臺回復:何愷明,即可下載。總共有6份PDF,涉及 ResNet、Mask RCNN等經(jīng)典工作的總結(jié)分析


          下載2:終身受益的編程指南:Google編程風格指南


          AI算法與圖像處理」公眾號后臺回復:c++,即可下載。歷經(jīng)十年考驗,最權(quán)威的編程規(guī)范!



          下載3 CVPR2021

          AI算法與圖像處公眾號后臺回復:CVPR即可下載1467篇CVPR?2020論文 和 CVPR 2021 最新論文

          瀏覽 102
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  日本欧美在线视频播放 | 免费看黄色小视频 | 婷婷五月天色色 | 亚洲无码动漫在线观看 | 日韩无码中文字幕 |