<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          最新綜述丨視頻超分辨率研究方法

          共 6443字,需瀏覽 13分鐘

           ·

          2021-01-05 16:51

          ↑ 點擊藍字?關注極市平臺

          作者丨Wangsy
          編輯丨極市平臺

          極市導讀

          ?

          本文是第一個也是唯一一個視頻超分方向的綜述,回顧了基于深度學習的視頻超分技術的研究進展,提出了一種基于深度學習的視頻超分分類方法,并總結了SOTA方法在一些公共基準數(shù)據(jù)集上的性能。?>>加入極市CV技術交流群,走在計算機視覺的最前沿

          看點

          近年來,深度學習在很多領域取得了進展,其中包括視頻超分辨率任務。本文是第一個也是唯一一個視頻超分方向的綜述,主要看點如下:

          1)回顧了基于深度學習的視頻超分技術的研究進展;
          2)提出了一種基于深度學習的視頻超分分類方法,利用不同處理幀間信息的方式進行分類;
          3)總結了SOTA方法在一些公共基準數(shù)據(jù)集上的性能;
          4)分析了視頻超分任務的一些前景和挑戰(zhàn);

          背景

          視頻超分源于圖像超分,其目的是從一個或多個低分辨率(LR)圖像中恢復高分辨率(HR)圖像。它們的區(qū)別也很明顯,由于視頻是由多個幀組成的,即前者通常利用幀間的信息來進行修復。下面將敘述一些有關視頻超分的基礎背景知識(本節(jié)為基礎知識,選看)。

          退化過程

          HR的退化過程如下:

          其中表示HR,表示LR,(·)表示退化函數(shù),表示退化函數(shù)的參數(shù)和各種退化因子,例如噪聲、運動模糊、下采樣因子等。視頻超分旨在解決退化的視頻序列,從而恢復相應的HR視頻序列。因此超分辨過程可理解為上述的逆過程,表述如下:

          其中表示超分辨率估計值(SR)。在大多數(shù)現(xiàn)有的方法中,退化過程如下:

          其中k代表模糊核,n代表高斯噪聲,和?代表下采樣s倍和卷積操作。

          評價指標和損失函數(shù)

          與圖像超分辨率一樣,視頻質(zhì)量主要通過峰值信噪比(PSNR)和結構相似性指數(shù)(SSIM)來評價。這些指標分別衡量兩幅圖像像素的差異和結構的相似性。PSNR定義為:

          其中L表示顏色值的最大范圍,通常為255,N表示圖像中像素的總數(shù),MSE經(jīng)常作為損失函數(shù)出現(xiàn)。SSIM定義為:

          其中分別表示圖像的平均值,是常數(shù),通常設為0.01和0.03,表示標準差,表示協(xié)方差。

          此外,度量方法還包括MOVIE、感知圖像相似度(LPIPS),tOF和tLP等。

          總結與分類

          總結

          到目前為止,已經(jīng)有了許多的視頻超分算法。下圖總結了近年來基于深度學習的視頻超分方法的特點。其中MEMC表示運動估計和補償方法,DC表示可變形卷積方法,3D Conv表示3D卷積方法,RCNN表示循環(huán)卷積神經(jīng)網(wǎng)絡方法。

          分類

          多篇研究表明,幀間信息的利用對視頻超分的性能有很大影響。正確、充分地利用這些信息可以提高超分的最終結果。因此,根據(jù)幀間信息的利用方式——是否對齊,將現(xiàn)有方法分為兩大類:對齊方法和非對齊方法,如下圖所示:

          對齊方法

          對齊方法通過提取運動信息,使相鄰幀與目標幀對齊。該方法主要有運動補償和可變形卷積兩種方法。

          運動估計與補償方法

          在視頻超分對齊方法中,大多數(shù)方法采用運動補償和運動估計技術。具體而言,運動估計的目的是提取幀間運動信息,而運動補償用于根據(jù)幀間運動信息執(zhí)行幀間的扭曲操作使其對齊。大多數(shù)運動估計技術都是通過光流方法來實現(xiàn)的。該方法通過相鄰幀在時域的相關性和變化來計算相鄰幀之間的運動。運動補償方法可分為傳統(tǒng)方法(如LucasKanade、Druleas)和深度學習方法(如FlowNet、FlowNet 2.0和SpyNet)。

          光流方法以兩個連續(xù)幀作為輸入,其中一個是目標幀,另一個是相鄰幀。然后,該方法通過以下公式計算從幀的光流

          其中分別代表水平和垂直分量,ME(·)為計算光流的函數(shù),為所需參數(shù)。運動補償用于根據(jù)運動信息在圖像之間進行圖像變換,使相鄰幀在空間上與目標幀對齊。它可以通過一些方法實現(xiàn),如雙線性插值和空間變換網(wǎng)絡(STN)等:

          其中MC(·)表示運動補償函數(shù),、分別表示相鄰幀、光流和參數(shù)。圖3示出了運動估計和運動補償?shù)氖纠O旅鎸⒔榻B這類中的一個代表性方法——RBPN。

          RBPN

          論文鏈接:https://arxiv.org/pdf/1903.10128.pdf

          受反投影算法的啟發(fā),提出了循環(huán)反投影網(wǎng)絡(RBPN),其結構如下圖所示。

          該網(wǎng)絡由特征提取模塊、投影模塊和重建模塊組成。特征提取模塊包括兩個操作,一個是提取目標幀的特征,另一個是從目標幀、相鄰幀和相鄰幀到目標幀的光流中提取特征,然后隱式地執(zhí)行對齊。光流由pyflow計算。投影模塊由編碼器和解碼器組成,如下圖所示。在編碼器中,將特征提取模塊輸出的兩個特征圖分別進行單圖超分和多圖超分處理。然后將兩個結果的差分圖輸入殘差模塊,計算殘差。最后,將殘差結果和單圖超分之和作為編碼器的輸出,輸入進解碼器。在解碼器中,通過殘差模塊和下采樣操作來處理輸入,將輸出輸入進下一個投影模塊,將所有投影模塊解碼器的輸出輸入進重建模塊,得到SR幀。投影是重復使用的,直到處理完所有相鄰幀,這是“循環(huán)反投影網(wǎng)絡”一詞的原因。

          RBPN采用DBPN作為單圖超分網(wǎng)絡,ResNet和反卷積作為多圖超分網(wǎng)絡。使用Vimeo-90K數(shù)據(jù)集作為訓練集,同時使用數(shù)據(jù)擴充技術。批大小和補丁大小分別設置為8和64×64。損失和Adam分別作為損失函數(shù)和優(yōu)化器。初始學習率設置為,當總迭代執(zhí)行一半時,學習率將降低到初始的十分之一。

          可變形卷積方法

          普通的卷積神經(jīng)網(wǎng)絡通常是對一層中的所有核使用一個固定的大小,這限制了網(wǎng)絡對幾何變換建模的能力。相比之下,可變形卷積能夠減輕這種限制。輸入特征通過卷積操作以獲得偏移。在傳統(tǒng)的卷積核中加入偏移量,得到一個可變形的卷積核,然后與輸入特征進行卷積,得到輸出特征,如下圖所示。

          雖然可變形卷積增加了網(wǎng)絡對空間變形的適應性,但計算量也相應的增加了。下面將介紹這類中的一個代表性方法——EDVR(增強的可變形視頻恢復)。

          EDVR

          論文鏈接:https://arxiv.org/pdf/1905.02716.pdf

          EDVR是NTIRE19挑戰(zhàn)的冠軍模型。它提出了兩個關鍵模塊:金字塔、級聯(lián)和可變形對齊模塊(PCD)和時空注意融合模塊(TSA),分別用于解決視頻中的大運動和有效融合多幀。EDVR由PCD、TSA和重建模塊三部分組成。首先,通過PCD對輸入幀進行對齊,然后通過TSA對對齊的幀進行融合。然后將融合后的結果輸入重建模塊進行特征提取,再通過上采樣得到SR殘差圖像,將SR殘差圖像加到直接上采樣的目標幀中得到最終的SR幀,結構如下圖所示。為了進一步提高性能,EDVR還采用了兩階段的方法,其第二階段與第一階段相似,但網(wǎng)絡深度較淺。

          EDVR使用NTIRE19挑戰(zhàn)中提出的真實動態(tài)場景(REDS)數(shù)據(jù)集作為訓練集。數(shù)據(jù)集由300個分辨率為720×1280的視頻序列組成,每個視頻有100幀。作者選取了4個具有代表性的視頻(REDS4)作為測試集,其余視頻作為訓練集進行數(shù)據(jù)擴充。此外,EDVR采用Charbonnier函數(shù)作為損失函數(shù),Adam作為優(yōu)化器,它以五個連續(xù)的幀作為輸入。補丁大小和批大小分別設置為64×64和32。初始學習速率設置為。

          非對齊方法

          與對齊方法不同,非對齊方法在重建前不進行幀對齊。非對齊方法分為空間非對齊方法和時空非對齊方法,由于使用空間對齊方法的模型不多,在這里我們著重介紹時空非對齊方法。

          空間非對齊方法

          輸入幀直接輸入二維卷積網(wǎng)絡,在空間上進行特征提取、融合和超分運算??臻g非對齊方法使網(wǎng)絡能夠自己學習幀內(nèi)的相關信息,從而進行超分重建。VSRResNet屬于空間非對齊方法,結構如下圖,具體細節(jié)不再過多闡述。

          時空非對齊方法

          時空非對齊方法特點是同時利用輸入視頻的時空信息。根據(jù)當前主流模型,將時空方法分為三類:三維卷積(3D Conv)、循環(huán)卷積神經(jīng)網(wǎng)絡(RCNN)和非局部方法。接下來,將詳細介紹相關的最新方法。

          三維卷積方法

          與二維卷積相比,三維卷積模塊可以在時空域上操作。這有利于視頻序列的處理,因為可以通過提取時間信息來考慮幀之間的相關性。下面將介紹這類中的一個代表性方法——DUF(動態(tài)濾波上采樣網(wǎng)絡)。

          DUF

          論文鏈接:https://openaccess.thecvf.com/content_cvpr_2018/papers/Jo_Deep_Video_Super-Resolution_CVPR_2018_paper.pdf

          動態(tài)濾波器網(wǎng)絡可以為特定的輸入生成相應的濾波器,然后應用它們來生成相應的特征圖。動態(tài)上采樣濾波器的結構結合了三維卷積學習的時空信息,避免了運動估計和運動補償?shù)氖褂谩UF不僅執(zhí)行濾波,還執(zhí)行上采樣操作。為了增強超分辨率結果的高頻細節(jié),DUF使用一個單獨的網(wǎng)絡來估計目標幀的殘差圖。SR圖是殘差圖和動態(tài)上采樣濾波器處理后的幀的總和。

          DUF還提出了一種基于時間軸的視頻數(shù)據(jù)增強方法。通過對不同時間間隔的幀進行順序或相反順序的采樣,可以得到不同運動速度和方向的視頻。在實驗中,DUF使用Huber函數(shù)作為其損失函數(shù),其中δ=0.01。Adam用作優(yōu)化器,初始學習速率設置為

          循環(huán)卷積神經(jīng)網(wǎng)絡

          RCNN在自然語言、視頻、音頻等序列數(shù)據(jù)處理的建模中具有很強的時間依賴性。因此可以使用在視頻超分領域中。但是本文沒有介紹性能很好的RSDN、RRN等網(wǎng)絡,故此處不再做闡述。

          非局部方法

          非局部操作是計算一個位置的響應值,該值等于輸入特征圖中所有可能位置的權重和。其公式如下:

          其中i是響應值的輸出位置索引,j是所有可能位置的索引,x和y分別是具有相同維數(shù)的輸入和輸出數(shù)據(jù),f是計算i和j之間相關性的函數(shù)如高斯、點乘等,g是計算輸入特征的函數(shù),C(x)是歸一化因子。這里,g通常定義為:,其中是需要學習的權重矩陣。下圖給出了上述過程建立的相應卷積計算。其中f是embedded Gaussian函數(shù)。

          非局部塊可以很容易地加入到現(xiàn)有的深度卷積神經(jīng)網(wǎng)絡中。雖然非局域網(wǎng)絡能夠有效地捕獲時空信息,但是計算量大。下面將介紹這類中的一個代表性方法——PFNL(漸進式非局部融合)。

          PFNL

          論文鏈接:https://openaccess.thecvf.com/content_ICCV_2019/papers/Yi_Progressive_Fusion_Video_Super-Resolution_Network_via_Exploiting_Non-Local_Spatio-Temporal_Correlations_ICCV_2019_paper.pdf)

          PFNL使用非局部殘差塊來提取時空特征,并提出漸進式融合殘差塊(PFRB)來進行融合。最后,通過亞像素卷積層的輸出加到通過雙三次插值上采樣的輸入幀中,得到SR圖像。PFRB由三個卷積層組成。首先,對輸入幀進行3×3卷積,串聯(lián)后通過1×1卷積降低通道維數(shù)。并將結果分別與之前的卷積特征圖串聯(lián),進行3×3卷積。最后的結果被加到每一個輸入幀中,得到當前PFRB的輸出。此外,為了減少PFRB疊加帶來的參數(shù)增加,PFNL采用了通道參數(shù)共享機制,有效地平衡了參數(shù)個數(shù)與網(wǎng)絡性能之間的權衡。損失函數(shù)為Charbonnier函數(shù),使用Adam作為優(yōu)化器,為其初始學習速率。

          性能比較

          本節(jié)總結了具有代表性的視頻超分方法在PSNR和SSIM方面的性能。退化類型包含雙三次下采樣(BI)和高斯模糊下采樣(BD)。

          此外,還總結了幾項國際視頻超分辨率競賽,本文認為這些競賽為視頻超分的發(fā)展做出了巨大的貢獻,它們值得更多的關注。

          趨勢和挑戰(zhàn)

          盡管基于深度學習的視頻超分方法已經(jīng)取得了很大的進展,但是仍然存在一些挑戰(zhàn)。

          輕量級超分模型

          基于深度學習的視頻超分辨率方法雖然具有很高的性能,但由于模型參數(shù)龐大,需要大量的計算和存儲資源,訓練時間長,在實際問題中難以有效部署。隨著移動設備在現(xiàn)代生活中的流行,人們期望將模型應用到這些設備上。如何設計和實現(xiàn)一種高性能、輕量級的超分算法,以滿足實際應用的需要是一個挑戰(zhàn)。

          模型的可解釋性

          深度神經(jīng)網(wǎng)絡通常被認為是黑箱。也就是說,不管模型表現(xiàn)如何,我們也無法知道模型學到了什么真正的信息。在現(xiàn)有的視頻超分模型中,卷積神經(jīng)網(wǎng)絡如何恢復低分辨率視頻序列還沒有一個理論解釋。隨著對其解釋的深入研究,包括視頻和圖像超分方法在內(nèi)的超分算法的性能可能會有很大的提高。

          大尺度超分辨率

          對于視頻超分任務,現(xiàn)有的工作主要集中在放大倍數(shù)為4的情況下。更具挑戰(zhàn)性的尺度(如×8、×16)很少被探索。隨著高分辨率(如4K、8K)顯示設備的普及,大尺度的超分有待進一步研究。顯然,隨著尺度的增大,視頻序列中未知信息的預測和恢復會變得越來越困難。這可能導致算法的性能下降,削弱模型的魯棒性。因此,如何開發(fā)穩(wěn)定的深度學習算法來實現(xiàn)更大規(guī)模的視頻超分辨率仍然是一個重要的問題。

          更合理、更恰當?shù)囊曨l降質(zhì)過程

          在現(xiàn)有的研究中,LR視頻的退化通常由兩種方法得到。一種是使用插值(如雙三次插值)直接對HR視頻進行下采樣。另一種是對HR視頻進行高斯模糊,然后對視頻序列進行降采樣。雖然這兩種方法在理論上都有很好的表現(xiàn),但在實踐中卻總是表現(xiàn)不佳。真實世界的退化過程是非常復雜的,并且在真實世界的問題中包含了大量的不確定性,模糊和插值對問題的建模是不夠的。因此,在構建LR視頻時,應該從理論上建立與實際情況相一致的退化模型,以縮小研究與實踐之間的差距。大多數(shù)最先進的視頻超分辨率方法都是有監(jiān)督學習。由于降質(zhì)過程是復雜的和HR/LR對獲取是比較難獲取的?;蛟S無監(jiān)督的超分方法可能會稱為解決這個問題的一個方法。

          更有效的場景變換算法

          現(xiàn)有的視頻超分方法很少涉及場景變化的視頻。實際上,一個視頻序列通常有許多不同的場景。在研究這類視頻的超分問題時,必須在不改變場景的情況下將其分割成多個片段,并分別進行處理。這可能會導致大量的計算和計算時長。因此,能夠處理場景變化的深度學習方法對于實際應用是必要的。

          更合理的視頻質(zhì)量評價標準

          評價超分辨率結果質(zhì)量的標準主要有PSNR和SSIM。然而,它們的值并不能反映視頻質(zhì)量對人的感知。也就是說,即使視頻的PSNR值很高,視頻對人類來說也不一定是舒服的。因此,需要開發(fā)出符合人類感知的新的視頻評價標準。雖然提出了一些評價標準,但仍需要更多能被廣泛接受的標準。

          利用幀間信息的更有效方法

          視頻超分的一個重要特征是利用幀間信息。它的有效利用直接影響著模型的性能。盡管本文提出了許多方法,但仍存在一些不足。例如,三維卷積和非局部模運算量大,光流估計的精度無法保證等。因此,有效利用幀間信息的方法值得進一步研究。


          作者檔案

          Wangsy,一條夢想遠大的碩士咸魚
          個人郵箱:[email protected]
          歡迎大家聯(lián)系極市小編(微信ID:fengcall19)加入極市原創(chuàng)作者行列


          推薦閱讀


          極市元旦活動中獎者名單公示
          獎品將在近日寄出~

          添加極市小助手微信(ID : cvmart2),備注:姓名-學校/公司-研究方向-城市(如:小極-北大-目標檢測-深圳),即可申請加入極市目標檢測/圖像分割/工業(yè)檢測/人臉/醫(yī)學影像/3D/SLAM/自動駕駛/超分辨率/姿態(tài)估計/ReID/GAN/圖像增強/OCR/視頻理解等技術交流群:月大咖直播分享、真實項目需求對接、求職內(nèi)推、算法競賽、干貨資訊匯總、與?10000+來自港科大、北大、清華、中科院、CMU、騰訊、百度等名校名企視覺開發(fā)者互動交流~

          △長按添加極市小助手

          △長按關注極市平臺,獲取最新CV干貨

          覺得有用麻煩給個在看啦~??
          瀏覽 67
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  国产乱╳╳Av | 欧美亚州一二三区 | 蜜桃精品a v久久久久久 | 久久婷婷五月丁香 | 日韩欧美肏屄高清视频 |