最新!基于深度學習的盲圖像超分技術一覽
極市導讀
本文系統綜述了盲圖像超分的近期進展,對現有方案按照退化建模、數據等進行了分類劃分以幫助研究人員歸納判別現有方案。 >>加入極市CV技術交流群,走在計算機視覺的最前沿
論文鏈接:https://arxiv.org/abs/2107.03055
盲圖像超分旨在對未知退化類型的低分辨率圖像進行超分增強,由于其對于實際應用的重要促進作用而受到越來越多的關注。近來,有許多新穎、高效方案(主要是深度學習方案)已被提出。盡管經過學術界、工業(yè)界多年的努力,盲圖像超分仍然是一個極具挑戰(zhàn)性的研究課題。
本文系統綜述了盲圖像超分的近期進展,對現有方案按照退化建模、數據等進行了分類劃分以幫助研究人員歸納判別現有方案。我們對現有研究狀態(tài)進行了深入分析,同時提出了一些值得深入探索的研究方向。此外,總結了盲圖像超分常用數據集以及相關競賽。最后一點,我們采用合成數據與真實數據對現有方法的優(yōu)缺點進行了分析比較。
Introduction
退化模式(比如高斯模糊、bicubic下采樣等)已知的圖像超分最近幾年取得了極大的進度,但這些方法對于復雜退化的真實場景卻難以得到令人滿意的效果。為彌補該差距,近年來學術界與工業(yè)界開始關注退化未知的圖像超分,即盲圖像超分。
盲圖像超分最近幾年也取得了顯著的進展,但它們僅能處理特定類型的退化。以上圖a為例,四種不同的退化假設的LR對應了相同的HR,當給定一個偏離假設數據分布的輸入時,現有方法就難以得到滿意的結果。以上圖b為例,四種不同的超分方法對《阿甘正傳》中某一場景的超分效果,很明顯:沒有一個方法取得令人滿意的效果,因為實際圖像并不會嚴格滿足各個模型的退化假設。
那么,對于特定的待處理圖像,我們該如何選擇超分方法呢?或者說,我們采用現有方法能否得到一個高質量的超分結果呢?我們在多大程度上解決了盲圖像超分?又或者說,什么在阻礙我們前進,我們又該朝哪個方向努力?
為回答上述問題,我們對近期盲圖像超分的進展進行了系統的綜述,對不同方法的優(yōu)缺點進行了對比分析,同時提出了一些值得探索的研究方向。
Problem Formulation
我們首先對SISR問題的定義進行介紹。一般來講,SISR指的是從給定LR輸入重建HR圖像,特指HR的高頻成分。從HR到LR的潛在退化過程可以描述如下:
因此,SR就等價于建模并解決逆函數
。對于non-blind SR來說,退化函數
一般假設為雙三次下采樣(描述如下):
或者,下采樣與固定模糊核的高斯模糊:
無論是那種假設,對應的超分模型僅能處理特定類型的退化。對于其他類型的退化,當SR模型與輸入的退化不一致時,就會產生較差的重建質量問題。
上圖從圖像域的退化不匹配角度給出了可視化說明:如果對應特定退化的超分模型被用于任意LR輸入,這就會導致較大的域差異,進而產生較差的重建結果。
截至目前,關于盲圖像超分主要有兩種退化建模方案:(1) 顯式建模;(2) 隱式建模。顯式建模方案:它采用了所謂的經典退化模型,一種更廣義的退化方式,描述如下:
上圖給出了不同模糊、噪聲下的圖像示例,這些退化圖像明顯要比bicubic下采樣更復雜。現有方法包含IKC、SRMD。除了模糊與噪聲外,JPEG壓縮也是一種常見退化,此時退化模型表示如下:
還有一些方法(比如ZSSR、DGDML-SR)則利用圖像內部統計信息進行超分,且無需額外數據進行訓練。但是,內部統計信息僅僅能反應上圖b中的塊重復屬性。
然而,真實退化通常過于復雜而導致難以通過顯式多退化組合方式建模,見上面圖c。因此,隱式建模則試圖繞開顯式建模方式,它通過數據分布模擬退化過程。所有的隱式建模方法均需要額外數據進行訓練。一般來講,這些方法通過GAN學習數據分布,比如CGAN。
盡管已有這么多模型在推動盲圖像超分,但仍有很長的路需要探索?,F有方法僅僅聚焦于特定的場景,而真實場景的退化類型、數據場景要復雜的多。
Challenges from Real-World Images
隨著拍攝設備的普及,我們可以隨時隨地拍攝大量的圖像,這種圖像源的可變性同樣帶來了挑戰(zhàn)。一般來講,主要有以下三個因素導致不同的退化:
-
不同的拍照設備:可參考下圖不同拍攝設備的畫質對比。
-
圖像處理算法:該問題主要幾種在數碼相機與智能手機。ISP一般包含多個步驟,不同的相機具有不同的算法,進而導致不同的退化。
-
存儲帶來的退化:為降低資源占用,圖像/視頻往往要進行壓縮,壓縮則會導致偽影問題,進而產生了退化。此外,時間是一把殺豬刀,老照片、老電影的退化場景也就出現了。
Taxonomy
按照前面所提到的,主要有兩種退化建模方式:
-
顯式建模:基本思想采用覆蓋大范圍退化的額外數據訓練一個超分模型,往往需要將模糊核與噪聲信息進行參數化。這其中代表性的方法包含SRMD、IKN、MKSR。另一種利用塊重復的方法探索內部統計信息,代表性方法有KernelGAN與ZSSR。 -
隱式建模:它不依賴于任何顯式參數,它利用額外的數據通過數據分布隱式的學習潛在超分模型。代表性方法有CinCGAN、FSSR。
基于此,我們提出了如上圖的劃分方法。主要有兩個原因:
-
隱式與顯式建模的劃分有助于我們理解特定方法的假設; -
是否使用了額外數據或者單圖像輸入指示了不同的顯式建模策略; -
經過上述劃分后,我們很自然的可以引申出一個極具潛在研究價值的方向:單圖像輸入隱式建模。
Overview of Non-blind SISR
經典的非盲圖像超分方法有SRCNN、FSRCNN、LapSR、ProSR、EDSR、ESRGAN、RCAN、IMDN、RDN、RFDN等,這些方法的基本架構形式可參考下圖。它們主要有這樣三個主要模塊:淺層特征提取模塊、深層特征提取模塊、 SR重建模塊。
盡管非盲超分在特定退化下取得非常好的性能,但是對于復雜退化類型效果則顯著下降,可參考下圖。因此,盲圖像超分的研究非常有價值。
Explicit Degradation Modeling
接下來,我們對近年來所提出的顯式建模盲超分進行介紹。這些方法可以進一步按照是否采用了額外數據、單圖像輸入劃分為兩個子類。
Classical Degradation Model with External Dataset
這類方法采用額外數據訓練超分模型以適配不同的模糊核、噪聲。具體來說,它們將退化信息參數化并作為條件輸入。完成訓練后,這些模型可以處理包含在訓練數據種的任意退化類型。按照超分網絡是否包含退化估計,我們進一步將其劃分為(可參見上圖):
-
image-specific adaptation without kernel estimation: 它接收估計的退化信息未作輸入,聚焦于如何利用先驗信息提升重建質量; -
image-specific adaptation with kernel estimation:在超分過程中對退化估計添加關注。
對于第一類無需核估計的方法,其中知名的當屬SRMD,它直接將先驗信息與輸入圖像拼接,然后送入網絡進行圖像重建,可參見下圖a。此外,UDVD采用了與SRMD類似的方法,但引入了動態(tài)卷積進一步提升重建性能。
盡管SRMD擴展了超分模型的泛化性,但仍存在局限性:無法處理任意核。因此,另外一種依托MAP框架的DPSR與USRNet閃亮登場,它們采用迭代優(yōu)化的思路進行處理。
這類方案的局限性在于:依賴于額外的退化先驗信息,尤其是模糊核。然而,模糊核的精確估計并不容易,不精確的模糊核則會產生退化不匹配問題。上圖對比了SRMD在核不匹配時的超分效果對比。
對于第二類需要核估計的方法,其中知名的方法有IKC、DAN、VBSR、KMSR、RealSR等,可參考下圖。
這類方法的局限在于:對于模型未覆蓋的退化,這些方法無法給出令人滿意的結果。下圖給出了一個對比示例。
Single Image Modeling with Internal Statistics
塊自相似性是自然圖像的一種內在統計特性,該特性可以被量化并用于降噪、超分。上圖為深度學習時代采用該相似性進行盲圖像超分的方案示意圖。除了之外,知名的方法還包含KernelGAN、FKP、ZSSR等,前兩者旨在進行退化建模,而后者則采用自監(jiān)督方式進行學習。
這類方法的局限性在于:基本假設很容易無法滿足,尤其是自然圖像包含各式各樣的內容、場景,因此,很難采用該先驗信息進行超分重建。這類方法僅能處理非常有限的場景。
Implicit Degradation Modeling
Learning Data Distribution within External Dataset
該類方法旨在從額外數據中隱式抓取退化模型。對于成對的HR-LR,監(jiān)督學習方法已經取得了非常好的結果,比如NTIRE2018、AIM2020的冠軍方案。真正難以處理的是退化未知的數據,現有方法往往采用GAN框架探索數據分布,可參考下圖。
盡管這類方法看起來非常靈活有效,但仍非盲超分的“萬能靈藥”。下圖給出了兩組對比圖,重建效果仍然無法令人滿意。
Implicit Modeling with a Single Image: Future Direction
只要能提供成對的HR-LR,隱式建模方法看來能夠處理復雜的真實退化。然而,這些方法嚴重依賴于GAN框架學習數據分布,而GAN導致的偽影問題則會妨礙實際應用。除了,探索更魯棒的生成模型外,另一個尚未探索的方向值得關注:單幀輸入隱式建模。
正如前面所提到,現有方法均有各自的局限性,尤其當面對的是復雜真實場景退化。比如安防視頻、老照片、老電影等在我們生活中常見的圖像為現有盲超分帶來了新的挑戰(zhàn)。其主要挑戰(zhàn)在于:缺陷有效的超分先驗信息。
Datasets and Competitions
在合成數據方面,常見的訓練數據主要為DIV2K、Flickr2K、DIV2KRK;而測試數據則多為Settle、Set14、BSD100、Urban100;
在真實數據方面,常見的數據包含City100、DRealSR、RealSR、DPED等。
相關盲圖像超分可參見下表。
Quantitative Comparison
對現有方法進行公平而系統的比較是一項非常難的事情,主要體現在以下幾個方面:
-
Inaccessible Code,盡管SRMD、IKC、RealSR、KernelGAN、ZSSR開源了相關code,但還有不少方法并未開源,而復現GAN類方法的難度比較大; -
Different Training Data:盡管有一些預訓練模型,但仍無法公平比較,因為這些模型采用了不同的訓練數據、退化類型。
上表對比了顯式建模方案的性能對比,從中可以看到:
-
采用退化信息作為額外輸入的方法,如果組合適合的核估計算法可以很好的擬合盲圖像超分;但是距離真實核方案仍存在顯著性能差距; -
退化信息與超分網絡聯合優(yōu)化的DAN方案具有最佳的性能。
上表對比了顯式建模集成核估計的兩種代表性方法IKC與DAN,從中可以看到:在三個尺度上,DAN顯著優(yōu)于IKC。
上表對比了隱式建模的幾個方案的性能對比,從中可以看到:由于具有更好的減少域差異的訓練策略,DASR取得了最佳的視覺質量。
上表給出了不同方案的模型在不同退化圖像上的效果對比。基于上述測試圖像,我們可以得出如下發(fā)現:
-
對于采用額外數據的方案,其泛化性能嚴重依賴于退化建模的覆蓋范疇以及訓練數據分布。比如SRMD、USRNet僅能處理帶噪聲輸入;其他方法(如IKC、SRResNet)對于帶噪聲輸入會產生偽影問題;在真實數據訓練的模型對于合成數據很難產生好的結果,比如RealSR、FSSR。 -
真實場景圖像確實包含更復雜的退化類型,這使其分布顯著差異于合成數據。顯式建模方案SRMD與IKC可以很好的處理合成圖像,但對于真實圖像表現差強人意。
如果覺得有用,就請分享到朋友圈吧!
公眾號后臺回復“79”獲取CVPR 2021:TransT 直播鏈接~
# 極市原創(chuàng)作者激勵計劃 #
