真正實(shí)用的退化模型:ETH開(kāi)源業(yè)內(nèi)首個(gè)廣義盲圖像超分退化模型,性能效果絕佳

極市導(dǎo)讀
本文針對(duì)有現(xiàn)有退化模型存在的問(wèn)題,提出并設(shè)計(jì)了一種復(fù)雜但實(shí)用的新型退化方案。基于所設(shè)計(jì)的新型退化方案,對(duì)RRDBNet進(jìn)行模型訓(xùn)練,無(wú)論是合成數(shù)據(jù)還是真實(shí)場(chǎng)景數(shù)據(jù),所得模型均取得了SOTA性能&絕佳的視覺(jué)感知質(zhì)量。 >>加入極市CV技術(shù)交流群,走在計(jì)算機(jī)視覺(jué)的最前沿

Paper: https://arxiv.org/abs/2103.14006
Code: https://github.com/cszn/BSRGAN
本文是蘇黎世聯(lián)邦理工學(xué)院的張凱(超分與降噪方向知名DnCNN、IRCNN、FFDNet、SRMD、DPSR、USRNet、DPIR等極具影響力文章的作者)在low-level領(lǐng)域關(guān)于退化模型設(shè)計(jì)的探索。本文針對(duì)有現(xiàn)有退化模型存在的問(wèn)題,提出并設(shè)計(jì)了一種復(fù)雜但實(shí)用的新型退化方案?;谒O(shè)計(jì)的新型退化方案,對(duì)RRDBNet進(jìn)行模型訓(xùn)練,無(wú)論是合成數(shù)據(jù)還是真實(shí)場(chǎng)景數(shù)據(jù),所得模型均取得了SOTA性能&絕佳的視覺(jué)感知質(zhì)量。強(qiáng)烈推薦各位同學(xué)深入研讀一番原文。
Abstract
眾所周知,當(dāng)圖像超分的預(yù)假設(shè)退化模型與真實(shí)圖像的退化方式不匹配時(shí),模型的性能會(huì)出現(xiàn)性能下降,甚至負(fù)面效果現(xiàn)象。盡管已有集中退化模型考慮的額外的影響因素(比如模糊核以及程度),但是它們?nèi)匀粺o(wú)法有效覆蓋真實(shí)圖像的多樣性退化方式。
為解決該問(wèn)題,本文設(shè)計(jì)了一種更復(fù)雜但實(shí)用的退化模型,它包含對(duì)模糊、下采樣以及噪聲退化的隨機(jī)置換(也就是說(shuō)每種退化對(duì)應(yīng)多種類型,且順序會(huì)進(jìn)行隨機(jī)調(diào)整)。具體來(lái)說(shuō),模糊退化通過(guò)兩個(gè)卷積(各向同性與各向異性高斯模糊)進(jìn)行模擬;下采樣從最近鄰、雙線性以及雙三次插值中隨機(jī)挑選;噪聲則通過(guò)不同噪聲水平的高斯噪聲、不同壓縮質(zhì)量的JPEG壓縮、逆轉(zhuǎn)ISP生成的傳感器噪聲等。
為驗(yàn)證所設(shè)計(jì)的新的退化模型的有效性,我們訓(xùn)練了一個(gè)深度盲ESRGAN超分模型并將其對(duì)不同退化的合成、真實(shí)圖像進(jìn)行處理。實(shí)驗(yàn)結(jié)果表明:新的退化模型有助于顯著提升深度超分模型的實(shí)用性,為RealSR應(yīng)用提供了一種有效的解決方案。
本文的主要貢獻(xiàn)包含以下幾點(diǎn):
提出了一種針對(duì)SISR的實(shí)用退化模型,它考慮并設(shè)計(jì)了更復(fù)雜的退化空間; 基于上述所設(shè)計(jì)的退化模型合成的訓(xùn)練數(shù)據(jù)訓(xùn)練了盲SISR,所得模型在不同類型真實(shí)退化數(shù)據(jù)上取得了非常好的效果; 據(jù)我們所知,本文是首個(gè)針對(duì)廣義盲超分采用手工方式設(shè)計(jì)退化模型的方案; 本文突出了精確的退化模型對(duì)于DNN-SR實(shí)用的重要性。
Related Work
由于本文主要聚焦于“如何設(shè)計(jì)一種實(shí)用退化模型”并用于訓(xùn)練深度盲SISR模型。所以我們先來(lái)看一下已有退化模型存在的問(wèn)題,然后再引出本文的方案。
現(xiàn)有的圖像超分大多采用bicubic或者blur-down方式制作訓(xùn)練數(shù)據(jù);稍微復(fù)雜點(diǎn)的則采用模糊、下采樣、噪聲組合的方式。噪聲往往假設(shè)為加性高斯白噪聲,它往往難以匹配真實(shí)圖像的噪聲分布;事實(shí)上,噪聲往往源于傳感器噪聲和JPEG壓縮噪聲,而這兩種噪聲通常具有信號(hào)依賴性、非均勻性。無(wú)論模糊退化精確與否,如果噪聲不能有效匹配均會(huì)導(dǎo)致嚴(yán)重的超分性能下降。也就是說(shuō),現(xiàn)有的退化模型面對(duì)真實(shí)圖像退化是仍有很大的改善空間。
除了上述人工模擬退化外,還有一些其他盲圖像超分方案。大概有這么幾個(gè)研究方向:
先對(duì)LR圖像估計(jì)退化參數(shù),然后采用非盲方案生成HR圖像。然而非盲方案往往對(duì)退化誤差非常敏感,因此生成的結(jié)果要么過(guò)度銳利、要么過(guò)度平滑; 同時(shí)進(jìn)行模糊核與HR圖像估計(jì),比如IKC。然而這些方法并沒(méi)有將噪聲納入考慮,往往導(dǎo)致不精確的模糊核估計(jì),進(jìn)而影響HR重建質(zhì)量。 采用監(jiān)督方式采集LR/HR數(shù)據(jù)對(duì),比如RealSR、DRealSR。然而成對(duì)訓(xùn)練數(shù)據(jù)的收集成本非常高,同時(shí)所學(xué)習(xí)得到的模型會(huì)受限于LR域圖像。 基于非成對(duì)訓(xùn)練數(shù)據(jù),采用類似CycleGAN的思路進(jìn)行模型的訓(xùn)練或者采用KernelGAN從Source域圖像估計(jì)模糊核,然后對(duì)Source與Target兩個(gè)域圖像同時(shí)進(jìn)行退化制作訓(xùn)練數(shù)據(jù)。盡管這類方法精確的退化模糊核估計(jì)非常關(guān)鍵,如果模糊核估計(jì)不準(zhǔn)確會(huì)導(dǎo)致模型性能變得比較差。 據(jù)我們所知,尚無(wú)深度盲SISR可以直接用于廣義圖像超分。
Method
在提出所設(shè)計(jì)的退化模型之前,我們?cè)賮?lái)看一下關(guān)于退化模型的幾點(diǎn)影響因素:
從傳統(tǒng)退化模型的角度來(lái)看,模糊、下采樣以及噪聲會(huì)影響真實(shí)圖像的退化;針對(duì)此,一種可能的方式之提升退化模型空間,使得盡可能大并與真實(shí)退化盡可能接近。 HR與LR可能均存在噪聲與模糊,因此沒(méi)有必要采用模糊/下采樣/噪聲生成LR圖像;針對(duì)此,我們采用隨機(jī)置換方式擴(kuò)展退化空間。 傳統(tǒng)退化模型的模糊核空間會(huì)隨尺度變化,這使得實(shí)際大尺度因子確定比較棘手;針對(duì)此,我們可以利用小尺度的模糊核的分析計(jì)算設(shè)計(jì)大尺度因子。 盡管bicubic退化并不適用于真實(shí)LR圖像,但是它可以用于數(shù)據(jù)增強(qiáng),并且一種一種清洗和銳化圖像的比較好的選擇。針對(duì)此,對(duì)于大尺度因子我們可以在退化之前先執(zhí)行一次bicubic下采樣。
不失一般性,本文主要針對(duì)廣泛采用的x2和x4兩個(gè)尺度設(shè)計(jì)退化模型。接下來(lái),我們將從四個(gè)角度(模糊、下采樣、噪聲以及隨機(jī)置換策略)來(lái)介紹退化模型。
Blur
模糊是一種常用的圖像退化。我們提出從HR與LR兩個(gè)空間對(duì)模糊建模。一方面,傳統(tǒng)的SISR退化先對(duì)HR進(jìn)行模糊然后再下采樣;另一方面,真實(shí)LR圖像可能是模糊的,因此在LR空間進(jìn)行模糊建模是可行的。
針對(duì)SISR,我們采用兩個(gè)高斯模糊:(表示各項(xiàng)同性高斯核)、(表示各向異性高斯核)??紤]到HR與LR圖像可以被兩個(gè)模糊操作進(jìn)行退化,模糊退化空間得到了極大的擴(kuò)展。
在模糊核設(shè)計(jì)方面,尺寸在之間均勻采樣;各項(xiàng)同性高斯核的核寬從(x2)、(x4)之間均勻采樣;對(duì)于各項(xiàng)異性高斯核,旋轉(zhuǎn)角度從之間均勻采樣,每個(gè)周長(zhǎng)度從(x2)與(x4)之間均勻采樣。采用Reflection填充以確保模糊輸出的空間一致性。
Downsampling
在下采樣方面,可能最直接的方法是最近鄰插值。然而所得到的LR圖像會(huì)存在朝左上角像素不對(duì)齊問(wèn)題。作為補(bǔ)救措施,我們采用2D線性網(wǎng)絡(luò)插值方法將各項(xiàng)同性高斯核的中心移動(dòng)像素,先卷積然后最近鄰下采樣,我們采用表示這種類型的下采樣。此外,我們還采用的雙三次與雙線性插值方法,分別表示為。更進(jìn)一步定義上下采樣方法,它先按照尺度下采樣,然后按照尺度上采樣。這里的插值方法從雙線性、雙三次中隨機(jī)選擇,尺度從中采樣。
很明顯,上述四種下采樣方法在HR空間具有模糊操作,而可以對(duì)LR空間引入上采樣模糊。在實(shí)際應(yīng)用時(shí),我們對(duì)上述四種下采樣均勻采樣選擇并對(duì)HR圖像下采樣。
Noise
因其可以通過(guò)不用的源導(dǎo)致,真實(shí)圖像中的噪聲無(wú)處不在。除了廣泛采用的高斯噪聲外,我們所設(shè)計(jì)的退化模型還考慮了JPEG壓縮噪聲以及傳感器噪聲。接下來(lái),我們將針對(duì)這三類噪聲進(jìn)行介紹。
Gaussian Noise 當(dāng)對(duì)噪聲一無(wú)所知時(shí),高斯噪聲假設(shè)是一種最保守的選擇。為合成高斯噪聲,我們采用了3D零均值高斯噪聲模型。該噪聲模型具有兩個(gè)特例:(1) 當(dāng)時(shí),它退化后廣泛采用的加性高斯噪聲模型;(2)當(dāng)時(shí),它退化后廣泛采用的灰度加性高斯噪聲模型。在我們所設(shè)計(jì)的退化模型中,我們采用高斯噪聲進(jìn)行數(shù)據(jù)合成。具體來(lái)說(shuō),廣義噪聲與兩種特殊情況的選擇概率分別為。對(duì)于來(lái)說(shuō),它從范圍內(nèi)均勻選擇。
JPEG Compression Noise 在帶寬與空間減少方面,JPEG是最廣泛采用的圖像壓縮標(biāo)準(zhǔn)。對(duì)于高壓縮情形,它帶來(lái)了煩人的塊偽影/噪聲。壓縮程度會(huì)受到壓縮因子影響,其范圍為。當(dāng)壓縮質(zhì)量大于90時(shí),一般不會(huì)導(dǎo)致明顯的偽影。在我們所設(shè)計(jì)的退化模型中,JPEG的質(zhì)量因子從之間均勻選擇。由于JPEG是最流程的圖像格式,我們以概率0.75和1采用兩個(gè)JPEG壓縮,后者為最終的退化操作。
Processed Camera Sensor Noise 在數(shù)碼相機(jī)中,輸出圖像由raw傳感器數(shù)據(jù)經(jīng)由ISP處理得到。Brooks等人設(shè)計(jì)了一種傳感器噪聲合成方法并成功的設(shè)計(jì)了一種有效的Raw圖像降噪模型。如果ISP流水線不進(jìn)行降噪,傳感器噪聲會(huì)引入非高斯噪聲惡化輸出圖像。為合成這類噪聲,我們通過(guò)逆ISP流水線得到raw圖像,并添加傳感器噪聲到合成raw圖像。按照AdobeDNG方案,這里的前向ISP流水線包含去馬賽克(采用matlab中的demosaic)、曝光補(bǔ)償(全局尺度從選擇)、白平衡(紅藍(lán)增益從中均勻選擇)、XYZ(D50)顏色空間轉(zhuǎn)換(raw數(shù)據(jù)頭信息中抽取)、RGB顏色空間轉(zhuǎn)換、色調(diào)映射(手動(dòng)選擇最佳擬合曲線)、gamma校正等。注:我們以概率0.25執(zhí)行該噪聲合成操作。
Random Shuffle
盡管傳統(tǒng)的退化模型簡(jiǎn)單、方便,但難以覆蓋真實(shí)LR圖像的退化空間。一方面,真實(shí)LR圖像可以是HR圖像的噪聲、模糊、下采樣以及JPEG壓縮版本;另一方面,退化模型假設(shè)LR圖像是HR圖像的雙線性下采樣、模糊以及噪聲版本。也就是說(shuō),LR圖像可以是按照模糊、下采樣、噪聲不同順序得到。因此,我們?cè)谛碌耐嘶P椭性O(shè)計(jì)了一種隨機(jī)置換策略。具體來(lái)說(shuō),對(duì)退化序列進(jìn)行順序隨機(jī)置換,隨機(jī)置換可以大幅擴(kuò)展退化空間。
首先,其他退化模型(比如bicubic以及其他傳統(tǒng)退化模型)僅僅是本文退化模型的特例;其次,模糊退化空間可以通過(guò)四種下采樣中的模糊以及兩種模糊操作的組合得到擴(kuò)展;然后,噪聲特性會(huì)受模糊核下采樣而出現(xiàn)變換,進(jìn)一步擴(kuò)展了退化空間。

上圖給出了本文所提出退化模型的示意圖。對(duì)于HR圖像,我們可以通過(guò)調(diào)整不同的退化操作、退化參數(shù)生成不同的LR圖像。對(duì)于x4尺度,我們?cè)谕嘶耙?.25概率額外執(zhí)行了雙線性/雙三次下采樣。
Some Discussions
為更好的理解所設(shè)計(jì)的退化模型,有必要添加以下討論分析。
退化模型主要用于合成退化LR圖像。它最直接的應(yīng)用是基于成對(duì)LR/HR圖像訓(xùn)練深度盲圖像超分。具體來(lái)說(shuō),退化模型可以基于大尺度HR圖像數(shù)據(jù)生成無(wú)限對(duì)齊的訓(xùn)練數(shù)據(jù),從而不會(huì)受有限數(shù)據(jù)、不對(duì)齊問(wèn)題約束。 因其包含過(guò)多退化參數(shù)與隨機(jī)置換策略,所提退化模型不適用于模擬已退化LR圖像。 盡管該退化模型可以生成某些真實(shí)場(chǎng)景鮮少出現(xiàn)的極限退化,但這仍有助于提升深度盲圖像超分的泛化性能。 具有大容量的DNN具有單模型處理不同退化的能力,比如DnCNN可以處理不同倍率、不同程度JPEG壓縮、不同噪聲水平,且具有與VDSR相當(dāng)性能。 我們可以通過(guò)調(diào)整退化參數(shù),添加更多合理的退化類型以改善特定應(yīng)用的實(shí)用性。
Experiments
超分模型并非本文核心,現(xiàn)有超分網(wǎng)絡(luò)均可作為選擇,本文選擇了ESRGAN作為基線模型,并做了幾點(diǎn)改動(dòng):(1) 由于本文的目的是:在未知退化前提下,解決更廣義的盲圖像超分。訓(xùn)練數(shù)據(jù)方面采用DIV2K、Flickr2K、WED以及源自FFHQ的2000人臉圖像;(2)采用了更大的圖像你塊;(3) 損失方面采用了、VGG感知、PatchGAN三個(gè)損失的組合,組合系數(shù)。
在訓(xùn)練超參方面,優(yōu)化器為Adam,batch=48,固定學(xué)習(xí)率。整個(gè)訓(xùn)練大約花費(fèi)10天(亞馬遜云,4個(gè)V100)。
Testing Datasets

與此同時(shí),我們還提供了兩個(gè)數(shù)據(jù)集:DIV2K3D與RealSRSet。兩者信息如下:
RealSRSet:包含20個(gè)從網(wǎng)絡(luò)下載或者現(xiàn)有測(cè)試集中挑選的真實(shí)圖像; DIV2K3D:它基于DIV2K驗(yàn)證集采用三種不同退化類型制作。這三種退化類型分別是:(1) 各項(xiàng)異性高斯模糊+x4最近鄰下采樣;(2) 各向異性高斯模糊+x2最近鄰下采樣+x2雙三次下采樣+JPEG壓縮(壓縮范圍為);(3) 本文所提退化模型。
Experiments on DIV2K3D

上表&上圖給出了不同超分模型在DIV2K3D數(shù)據(jù)集上的性能對(duì)比與視覺(jué)效果對(duì)比。從中可以看到:
由于RRDB與ESRGAN是在簡(jiǎn)單的雙三次退化數(shù)據(jù)集上所訓(xùn)練,它們?cè)贒IV2K3D上的表現(xiàn)并不好。 由于考慮更實(shí)用的退化,F(xiàn)SSR、RealSR的表現(xiàn)要比ESRGAN更優(yōu)。 對(duì)退化類型1方面,由于在類似退化數(shù)據(jù)集上進(jìn)行的訓(xùn)練,IKC取得了很好的PSNR與SSIM指標(biāo);而RealSR取得了最佳LPIPS指標(biāo);對(duì)于其他兩個(gè)類型,這些方法表現(xiàn)出了嚴(yán)重的性能下降。 本文所提BSRNet方法取得了整體最佳的PSNR與SSIM指標(biāo);所提BSRGAN取得了整體最佳LPIPS指標(biāo)。 在視覺(jué)質(zhì)量方面,IKC與RealSR難以移除噪聲重建銳利邊緣;而FSSR可以重建銳利邊緣但同時(shí)引入了偽影問(wèn)題;本文所提BSRGAN取得了最佳視覺(jué)質(zhì)量。
Experiments on RealSRSet

上表給出了不同方法在RealSRSet數(shù)據(jù)上的性能對(duì)比。由于RealSRSet的真值不可知,我們采用了無(wú)參考圖像質(zhì)量評(píng)價(jià)方法(NIQE、NRQM、PI)進(jìn)行度量。從上表可以看到:BSRGAN并未取得最佳指標(biāo)。但是BSRNet取得了更好的視覺(jué)感知質(zhì)量,見(jiàn)下圖對(duì)比。比如:BSRGAN可以移除未知傳感器噪聲、未知復(fù)合噪聲同時(shí)重建銳利邊緣和細(xì)節(jié);相反,F(xiàn)SSR與RealSR生成某些高頻偽影。這種定量與定性指標(biāo)的不一致性意味著:無(wú)參考IQA并不能總是匹配視覺(jué)感知質(zhì)量,IQA應(yīng)該隨新的SISR方法更新迭代。我們進(jìn)一步還認(rèn)為:SISR的IQA應(yīng)該隨圖像退化類型而更新演變。

推薦閱讀
2021-02-05
2020-05-05
2020-12-05

# 極市原創(chuàng)作者激勵(lì)計(jì)劃 #

