NTIRE2022-ESR 冠軍方案RLFN解析

極市導(dǎo)讀
?本文提出了一種新的ESR方案RLFN,它采用三個(gè)卷積層進(jìn)行殘差局部特征學(xué)習(xí)以簡化特征聚合,這種處理機(jī)制有助于達(dá)成更優(yōu)的性能-推理耗時(shí)均衡。與此同時(shí),本文對(duì)主流的對(duì)比損失進(jìn)行回顧并發(fā)現(xiàn):特征提取器的中間特征選擇對(duì)于性能有極大影響,其中淺層特征可以保持更精確的細(xì)節(jié)與紋理。此外,本文提出一種新穎的多階段熱啟動(dòng)訓(xùn)練策略。?>>加入極市CV技術(shù)交流群,走在計(jì)算機(jī)視覺的最前沿
近年來,Efficient Super-Resolution(ESR)的研究主要聚焦于參數(shù)量與FLOPs的降低,這些方案往往通過復(fù)雜的層連接策略進(jìn)行特征聚合(比如IMDN與RFDN中的特征蒸餾與聚合)。但是,這種復(fù)雜的結(jié)構(gòu)不利于高推理速度需求,進(jìn)而導(dǎo)致這些方案難以部署到資源有限的設(shè)備上。

論文鏈接:https://arxiv.org/abs/2205.07514
本文提出了一種新的ESR方案RLFN(Residual Local Feature Network),它采用三個(gè)卷積層進(jìn)行殘差局部特征學(xué)習(xí)以簡化特征聚合,這種處理機(jī)制有助于達(dá)成更優(yōu)的性能-推理耗時(shí)均衡。與此同時(shí),本文對(duì)主流的對(duì)比損失(Contrastive Loss)進(jìn)行回顧并發(fā)現(xiàn):特征提取器的中間特征選擇對(duì)于性能有極大影響,其中淺層特征可以保持更精確的細(xì)節(jié)與紋理。此外,本文提出一種新穎的多階段熱啟動(dòng)(warm-start)訓(xùn)練策略。
在改進(jìn)對(duì)比損失與訓(xùn)練策略加持下,所提RLFN取得了比其他SOTA ESR方案更快的推理速度,同時(shí)具有相當(dāng)?shù)腜SNR與SSIM指標(biāo)。值得一提的是,所提方案RLFN取得了NTIRE2022 ESR競(jìng)賽主賽道冠軍。

本文方案

上圖給出了本文所提RLFN整體架構(gòu)示意圖,它主要包含 三部分:
淺層特征提?。涸摬糠钟梢粋€(gè)卷積構(gòu)成; 深層特征提?。涸摬糠钟啥鄠€(gè)堆疊RLFB(Residual Local Feature Block)構(gòu)成; 圖像重建模塊:該部分由卷積與PixelShuffle構(gòu)建。
總體來說,RLFN是一種類EDSR的架構(gòu)。RLFN的核心模塊在于其所設(shè)計(jì)的RLFB模塊(見上圖b)。RLFN是在RFDN的基礎(chǔ)上演變而來,關(guān)于RFDN的介紹可以參考:AIM2020-ESR冠軍方案解讀:引入注意力模塊ESA,實(shí)現(xiàn)高效輕量的超分網(wǎng)絡(luò)(附代碼實(shí)現(xiàn))
RFDB采用漸進(jìn)式特征提煉與特征蒸餾方式提取更強(qiáng)力特征,其特征蒸餾通過卷積實(shí)現(xiàn),特征聚合通過Concat完成。盡管RFDB的這種處理方式可以大幅降低參數(shù)量,但同時(shí)嚴(yán)重影響了推理速度。
為此,本文提出了RLFB(見Figure3-b),它可以大幅減少推理耗時(shí),同時(shí)保持模型容量。從圖示可以看到:RLFB消除了特征蒸餾鏈接,僅通過堆疊Conv-ReLU進(jìn)行局部特征提取。此外,RLFB保留了RFDB中的ESA模塊。為補(bǔ)充性能損失,RLFB采用更大的通道數(shù),從48提升到了52.

為進(jìn)一步降低推理耗時(shí),本文采用剪枝敏感性分析工具對(duì)ESA模塊的冗余性進(jìn)行了分析,可以看到:ConvGroups中的三個(gè)卷積的冗余性排名1、3、4。因此,本文將ESA中的ConvGroups的卷積數(shù)減少到1。
Revisiting the Contrastive Loss
對(duì)比學(xué)習(xí)已在自監(jiān)督學(xué)習(xí)領(lǐng)域表現(xiàn)出了驚人的性能,在超分領(lǐng)域也開始有所探索,其損失定義如下:
CSD與AECR-Net提取VGG19的1、3、5、9以及13層的特征。但是,我們發(fā)現(xiàn):當(dāng)采用上述CL時(shí),PSNR會(huì)出現(xiàn)下降現(xiàn)象。

本文通過特征可視化對(duì)此差異進(jìn)行了探究并發(fā)現(xiàn):深層提取的特征具有更強(qiáng)語義信息,但缺乏精確的細(xì)節(jié)??偠灾?,深層特征有助于改善感知質(zhì)量,而淺層特征特征則有助于提供更精確的細(xì)節(jié)與紋理(而這對(duì)于PSNR導(dǎo)向的模型非常重要)。也就是說,我們需要采用淺層特征以改善模型的PSNR指標(biāo)。為進(jìn)一步改進(jìn)對(duì)比損失,我們將特征提取器中的ReLU激活替換為Tanh。

由于VGG19是采用ReLU激活訓(xùn)練而來,直接進(jìn)行激活函數(shù)替換無法確保其性能。而近期的一些研究表明:隨機(jī)初始化的正確架構(gòu)已足以捕獲感知細(xì)節(jié)信息。受此啟發(fā),本文構(gòu)建一個(gè)隨機(jī)初始化的兩層特征提取器(Conv_k3s1-Tanh-Conv-K3s1)。從上圖可以看到:本文所提特征提取器具有更強(qiáng)的響應(yīng),可以捕獲更多細(xì)節(jié)與紋理(見上圖b)。也就是說,隨機(jī)初始化的特征器已可以捕獲結(jié)構(gòu)信息,預(yù)訓(xùn)練并非必要的。
Warm-Start Strategy
X3與X4模型訓(xùn)練采用X2模型參數(shù)作為預(yù)訓(xùn)練參數(shù)已成為一種常用trick。但是,這種好處我們只能享受一次,因?yàn)轭A(yù)訓(xùn)練模型與目標(biāo)模型的尺度因子不一致。為解決上述局限性,本文提出了一種多階段熱啟動(dòng)訓(xùn)練策略,它可以進(jìn)一步改善模型性能。
在第一個(gè)階段,我們從頭開始訓(xùn)練RLFN; 在下一個(gè)階段,我們以前一階段訓(xùn)練的RLFN進(jìn)行初始化(此為熱啟動(dòng))。
消融實(shí)驗(yàn)

上圖給出了從RFDB到RLFB的模塊優(yōu)化對(duì)比,這里主要對(duì)比了兩種RFDB變種(移除了特征蒸餾鏈接)。

從下表2可以看到:相比RFDB,RLFB具有同等復(fù)原性能,同時(shí)具有明顯的速度優(yōu)勢(shì)。從上表3可以看到:移除ESA ConvGroups中的兩個(gè)卷積并不會(huì)犧牲性能,但會(huì)加速模型推理速度。

上表對(duì)所提對(duì)比損失的有效性進(jìn)行了對(duì)比,可以看到:在四個(gè)基準(zhǔn)數(shù)據(jù)集上,所提CL均可一致的提升模型性能。

上表對(duì)多階段熱啟動(dòng)訓(xùn)練策略的有效性進(jìn)行了對(duì)比,可以看到:多階段熱啟動(dòng)確實(shí)可以提升模型性能。這意味著:該訓(xùn)練策略有助于跳出局部最優(yōu)并改進(jìn)模型整體性能。

上表對(duì)所提對(duì)比損失與熱啟動(dòng)策略的泛化性進(jìn)行了驗(yàn)證,可以看到:所提方案具有普適性,可以用于其他SISR方案。
SOTA方案對(duì)比

上表給出了不同方案在X2與X4任務(wù)上的性能對(duì)比,可以看到:
相比其他方案,RLFN-S與RLFN取得了更優(yōu)的PSNR與SSIM指標(biāo); 相比RFDN,RLFN-S取得相當(dāng)?shù)男阅?,同時(shí)參數(shù)量更少; 總而言之,RLFN取得了更優(yōu)的性能-推理耗時(shí)均衡。

在NTIRE2022-ESR競(jìng)賽中,所提RLFN取得了主賽道第一,sub-track2賽道第二的成績。競(jìng)賽所選用的RLFN_cut只有4個(gè)RLFB模塊,通道數(shù)為48,ESA中的通道數(shù)為16。上表給出了NTIRE2022-ESR競(jìng)賽的結(jié)果對(duì)比,可以看到:相比基線IMDN與RFDN,所提方案取得了全方位的性能提升,同時(shí)具有最快推理速度。
公眾號(hào)后臺(tái)回復(fù)“CVPR 2022”獲取論文合集打包下載~


