漫談圖像超分辨率技術(shù)
點(diǎn)擊上方“小白學(xué)視覺”,選擇加"星標(biāo)"或“置頂”
重磅干貨,第一時(shí)間送達(dá)
作為將模糊的圖像變清晰的神奇技術(shù),圖像超分辨率技術(shù)在游戲、電影、相機(jī)、醫(yī)療影像等多個(gè)領(lǐng)域都有廣泛的應(yīng)用。在這篇文章中,微軟亞洲研究院的研究員們?yōu)槟憧偨Y(jié)了圖像超分辨率問題中的主流方法、現(xiàn)存問題與解決方案。微軟亞洲研究院在圖像超分辨率領(lǐng)域的相關(guān)技術(shù)也已在頂級會議發(fā)表,并轉(zhuǎn)化入 PowerPoint 產(chǎn)品中,我們將在后續(xù)文章中為大家解讀。
近年來,隨著高清設(shè)備的普及,用戶端顯示設(shè)備的分辨率已經(jīng)普遍提升到了 2K 甚至更高的水平。相對早期的游戲或電影在上述設(shè)備上往往無法得到很好的表現(xiàn),這促使了很多經(jīng)典游戲和電影的高清重制工作被提上日程。在整個(gè)重制過程中,最核心的就是多媒體素材的高清重建工作,而該部分工作在過去往往只能通過聘請專業(yè)的設(shè)計(jì)師耗費(fèi)大量的資源來完成。
近年來,圖像超分辨率技術(shù)的發(fā)展為上述問題提供了一個(gè)全新的解決思路。通過圖像超分辨率技術(shù),無需耗費(fèi)大量的資源即可完成多媒體內(nèi)容的高清重建工作,在上述結(jié)果上,設(shè)計(jì)師僅需進(jìn)行簡單少量的修改即可達(dá)到和人工設(shè)計(jì)相媲美的結(jié)果,大大簡化了工作的流程,降低了工作的成本。
另一方面,圖像超分辨率技術(shù)在相機(jī)拍攝過程中也有著廣泛的應(yīng)用。近年來,隨著用戶對手機(jī)拍攝功能的重視,越來越多的廠商將手機(jī)的拍攝性能作為一個(gè)重要的賣點(diǎn)來進(jìn)行宣傳。特別的,相機(jī)的變焦能力作為手機(jī)拍攝性能中的一個(gè)重要指標(biāo)往往深受用戶的重視,其通常可以分為兩部分:光學(xué)變焦與數(shù)碼變焦。其中光學(xué)變焦通過調(diào)整鏡頭來對焦距進(jìn)行調(diào)整,由于受限于設(shè)備體積的大小,調(diào)整能力比較有限。相對的,數(shù)碼變焦則是通過算法來對圖像進(jìn)行調(diào)整,以達(dá)到模擬光學(xué)變焦的目的,算法的優(yōu)劣很大程度上決定了數(shù)碼變焦的倍數(shù)以及其結(jié)果的好壞。圖像超分辨率技術(shù)相對于傳統(tǒng)的圖像插值算法,往往能夠提供更大的變焦倍數(shù)以及更好的圖像質(zhì)量,近年來廣泛被各大手機(jī)廠商所采用。如圖1所示,圖像紅框內(nèi)的局部區(qū)域經(jīng)過數(shù)碼變焦后的結(jié)果依然清晰。

圖1:通過圖像超分辨率技術(shù)進(jìn)行數(shù)碼變焦
(左:原始焦距圖像,右:數(shù)碼變焦圖像)
相對于上述領(lǐng)域,圖像超分辨率技術(shù)在很多專業(yè)領(lǐng)域也有應(yīng)用 [1]。如醫(yī)療影像領(lǐng)域,高質(zhì)量的醫(yī)療影像(如X射線圖像、計(jì)算機(jī)斷層掃描圖像、核磁共振圖像)對于精確地診斷患者的病因起到了至關(guān)重要的作用,然而高分辨率的醫(yī)療成像設(shè)備往往非常昂貴。通過圖像超分辨率技術(shù),可以在硬件有限的條件下得到更高質(zhì)量的醫(yī)療影像,在便于醫(yī)生做出更加準(zhǔn)確的診斷的同時(shí),也進(jìn)一步降低了患者的開銷。
圖像超分辨率是指從低分辨率圖像中恢復(fù)出自然、清晰的紋理,最終得到一張高分辨率圖像,是圖像增強(qiáng)領(lǐng)域中一個(gè)非常重要的問題。近年來,得益于深度學(xué)習(xí)技術(shù)強(qiáng)大的學(xué)習(xí)能力,該問題有了顯著的進(jìn)展。
低分辨率圖像一般通過一系列的退化操作得到,在損失了大量細(xì)節(jié)的同時(shí),也引入了一系列的噪聲。基于深度學(xué)習(xí)的超分辨率過程本質(zhì)上就是通過網(wǎng)絡(luò)模型采用成對的訓(xùn)練數(shù)據(jù)進(jìn)行有監(jiān)督學(xué)習(xí)的訓(xùn)練,進(jìn)而擬合上述退化操作的逆操作,得到重建后的高清圖像。不難想象,圖像超分辨率問題是一個(gè)病態(tài)問題,對于同樣一張低分辨率圖像,往往存在多張可行的高分辨率圖像。如圖2所示,對于同一張大猩猩毛發(fā)的低分辨率圖像,存在多種合理的高分辨率重建結(jié)果。

圖2:同一張低分辨率圖像可對應(yīng)多張可行的高分辨率重建結(jié)果 [2]
目前主流的圖像超分辨率技術(shù)的解決方案可以分為基于單張圖像的超分辨率技術(shù)和基于參考圖像的超分辨率技術(shù),下面將分別對其展開介紹。
基于單張圖像的超分辨率是指通過一張輸入圖像對圖像中的高分辨率細(xì)節(jié)進(jìn)行重建,最終得到圖像超分辨率的結(jié)果,是傳統(tǒng)圖像超分辨率問題中的主流方法。
在眾多方法中,SRCNN 模型 [3] 首次將卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于圖像超分辨率技術(shù),相對于傳統(tǒng)插值、優(yōu)化算法在重建質(zhì)量上取得了極大的提升。如圖3所示,該模型使用一個(gè)三層的卷積神經(jīng)網(wǎng)絡(luò)來擬合從低分辨率圖像到高分辨率圖像的函數(shù)。特別地,該方法在 FSRCNN 模型 [4] 中被進(jìn)一步優(yōu)化,大大提升了其推理速度。

圖3:SRCNN 模型中的三層卷積結(jié)構(gòu)[3]
圖像超分辨率過程實(shí)際上是高頻紋理信息的生成過程,對于低頻部分通常來源于輸入的低分辨率圖像。然而,SRCNN 模型的特征學(xué)習(xí)過程不僅要學(xué)習(xí)生成高頻的信息,還需要對低頻信息進(jìn)行重建,大大的降低了模型的使用效率。針對于此,VDSR 模型 [5] 首次提出了殘差學(xué)習(xí)的網(wǎng)絡(luò)結(jié)構(gòu)。如圖4所示,通過一個(gè)殘差連接(藍(lán)色箭頭)將輸入圖像直接加到最終的重建高頻殘差上,可以顯著的提升模型的學(xué)習(xí)效率。

圖4:VDSR 模型中的殘差學(xué)習(xí)結(jié)構(gòu) [5]
不難發(fā)現(xiàn),上述方法均是先對輸入的低分辨率圖像進(jìn)行上采樣,然后再將其送入模型行進(jìn)行學(xué)習(xí),這種做法在降低了模型的推理速度的同時(shí)也大大增加了內(nèi)存的開銷。如圖5所示,EPSCN 模型 [6] 首次提出了子像素卷積操作,在網(wǎng)絡(luò)的最后才將學(xué)習(xí)得到的特征進(jìn)一步放大到目標(biāo)大小,大大提升了模型的訓(xùn)練效率,也使得更深卷積通道數(shù)更多的模型的訓(xùn)練成為了可能。

圖5:ESPCN 模型中的子像素卷積操作[6]
為了進(jìn)一步提升模型的表達(dá)能力,如圖6所示,SRResNet 模型 [2] 首次將被廣泛應(yīng)用于圖像分類任務(wù)中的殘差模塊引入到了圖像超分辨率問題中,取得了很好的結(jié)果。此外,EDSR 模型 [7] 針對上述網(wǎng)絡(luò)結(jié)構(gòu)提出了進(jìn)一步的優(yōu)化,通過去掉殘差模塊中的批量歸一化層和第二個(gè)激活層,進(jìn)一步提升了模型的性能。

圖6:SRResNet 模型中的殘差模塊結(jié)構(gòu) [2]
近年來,還有很多其他方法從模型的角度進(jìn)行優(yōu)化。如,SRDenseNet 模型 [8] 和 RDN 模型 [9] 引入了稠密卷積模塊,RCAN 模型 [10] 引入了通道注意力機(jī)制,SAN 模型 [11] 引入了二階統(tǒng)計(jì)信息等,上述方法均取得了非常好的結(jié)果。
如前文所述,圖像超分辨率問題是一個(gè)病態(tài)的問題,通過單純的使用平均平方誤差或平均絕對誤差損失函數(shù)進(jìn)行訓(xùn)練的模型往往會輸出模糊的圖像。這是因?yàn)樵谡麄€(gè)訓(xùn)練過程中,模型的優(yōu)化得到的最優(yōu)解實(shí)際上是所有可行解的一個(gè)平均值。
針對上述問題,被廣泛應(yīng)用于圖像風(fēng)格遷移的感知損失函數(shù)和風(fēng)格損失函數(shù)被分別引入圖像超分辨率問題中 [12, 13],某種程度上緩解了上述問題。另一方面,對抗生成損失函數(shù)在圖像生成模型中取得了很好的結(jié)果,SRGAN 模型 [2] 首次將其應(yīng)用于圖像超分辨率問題,大大的提升了重建圖像的真實(shí)感。
然而上述方法仍存在一定的問題,主要是由于生成對抗網(wǎng)絡(luò)所依賴的模型能力有限,往往很難對自然界中的全部紋理進(jìn)行表達(dá),因此在某些紋理復(fù)雜的地方會生成錯誤的紋理(如圖7中的文字部分),帶來不好的觀感。

圖7:基于對抗生成損失函數(shù)的錯誤紋理生成問題 [2]
針對單張圖像超分辨率技術(shù)中生成對抗損失函數(shù)引入的錯誤紋理生成問題,基于參考圖像的超分辨率技術(shù)為該領(lǐng)域指明了一個(gè)新的方向。基于參考圖像的超分辨率,顧名思義就是通過一張與輸入圖像相似的高分辨率圖像,輔助整個(gè)超分辨率的復(fù)原過程。高分辨率參考圖像的引入,將圖像超分辨率問題由較為困難的紋理恢復(fù)/生成轉(zhuǎn)化為了相對簡單的紋理搜索與遷移,使得超分辨率結(jié)果在視覺效果上有了顯著的提升。
Landmark 模型 [14] 通過圖像檢索技術(shù),從網(wǎng)絡(luò)上爬取與輸入圖像相似的高分辨率圖像,再進(jìn)一步通過圖像配準(zhǔn)操作,最終合成得到對應(yīng)的超分辨率結(jié)果,其算法流程如圖8所示。

圖8:Landmark 模型的算法流程圖 [14]
CrossNet 模型 [15] 進(jìn)一步優(yōu)化上述圖像配準(zhǔn)過程,提出了基于光流估計(jì)的模型結(jié)構(gòu)。如圖9所示,該模型通過估計(jì)輸入低分辨率圖像與參考圖像之間的光流來對超分辨率圖像進(jìn)行重建。最終結(jié)果的優(yōu)劣很大程度上依賴于光流計(jì)算的準(zhǔn)確與否,而這要求輸入的低分辨率圖像與參考圖像在視角上不能存在很大的偏差,大大限制了上述模型的適用性。

圖9:CrossNet 模型的光流估計(jì)與圖像編解碼結(jié)構(gòu) [15]
針對上述問題,最近發(fā)表的 SRNTT 模型 [16] 提出了基于圖像塊的全局搜索與遷移模塊,取得了非常不錯的結(jié)果。該模型通過在不同尺度上對輸入低分辨率圖像與高分辨率參考圖像中的相似圖像塊進(jìn)行全局的搜索與遷移,上述過程可以很好地通過高分辨率的參考圖像中的高頻紋理對輸入低分辨率圖像進(jìn)行表達(dá),進(jìn)而得到非常真實(shí)的超分辨率結(jié)果。
上文中提到的現(xiàn)有圖像超分辨率技術(shù)在實(shí)際應(yīng)用中仍存在較大的問題,特別是在面對分辨率較小的輸入圖像時(shí)(如小于200x200的圖像),其得到的結(jié)果很難令人滿意。另一方面,對于用戶日常從網(wǎng)絡(luò)上收集得到的圖像素材,低分辨率的插圖是十分常見的。直接通過上述算法得到的結(jié)果,其圖像質(zhì)量通常難以被用戶所接受,并不能在實(shí)際的生產(chǎn)場景中帶來很好的用戶體驗(yàn)。
微軟亞洲研究院針對這一問題提出了一套全新的圖像超分辨率解決方案,在技術(shù)上全面領(lǐng)先的同時(shí),該科研成果還將進(jìn)一步集成進(jìn) Microsoft 365 中 PowerPoint 產(chǎn)品的 Design Ideas 模塊中,該模塊通過人工智能技術(shù),為用戶提供各種在幻燈片制作過程中的建議與幫助,提升用戶幻燈片制作的效率與最終成品的質(zhì)量。如圖10所示,當(dāng)用戶插入一張低分辨率的圖像時(shí),會自動觸發(fā) Design Ideas 模塊,一旦用戶確認(rèn)使用圖像超分辨率技術(shù)進(jìn)行圖像增強(qiáng),原始的低分辨率圖像將立即被一張高分辨率的圖像所替代,整個(gè)過程耗時(shí)極低,實(shí)際效果卻有著很大的提升。

圖10:通過 PowerPoint 中的 Design Ideas 模塊提升用戶的圖像質(zhì)量
(上:用戶插入的低分辨率圖像放大結(jié)果,下:超分辨率后圖像放大結(jié)果)
很快,Microsoft 365 的用戶就可以體驗(yàn)到這一新功能,背后的相關(guān)技術(shù)論文已經(jīng)被 CVPR 2020 收錄,請大家關(guān)注我們的后續(xù)文章,會為大家一一揭曉。
參考文獻(xiàn)
[1] Oktay O , Bai W , Lee M , et al. Multi-Input Cardiac Image Super-Resolution using Convolutional Neural Networks[C]. MICCAI 2016.
[2] Ledig C , Theis L , Huszar F , et al. Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network[J]. CVPR 2017.
[3] Dong C , Loy C C , He K , et al. Image Super-Resolution Using Deep Convolutional Networks[J]. TPAMI 2016.
[4] Dong C , Loy C C , Tang X . Accelerating the Super-Resolution Convolutional Neural Network[C]. ECCV 2016.
[5] Kim J , Lee J K , Lee K M . Accurate Image Super-Resolution Using Very Deep Convolutional Networks[C]. CVPR 2016.
[6] Shi W , Caballero J , Huszár, Ferenc, et al. Real-Time Single Image and Video Super-Resolution Using an Efficient Sub-Pixel Convolutional Neural Network[C]. CVPR 2016.
[7] Lim B , Son S , Kim H , et al. Enhanced Deep Residual Networks for Single Image Super-Resolution[C]. CVPRW 2017.
[8] Tong T , Li G , Liu X , et al. Image Super-Resolution Using Dense Skip Connections[C]. ICCV 2017.
[9] Zhang Y , Tian Y , Kong Y , et al. Residual Dense Network for Image Super-Resolution[C]. CVPR 2018.
[10] Zhang Y , Li K , Li K , et al. Image Super-Resolution Using Very Deep Residual Channel Attention Networks[C]. CVPR 2018.
[11] Dai T , Cai J , Zhang Y, et al. Second-Order Attention Network for Single Image Super-Resolution[C]. CVPR 2019.
[12] Johnson J , Alahi A , Fei-Fei L . Perceptual Losses for Real-Time Style Transfer and Super-Resolution[C]. ECCV 2016.
[13] Sajjadi M S M , Schlkopf B , Hirsch M . EnhanceNet: Single Image Super-Resolution Through Automated Texture Synthesis[C]. ICCV 2017.
[14] Yue H , Sun X , Member S , et al. Landmark Image Super-Resolution by Retrieving Web Images[J]. TIP 2013.
[15] Zheng H , Ji M , Wang H , et al. CrossNet: An End-to-end Reference-based Super Resolution Network using Cross-scale Warping[C]. ECCV 2018.
[16] Zhang Z , Wang Z , Lin Z , et al. Image Super-Resolution by Neural Texture Transfer[C]. CVPR 2019.
好消息!
小白學(xué)視覺知識星球
開始面向外開放啦??????
下載1:OpenCV-Contrib擴(kuò)展模塊中文版教程 在「小白學(xué)視覺」公眾號后臺回復(fù):擴(kuò)展模塊中文教程,即可下載全網(wǎng)第一份OpenCV擴(kuò)展模塊教程中文版,涵蓋擴(kuò)展模塊安裝、SFM算法、立體視覺、目標(biāo)跟蹤、生物視覺、超分辨率處理等二十多章內(nèi)容。 下載2:Python視覺實(shí)戰(zhàn)項(xiàng)目52講 在「小白學(xué)視覺」公眾號后臺回復(fù):Python視覺實(shí)戰(zhàn)項(xiàng)目,即可下載包括圖像分割、口罩檢測、車道線檢測、車輛計(jì)數(shù)、添加眼線、車牌識別、字符識別、情緒檢測、文本內(nèi)容提取、面部識別等31個(gè)視覺實(shí)戰(zhàn)項(xiàng)目,助力快速學(xué)校計(jì)算機(jī)視覺。 下載3:OpenCV實(shí)戰(zhàn)項(xiàng)目20講 在「小白學(xué)視覺」公眾號后臺回復(fù):OpenCV實(shí)戰(zhàn)項(xiàng)目20講,即可下載含有20個(gè)基于OpenCV實(shí)現(xiàn)20個(gè)實(shí)戰(zhàn)項(xiàng)目,實(shí)現(xiàn)OpenCV學(xué)習(xí)進(jìn)階。 交流群
歡迎加入公眾號讀者群一起和同行交流,目前有SLAM、三維視覺、傳感器、自動駕駛、計(jì)算攝影、檢測、分割、識別、醫(yī)學(xué)影像、GAN、算法競賽等微信群(以后會逐漸細(xì)分),請掃描下面微信號加群,備注:”昵稱+學(xué)校/公司+研究方向“,例如:”張三 + 上海交大 + 視覺SLAM“。請按照格式備注,否則不予通過。添加成功后會根據(jù)研究方向邀請進(jìn)入相關(guān)微信群。請勿在群內(nèi)發(fā)送廣告,否則會請出群,謝謝理解~

