CVPR2021論文能修復(fù)馬賽克?香港理工大學(xué)新研究,修復(fù)模糊圖像!

新智元報(bào)道
新智元報(bào)道
來源:CVPR2021
編輯:LRS
【新智元導(dǎo)讀】馬賽克的圖像還能被修復(fù)?只要給深度學(xué)習(xí)模型足夠的想象能力就能做到!CVPR2021上一篇論文能夠相當(dāng)逼真地修復(fù)低清晰度的人像照片,但網(wǎng)友卻表示,這也許不叫修復(fù),叫重新想象更靠譜吧!
深度學(xué)習(xí)無所不能,一張打滿了馬賽克的臉也能通過模型的「想象」來消除。
但這不禁讓人思考,通過深度學(xué)習(xí)訓(xùn)練出來人臉,還叫「圖像修復(fù)」嗎?也許叫「生成」更靠譜一些!
香港理工大學(xué)在CVPR2021上發(fā)表了一篇論文,GAN Prior Embedded Network for Blind Face Restoration in the Wild,可以將模糊的圖片變清晰。

例如這張經(jīng)典的1927年召開的索爾維會(huì)議,當(dāng)把圖像放大到200%的時(shí)候,就會(huì)變得模糊,根據(jù)修復(fù)技術(shù),則可以重見清晰。
有網(wǎng)友表示,還原(restore)這個(gè)詞可能是,不能保證那個(gè)人看起來就是那個(gè)樣子,或許「重新想象」更為恰當(dāng)。

相比之前的工作,生成的圖片更加真實(shí)。


嚴(yán)重?fù)p壞的人臉圖像復(fù)原(Blind face restoration)是一個(gè)非常具有挑戰(zhàn)性的問題。
由于問題的嚴(yán)重性和復(fù)雜的未知退化,直接訓(xùn)練深層神經(jīng)網(wǎng)絡(luò)往往不能得到滿意的結(jié)果。
現(xiàn)有的基于生成對(duì)抗性網(wǎng)絡(luò)(GAN)的方法可以產(chǎn)生更好的結(jié)果,但往往會(huì)產(chǎn)生過于平滑的修復(fù)。
這篇論文提出了一種新的人臉圖像生成方法,首先學(xué)習(xí)一個(gè)用于高質(zhì)量人臉圖像生成的 GAN,并將其嵌入到 U-shaped DNN 中作為先驗(yàn)解碼器,然后用一組合成的低質(zhì)量人臉圖像對(duì)先驗(yàn)嵌入的 GAN DNN 進(jìn)行微調(diào)。
設(shè)計(jì) GAN 模塊是為了保證從 DNN 的深度和淺度特征分別生成 GAN 的潛碼和噪聲輸入,控制重建圖像的全局人臉結(jié)構(gòu)、局部人臉細(xì)節(jié)和背景。
論文提出的 GAN 預(yù)嵌入式網(wǎng)絡(luò)(GPEN)具有易于實(shí)現(xiàn)、可視化生成逼真結(jié)果的特點(diǎn)。
實(shí)驗(yàn)表明,所提出的 GPEN 取得了顯著優(yōu)于sota的 BFR 方法在定量和定性,尤其是在野外嚴(yán)重退化的人臉圖像恢復(fù)的結(jié)果。
論文中提出的GPEN網(wǎng)絡(luò)的架構(gòu):
(a) 是一個(gè)GAN先驗(yàn)網(wǎng)絡(luò)
(b)是一個(gè)GAN塊的細(xì)節(jié)部分
(c)是GPEN的完整的架構(gòu)

GAN先驗(yàn)網(wǎng)絡(luò)U-Net在許多圖像恢復(fù)任務(wù)中得到了成功和廣泛的應(yīng)用,并證明了它能夠保存圖像細(xì)節(jié)。
因此,GPEN總體上遵循U-shaped編碼器-解碼器架構(gòu)。
GAN先驗(yàn)網(wǎng)絡(luò)應(yīng)設(shè)計(jì)成滿足兩個(gè)要求:
1)能夠生成高質(zhì)量的人臉圖像;
2)它可以很容易地嵌入到U-shaped GPEN中作為解碼器。
受最先進(jìn)的GAN架構(gòu)的啟發(fā),例如StyleGAN,使用映射網(wǎng)絡(luò)將潛碼z投射到糾纏度較小的空間w∈ W中。然后將中間碼w擴(kuò)散到每個(gè)GAN塊。
由于GAN-prior網(wǎng)絡(luò)將嵌入U(xiǎn)shaped DNN中進(jìn)行微調(diào),因此我們需要為跳過由U-shaped DNN的編碼器提取的特征映射。
除此之外,訓(xùn)練數(shù)據(jù)還提供額外的噪聲輸入到每個(gè)塊中。

對(duì)于GAN塊的構(gòu)造,有幾種選擇。在這項(xiàng)工作中采用了StyleGAN v2的架構(gòu),因?yàn)槠渖蒆Q圖像的能力很強(qiáng)(其他可供選擇的GAN架構(gòu),如StyleGAN v1、PGGAN和BigGAN也可以很容易被GPEN采用)
GAN的塊數(shù)等于U形DNN中提取的跳過特征映射的個(gè)數(shù)(和噪聲輸入的個(gè)數(shù)),與輸入人臉圖像的分辨率有關(guān)。
StyleGAN在每個(gè)GAN塊中需要兩個(gè)不同的噪聲輸入。
不同于StyleGAN,為了使GAN先驗(yàn)網(wǎng)絡(luò)能夠容易地嵌入到U形GPEN中,噪聲輸入以相同的空間分辨率重復(fù)應(yīng)用到所有的GAN塊中。
此外,在StyleGAN中,噪聲輸入被串聯(lián)而不是添加到卷積中。
研究人員經(jīng)驗(yàn)性地發(fā)現(xiàn),這可以帶來更多的細(xì)節(jié)來還原的人臉圖像。

完整的網(wǎng)絡(luò)架構(gòu):一旦使用一些數(shù)據(jù)集(例如FFHQ)訓(xùn)練了GAN先驗(yàn)網(wǎng)絡(luò)后,將其嵌入U(xiǎn)形DNN中作為解碼器。
潛在的代碼z和噪聲輸入到GAN網(wǎng)絡(luò)被替換為輸出全連接層(即較深的特征)和較淺的各層的編碼器的DNN,這將控制重建全局人臉結(jié)構(gòu),局部人臉細(xì)節(jié),以及人臉圖像的背景。
因?yàn)樵撃P褪遣煌耆矸e的低質(zhì)量人臉圖像,輸入到GPEN之前首先調(diào)整到所需的分辨率(例如1024*1024)使用簡(jiǎn)單的雙線性插值。
在嵌入之后,整個(gè)GPEN將進(jìn)行微調(diào),以便將編碼器部分和解碼器部分可以學(xué)習(xí)適應(yīng)彼此。

參考資料:
https://www.reddit.com/r/artificial/comments/o221ni/gpen_restores_extremely_degraded_faces_that_is/
-往期精彩-



