CVPR2021 基于GAN的模糊圖像復(fù)原
點(diǎn)擊上方“機(jī)器學(xué)習(xí)與生成對抗網(wǎng)絡(luò)”,關(guān)注星標(biāo)
獲取有趣、好玩的前沿干貨!

文章 新智元 CVPR2021 編輯:LRS
【新智元導(dǎo)讀】馬賽克的圖像還能被修復(fù)?只要給深度學(xué)習(xí)模型足夠的想象能力就能做到!CVPR2021上一篇論文能夠相當(dāng)逼真地修復(fù)低清晰度的人像照片,但網(wǎng)友卻表示,這也許不叫修復(fù),叫重新想象更靠譜吧!
深度學(xué)習(xí)無所不能,一張打滿了馬賽克的臉也能通過模型的「想象」來消除。
但這不禁讓人思考,通過深度學(xué)習(xí)訓(xùn)練出來人臉,還叫「圖像修復(fù)」嗎?也許叫「生成」更靠譜一些!
香港理工大學(xué)在CVPR2021上發(fā)表了一篇論文,GAN Prior Embedded Network for Blind Face Restoration in the Wild,可以將模糊的圖片變清晰。

例如這張經(jīng)典的1927年召開的索爾維會議,當(dāng)把圖像放大到200%的時候,就會變得模糊,根據(jù)修復(fù)技術(shù),則可以重見清晰。
有網(wǎng)友表示,還原(restore)這個詞可能是,不能保證那個人看起來就是那個樣子,或許「重新想象」更為恰當(dāng)。

相比之前的工作,生成的圖片更加真實(shí)。


嚴(yán)重?fù)p壞的人臉圖像復(fù)原(Blind face restoration)是一個非常具有挑戰(zhàn)性的問題。
由于問題的嚴(yán)重性和復(fù)雜的未知退化,直接訓(xùn)練深層神經(jīng)網(wǎng)絡(luò)往往不能得到滿意的結(jié)果。
現(xiàn)有的基于生成對抗性網(wǎng)絡(luò)(GAN)的方法可以產(chǎn)生更好的結(jié)果,但往往會產(chǎn)生過于平滑的修復(fù)。
這篇論文提出了一種新的人臉圖像生成方法,首先學(xué)習(xí)一個用于高質(zhì)量人臉圖像生成的 GAN,并將其嵌入到 U-shaped DNN 中作為先驗(yàn)解碼器,然后用一組合成的低質(zhì)量人臉圖像對先驗(yàn)嵌入的 GAN DNN 進(jìn)行微調(diào)。
設(shè)計 GAN 模塊是為了保證從 DNN 的深度和淺度特征分別生成 GAN 的潛碼和噪聲輸入,控制重建圖像的全局人臉結(jié)構(gòu)、局部人臉細(xì)節(jié)和背景。
論文提出的 GAN 預(yù)嵌入式網(wǎng)絡(luò)(GPEN)具有易于實(shí)現(xiàn)、可視化生成逼真結(jié)果的特點(diǎn)。
實(shí)驗(yàn)表明,所提出的 GPEN 取得了顯著優(yōu)于sota的 BFR 方法在定量和定性,尤其是在野外嚴(yán)重退化的人臉圖像恢復(fù)的結(jié)果。
論文中提出的GPEN網(wǎng)絡(luò)的架構(gòu):
(a) 是一個GAN先驗(yàn)網(wǎng)絡(luò)
(b)是一個GAN塊的細(xì)節(jié)部分
(c)是GPEN的完整的架構(gòu)

GAN先驗(yàn)網(wǎng)絡(luò)U-Net在許多圖像恢復(fù)任務(wù)中得到了成功和廣泛的應(yīng)用,并證明了它能夠保存圖像細(xì)節(jié)。
因此,GPEN總體上遵循U-shaped編碼器-解碼器架構(gòu)。
GAN先驗(yàn)網(wǎng)絡(luò)應(yīng)設(shè)計成滿足兩個要求:
1)能夠生成高質(zhì)量的人臉圖像;
2)它可以很容易地嵌入到U-shaped GPEN中作為解碼器。
受最先進(jìn)的GAN架構(gòu)的啟發(fā),例如StyleGAN,使用映射網(wǎng)絡(luò)將潛碼z投射到糾纏度較小的空間w∈ W中。然后將中間碼w擴(kuò)散到每個GAN塊。
由于GAN-prior網(wǎng)絡(luò)將嵌入Ushaped DNN中進(jìn)行微調(diào),因此我們需要為跳過由U-shaped DNN的編碼器提取的特征映射。
除此之外,訓(xùn)練數(shù)據(jù)還提供額外的噪聲輸入到每個塊中。

對于GAN塊的構(gòu)造,有幾種選擇。在這項(xiàng)工作中采用了StyleGAN v2的架構(gòu),因?yàn)槠渖蒆Q圖像的能力很強(qiáng)(其他可供選擇的GAN架構(gòu),如StyleGAN v1、PGGAN和BigGAN也可以很容易被GPEN采用)
GAN的塊數(shù)等于U形DNN中提取的跳過特征映射的個數(shù)(和噪聲輸入的個數(shù)),與輸入人臉圖像的分辨率有關(guān)。
StyleGAN在每個GAN塊中需要兩個不同的噪聲輸入。
不同于StyleGAN,為了使GAN先驗(yàn)網(wǎng)絡(luò)能夠容易地嵌入到U形GPEN中,噪聲輸入以相同的空間分辨率重復(fù)應(yīng)用到所有的GAN塊中。
此外,在StyleGAN中,噪聲輸入被串聯(lián)而不是添加到卷積中。
研究人員經(jīng)驗(yàn)性地發(fā)現(xiàn),這可以帶來更多的細(xì)節(jié)來還原的人臉圖像。

完整的網(wǎng)絡(luò)架構(gòu):一旦使用一些數(shù)據(jù)集(例如FFHQ)訓(xùn)練了GAN先驗(yàn)網(wǎng)絡(luò)后,將其嵌入U形DNN中作為解碼器。
潛在的代碼z和噪聲輸入到GAN網(wǎng)絡(luò)被替換為輸出全連接層(即較深的特征)和較淺的各層的編碼器的DNN,這將控制重建全局人臉結(jié)構(gòu),局部人臉細(xì)節(jié),以及人臉圖像的背景。
因?yàn)樵撃P褪遣煌耆矸e的低質(zhì)量人臉圖像,輸入到GPEN之前首先調(diào)整到所需的分辨率(例如1024*1024)使用簡單的雙線性插值。
在嵌入之后,整個GPEN將進(jìn)行微調(diào),以便將編碼器部分和解碼器部分可以學(xué)習(xí)適應(yīng)彼此。

參考資料:
https://www.reddit.com/r/artificial/comments/o221ni/gpen_restores_extremely_degraded_faces_that_is/
猜您喜歡:
等你著陸!【GAN生成對抗網(wǎng)絡(luò)】知識星球!
CVPR 2021 | GAN的說話人驅(qū)動、3D人臉論文匯總
CVPR 2021 | 圖像轉(zhuǎn)換 今如何?幾篇GAN論文
CVPR 2021生成對抗網(wǎng)絡(luò)GAN部分論文匯總
最新最全20篇!基于 StyleGAN 改進(jìn)或應(yīng)用相關(guān)論文
附下載 | 經(jīng)典《Think Python》中文版
附下載 | 《Pytorch模型訓(xùn)練實(shí)用教程》
附下載 | 最新2020李沐《動手學(xué)深度學(xué)習(xí)》
附下載 | 《可解釋的機(jī)器學(xué)習(xí)》中文版
附下載 |《TensorFlow 2.0 深度學(xué)習(xí)算法實(shí)戰(zhàn)》
