LeCun點(diǎn)贊!GAN模型130毫秒生成動(dòng)漫肖像!
點(diǎn)擊上方“視學(xué)算法”,選擇加"星標(biāo)"或“置頂”
重磅干貨,第一時(shí)間送達(dá)
如何把肖像畫變成動(dòng)漫形象一直是一個(gè)研究熱點(diǎn),最近NTU的一個(gè)華人博士生提出一個(gè)新模型AgileGAN,效果碾壓老牌模型。把LeCun的肖像畫輸入進(jìn)去,竟得到驚天夸贊!
AgileGAN模型是一個(gè)能對(duì)肖像圖進(jìn)行風(fēng)格化的模型,論文發(fā)表在計(jì)算機(jī)圖形學(xué)頂級(jí)會(huì)議 SIGGRAPH 2021上。

當(dāng)把Yann LeCun的照片輸入到模型中,會(huì)發(fā)生什么?(Lecun本人會(huì)回復(fù)你)
LeCun的肖像畫輸入到AgileGAN中,以三種形式(卡通、漫畫、油畫)輸出,獲得了LeCun本人極高的評(píng)價(jià):比梵高畫的還好!

對(duì)于這三張圖片,網(wǎng)友表示,最后一張漫畫風(fēng)格圖和孫悟空很像!

AgileGAN 模型
肖像畫作為一種藝術(shù)形式,已經(jīng)從傳統(tǒng)的現(xiàn)實(shí)主義描繪演變?yōu)槠渌罅康膭?chuàng)作風(fēng)格。
盡管在肖像自動(dòng)風(fēng)格化方面已經(jīng)取得了實(shí)質(zhì)性進(jìn)展,但是生成高質(zhì)量的肖像畫仍然是一個(gè)挑戰(zhàn),即使是使用最近流行的Toonify,在用于輸入真實(shí)的圖像時(shí)也遭受了一些瑕疵的困擾。
這種基于StyleGAN的方法著重于尋找最佳的隱空間映射來(lái)重建輸入圖像。但是,我們發(fā)現(xiàn)這并不能很好地作用出不同的肖像風(fēng)格。
因此,論文提出了AgileGAN,這是一個(gè)可以通過(guò)隱射一致隱空間的轉(zhuǎn)移學(xué)習(xí)生成高質(zhì)量風(fēng)格肖像的框架。引入了一種新穎的分層變分自編碼器,以確保映射隱空間分布符合原始的高斯分布,同時(shí)將原始空間擴(kuò)展為多維度隱空間,以便更好地編碼不同級(jí)別的細(xì)節(jié)。
為了更好地捕獲面部特征生成,我們還提出了一種屬性感知生成器,并采用了一種動(dòng)態(tài)停止策略,以避免過(guò)度擬合小型訓(xùn)練數(shù)據(jù)集。
我們的方法在創(chuàng)建高質(zhì)量和高分辨率(1024×1024)肖像風(fēng)格化模型方面提供了更大的敏捷性,只需要有限數(shù)量的風(fēng)格樣本(~100)和較短的訓(xùn)練時(shí)間(~1小時(shí))。
我們收集了幾個(gè)用于評(píng)估的風(fēng)格數(shù)據(jù)集,包括 3D 卡通、漫畫、油畫和名人。
結(jié)果表明,通過(guò)定性、定量和通過(guò)用戶調(diào)研研究進(jìn)行的比較,可以實(shí)現(xiàn)優(yōu)于以前最先進(jìn)方法的肖像風(fēng)格化質(zhì)量。
文中還將演示該方法的兩種應(yīng)用,圖像編輯和風(fēng)格視頻生成。

給定單個(gè)輸入圖像,AgileGAN可以快速(130 毫秒)并自動(dòng)生成各種藝術(shù)風(fēng)格的高質(zhì)量(1024×1024)風(fēng)格人像 。對(duì)于一種新風(fēng)格,我們的敏捷訓(xùn)練策略僅需要大約100個(gè)訓(xùn)練樣本示例,并且可以在1小時(shí)內(nèi)完成訓(xùn)練。
模型的主要流程是一個(gè)分層VAE,由一個(gè)編碼器和生成器組成,帶有表示不同訓(xùn)練數(shù)據(jù)流的不同顏色箭頭基于StyleGAN2。藍(lán)色箭頭表示圖像embedding,橙色箭頭表示遷移學(xué)習(xí)。黑色邊框表示塊權(quán)重,從FFHQ數(shù)據(jù)集上預(yù)先訓(xùn)練的StyleGAN2得到的預(yù)訓(xùn)練權(quán)重,在訓(xùn)練期間參數(shù)保持不變。輸入由Erin Wagner(public domain)提供。

為了生成樣式化的肖像,模型使用一個(gè)相對(duì)風(fēng)格范例的小集合。主要框架基于StyleGAN2,但增強(qiáng)了多路徑結(jié)構(gòu),以更好地適應(yīng)與已知屬性相對(duì)應(yīng)的不同特征,如性別等。
為了緩解解決數(shù)據(jù)集的特征問(wèn)題,更好地保留用戶身份,訓(xùn)練過(guò)程采用了遷移學(xué)習(xí)和早期停止策略來(lái)訓(xùn)練生成器。

屬性感知(attribute-aware)生成器網(wǎng)絡(luò)的體系結(jié)構(gòu)。每個(gè)潛在編碼??, 從標(biāo)準(zhǔn)高斯分布采樣,首先映射到中間編碼??. 每個(gè)?? 向前轉(zhuǎn)換為樣式塊中的仿射變換,并通過(guò)自適應(yīng)實(shí)例控制生成歸一化(AdaIN)。
解碼時(shí),首先初始化一個(gè)常量特征映射。在較低的層中使用多個(gè)路徑屬性特異性,而共享高層統(tǒng)一紋理外觀。使用多屬性特定鑒別器來(lái)評(píng)估生成的圖像的質(zhì)量圖像。包括鑒別器的網(wǎng)絡(luò)權(quán)值從StyleGAN2初始化。

給定一個(gè)輸入的人臉圖像??, 它首先被扭曲并標(biāo)準(zhǔn)化為256×256,并由hVAE編碼得到隱高斯后驗(yàn)分布??(??|??), 從這以后重要度分布只與hVAE訓(xùn)練相關(guān)。
在推斷過(guò)程中通常不從這個(gè)分布中取樣,而是直接用分布均值作為latent code ??, 可以更好地保持時(shí)間一致性。
這個(gè)編碼?? 然后通過(guò)到所選的樣式化生成器以生成1024×1024樣式化的形象。
在極少數(shù)情況下,可能存在高頻偽影生成。在這些情況下,我們可以從輸入的高斯分布中抽取多個(gè)實(shí)例,從而得到多個(gè)輸出圖像。
我們也可以選擇一個(gè)沒(méi)有人工制品的手動(dòng)或在輸出圖像中選擇平均感知距離最小的圖像。
對(duì)于性別屬性,使用一個(gè)簡(jiǎn)單的外部預(yù)先訓(xùn)練的性別檢測(cè)網(wǎng)絡(luò)。
總的來(lái)說(shuō),推理階段需要每幅圖像約130毫秒。

生成質(zhì)量的評(píng)估上,文中方法的結(jié)果可以與Toonify(2020的一個(gè)模型)和其他最近的非配對(duì)圖像翻譯技術(shù),包括CycleGan(2017年),UNIT(2017年)和UGATIT(2020年)。
文中的對(duì)比結(jié)果由使用了作者的代碼和設(shè)置來(lái)訓(xùn)練他們的模型,在作者提供的卡通數(shù)據(jù)集上傳輸給生成器。在他們的方法中,他們使用優(yōu)化方法嵌入在潛在空間中輸入圖像,并將相應(yīng)的編碼輸入到遷移學(xué)習(xí)得到的生成器。對(duì)于其他三種圖像翻譯方法,還使用了各自作者的代碼和設(shè)置,以便在CelebA訓(xùn)練總的數(shù)據(jù)集和卡通數(shù)據(jù)集。
由于收斂困難和GPU內(nèi)存限制,這些方法無(wú)法直接支持1024×1024分辨率,因此保持原來(lái)的256×256參與訓(xùn)練,輸出到1024×1024進(jìn)行比較。
Toonify的結(jié)果展示一些可見(jiàn)的人工制品,如不尋常的淡黃色斑塊。
至于其他未配對(duì)的圖像翻譯方法,除了沒(méi)有支持更高的決議,他們也沒(méi)有很好地應(yīng)付時(shí)用有限的范例訓(xùn)練。
作者
文中的第一作者是來(lái)自南洋理工大學(xué)的四年級(jí)博士生Song Guoxian,目前在字節(jié)跳動(dòng)美國(guó)AI lab實(shí)習(xí)。
主要的研究興趣是計(jì)算機(jī)視覺(jué)和圖形,包括基于圖像的 3D 人臉重建/分析、注視估計(jì)、人像重繪,尤其是針對(duì) VR/AR 應(yīng)用程序。
在線試用
模型提供了一個(gè)在線試用的網(wǎng)站。
當(dāng)輸入一張肖像圖時(shí),可以選擇生成三種風(fēng)格的動(dòng)漫圖片。

卡通風(fēng)格:

油畫風(fēng)格:

漫畫風(fēng)格:

你學(xué)廢了嗎?
參考資料:
https://twitter.com/ylecun/status/1402148354688229376?s=21
https://guoxiansong.github.io/homepage/agilegan.html

點(diǎn)個(gè)在看 paper不斷!
