點擊上方“機器學(xué)習(xí)與生成對抗網(wǎng)絡(luò)”,關(guān)注星標(biāo)
獲取有趣、好玩的前沿干貨!
文章來源 機器之心 編輯部
來自以色列特拉維夫大學(xué)的研究者在生成圖像方面又有了新的升級,所用方法在保留源圖像身份的同時,在細(xì)節(jié)編輯上實現(xiàn)了更精細(xì)的效果。
英偉達(dá)提出的風(fēng)格遷移模型 StyleGAN 系列,一直是人們用來進(jìn)行各類腦洞畫圖實驗的流行工具。從生成二次元「老婆」,照片修圖,到人物的卡通化,最近幾年基于這種技術(shù)的應(yīng)用不一而足。然而 StyleGAN 也一直有著自己的不足,近年來的各種改進(jìn)也未能讓其在反向生成、細(xì)節(jié)編輯上實現(xiàn)精細(xì)的效果。什么時候我們才能讓 AI 隨心所欲地修改真人照片呢?在以色列特拉維夫大學(xué)的論文《Pivotal Tuning for Latent-based Editing of Real Images》中,研究人員通過添加一個簡短的訓(xùn)練過程,讓 StyleGAN 有了煥然一新的升級。它的生成效果是這樣的,生成更年輕和微笑的 Yann LeCun:
還有更年輕和面部旋轉(zhuǎn)后的吳恩達(dá):
下圖中,輸入小威廉姆斯、小羅伯特 · 唐尼以及小丑等人的照片,經(jīng)過處理后,生成了微笑、換發(fā)型、老年、張嘴、去胡須、擺 pose 等多樣化的形象:
最近,一波先進(jìn)的面部編輯技術(shù)被提出,這些技術(shù)利用預(yù)訓(xùn)練 StyleGAN 的圖像生成能力。要用這種方法成功地編輯圖像,必須首先將圖像投影到預(yù)先訓(xùn)練好的生成器域中。然而,事實證明,StyleGAN 的潛在空間在失真和可編輯性之間產(chǎn)生了內(nèi)在的折衷,即在保持原始外觀和改變其某些屬性之間需要折中。實際上,這意味著將保留 ID 的面部潛在空間編輯應(yīng)用于生成器域之外的面部仍然具有挑戰(zhàn)性。在本文中,來自以色列特拉維夫大學(xué)的研究者提出了一種方法來彌補這一差距。該研究稍微改變了生成器,使得一個域外的圖像如實的被映射到一個域內(nèi)的潛碼。該研究一個關(guān)鍵的調(diào)整,一個簡短的訓(xùn)練過程,保留域內(nèi)潛在區(qū)域的編輯質(zhì)量,同時改變其描述的身份和外觀。
論文地址:https://arxiv.org/pdf/2106.05744.pdfGitHub 地址:https://github.com/danielroich/PTIhttps://colab.research.google.com/github/danielroich/PTI/blob/main/notebooks/inference_playground.ipynb在研究者提出的 PTI(Pivotal Tuning Inversion)中,初始反向潛碼充當(dāng)樞軸(pivotal),你可以圍繞它微調(diào)生成器。同時,正則化項保持附近的身份信息不變,保持局部信息影響。這種訓(xùn)練過程最終會改變身份的外觀特征,而不會影響編輯能力。為了補充這一點,該研究進(jìn)一步表明,樞軸調(diào)整(pivotal tuning)還可以調(diào)整生成器以適應(yīng)多個人臉,同時在域的其余部分引入可忽略的失真。
該研究主要是使用 StyleGAN 為真實圖像提供生成高質(zhì)量的編輯。由于 StyleGAN 的特性,可以對其生成的外觀進(jìn)行細(xì)微的局部更改,而不會損害其強大的編輯功能。因此,給定一張圖像,可能外觀看起來不正常(例如一個人處在極端的照明條件下,或濃妝艷抹,或夸張的發(fā)型和頭飾),該研究建議在生成器的域內(nèi)找到最近的可編輯點。然后這些點可以被拉向目標(biāo),對周圍的域影響微乎其微,對其他域的影響也微乎其微。實驗采用 StyleGAN2 生成器 ,對于面部圖像,研究者使用在 FFHQ 數(shù)據(jù)集上預(yù)訓(xùn)練的生成器進(jìn)行處理,并使用 CelebA-HQ 數(shù)據(jù)集進(jìn)行評估。此外,該研究還收集了一些其他名人的圖像,以突出顯示該研究保持身份的能力。研究者采用以下指標(biāo):像素級距離 MSE、感知相似度 LPIPS 、結(jié)構(gòu)相似度 MS SSIM 、以及利用預(yù)訓(xùn)練的人臉識別網(wǎng)絡(luò)實現(xiàn)身份相似度。結(jié)果如下表所示。可以得出在每個指標(biāo)上,該研究都是最佳得分。
如下圖所示,即使不考慮可編輯性,該研究的方法對所有的例子都獲得了較好的重建效果,特別是域外的例子,因為該方法是唯一可以成功的重建具有挑戰(zhàn)性的細(xì)節(jié),如臉部繪畫或手等細(xì)節(jié)。
此外,該研究提出的方法還能夠重建很多細(xì)節(jié),如妝容、光線、皺紋等。
圖 6 顯示了對 CelebA-HQ 數(shù)據(jù)集的編輯比較,演示了姿勢(頂部)和微笑收斂(底部)編輯。由結(jié)果可得在 SG2 W + 上的編輯不會產(chǎn)生所需的效果,例如,底部行中的嘴沒有閉合。SG2 和 e4e 實現(xiàn)了更好的編輯,但失去了原有的身份。PTI 在保持身份的同時實現(xiàn)了高質(zhì)量的編輯。
【贈書福利】

編輯推薦
全景:囊括GAN起源、發(fā)展和演變的全貌;
插圖:100余幅插圖,圖說GAN的原理;
實戰(zhàn):10余種有代表性的GAN案例代碼。
【活動】
本次為大家免費寄送紙質(zhì)正版圖書!6月30日22點結(jié)束并開獎。
1、文末點 在看 !
2、公眾號后臺、或者掃以下碼,回復(fù) 168 ,參與抽獎!
猜您喜歡:
等你著陸!【GAN生成對抗網(wǎng)絡(luò)】知識星球!
CVPR 2021 | GAN的說話人驅(qū)動、3D人臉論文匯總
CVPR 2021 | 圖像轉(zhuǎn)換 今如何?幾篇GAN論文
【CVPR 2021】通過GAN提升人臉識別的遺留難題
CVPR 2021生成對抗網(wǎng)絡(luò)GAN部分論文匯總
經(jīng)典GAN不得不讀:StyleGAN
最新最全20篇!基于 StyleGAN 改進(jìn)或應(yīng)用相關(guān)論文
超100篇!CVPR 2020最全GAN論文梳理匯總!
附下載 | 《Python進(jìn)階》中文版
附下載 | 經(jīng)典《Think Python》中文版
附下載 | 《Pytorch模型訓(xùn)練實用教程》
附下載 | 最新2020李沐《動手學(xué)深度學(xué)習(xí)》
附下載 | 《可解釋的機器學(xué)習(xí)》中文版
附下載 |《TensorFlow 2.0 深度學(xué)習(xí)算法實戰(zhàn)》
附下載 | 超100篇!CVPR 2020最全GAN論文梳理匯總!
附下載 |《計算機視覺中的數(shù)學(xué)方法》分享