簡單盤點 CVPR2020 的圖像合成論文
點擊上方“算法猿的成長“,關(guān)注公眾號,選擇加“星標(biāo)“或“置頂”
總第 147 篇文章,本文大約?3500?字,閱讀大約需要 10?分鐘
前言
本文將簡單盤點在 CVPR2020 上的圖像合成方面的論文,然后給出下載地址以及開源代碼 github(如果有開源)。
原文:https://evgenykashin.github.io/2020/06/29/CVPR2020-Image-Synthesis.html
注意:作者介紹的這些論文都還沒深入研究并做筆記,所以像 StyleGAN2 和 StarGAN2 并沒有在下方介紹的論文列表中。以及一些視頻是在 youtube 上的,目前搬運(yùn)了幾個視頻到 b 站上:
b 站視頻地址:https://www.bilibili.com/video/BV1xh411Z729/
歡迎關(guān)注我的 b 站賬號,覺得不錯的可以給我一鍵三連,謝謝!
圖像合成論文介紹
1. Cross-Domain Correspondence Learning for Exemplar-Based Image Translation

采用一張樣例圖片通過分割蒙版的方式生成圖片。生成圖片過程的風(fēng)格都來自這張樣例圖片。實際上,如果有任意圖片分割,還能允許你編輯任意的圖片。通過分割圖和樣例圖,算法可以用不同的編碼器提取特征到同一個隱式空間中,接著它們會尋找相互之間如何扭曲以及扭曲樣例圖片,然后加入通過 AdaIN 得到特征的生成器,一起進(jìn)一步提升性能。
論文的介紹可以查看這個視頻:
https://youtu.be/RkHnQYn9gR0
論文的下載地址:https://arxiv.org/abs/2004.05571
論文官網(wǎng):https://panzhang0212.github.io/CoCosNet/
開源代碼:https://github.com/microsoft/CoCosNet
2. SEAN: Image Synthesis with Semantic Region-Adaptive Normalization

盡管 SPADE 可以通過分割蒙版生成一個不錯的圖片,但作者認(rèn)為還不夠好。因此,作者給 SPADE 加入了一個正則化塊,這樣除了分割圖外,還加入了風(fēng)格的信息。風(fēng)格信息會用單獨的編碼器對圖像的每個區(qū)域進(jìn)行編碼。通過這種方式,你可以改變面部不同部位的風(fēng)格來生成混合的風(fēng)格。
論文介紹的視頻:https://youtu.be/0Vbj9xFgoUw
論文下載地址:https://openaccess.thecvf.com/content_CVPR_2020/papers/Zhu_SEAN_Image_Synthesis_With_Semantic_Region-Adaptive_Normalization_CVPR_2020_paper.pdf
開源代碼:https://github.com/ZPdesu/SEAN
3. SegAttnGAN: Text to Image Generation with Segmentation Attention

AttnGAN 的升級版本--這是一個實現(xiàn)通過文本生成一張圖片的網(wǎng)絡(luò)模型。在這個升級版本中,文本編碼器將可以對句子和單獨的詞語提取特征,而之前它只是一個多尺度生成器。此外,分割蒙版將由相同的 embedding 通過自注意機(jī)制來生成,然后蒙版會通過 SPADE 塊喂入生成器中。
論文下載地址:https://arxiv.org/abs/2005.12444
4. FaR-GAN for One-Shot Face Reenactment

通過一張照片對人臉的編輯。SPADE 生成器開始于bottleneck 網(wǎng)絡(luò)層,它來自一個輸入是原始照片的編碼器。而 SPADE 模塊會采取一個新的人臉姿勢的觀點。另外,會加入噪音。
論文下載地址:https://arxiv.org/abs/2005.06402
5. ?NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis

這篇論文是視圖合成方向。該方法適合每個場景一個單獨的模型(~30秒),它在場景中的坐標(biāo)和方向產(chǎn)生一個視圖,然后進(jìn)入渲染。它會拍攝場景相關(guān)的照片。它是通過區(qū)分渲染訓(xùn)練的。這項工作允許你在場景中生成飛行視頻,改變燈光。
論文介紹:https://www.matthewtancik.com/nerf
論文下地址:https://arxiv.org/abs/2003.08934
開源代碼地址:https://github.com/bmild/nerf
6. Learning to Simulate Dynamic Environments with GameGAN

通過下一幀的預(yù)測來模擬簡單的 2d 游戲。這是一個世界模型的再造(最早來自Schmidhuber)。有趣的技巧是你可以改變背景。
詳細(xì)的論文介紹:https://youtu.be/4OzJUNsPx60
論文下載地址:https://arxiv.org/abs/2005.12126
7.Unsupervised Learning of Probably Symmetric Deformable 3D Objects from Images in the Wild

“最佳論文”的獲得者。這篇論文的算法模型可以讓你只需要采用一張照片即可得到一個 3d 模型,不需要其他額外的標(biāo)簽。但僅適用于對稱的物體,比如人臉(或者說幾乎就只能是人臉)。根據(jù)照片的不確定性的映射,深度,紋理,視點和光線進(jìn)行預(yù)測。以差異化的呈現(xiàn)服務(wù)所有人(17年)。丟失-恢復(fù)原始照片。但它對于一些定義不明確的任務(wù)是不起作用的。這就是為什么他們使用對稱-他們翻轉(zhuǎn)紋理,值得信任的映射和陰影,從而可以在對稱物體上發(fā)揮作用。
可以通過下面這個鏈接來體驗這篇論文的工作:
http://www.robots.ox.ac.uk/~vgg/blog/unsupervised-learning-of-probably-symmetric-deformable-3d-objects-from-images-in-the-wild.html
論文地址:https://openaccess.thecvf.com/content_CVPR_2020/papers/Wu_Unsupervised_Learning_of_Probably_Symmetric_Deformable_3D_Objects_From_Images_CVPR_2020_paper.pdf
開源代碼地址:https://github.com/elliottwu/unsup3d
8. Advancing High Fidelity Identity Swapping for Forgery Detection

論文介紹:https://youtu.be/qNvpNuqfNZs
論文地址:https://openaccess.thecvf.com/content_CVPR_2020/papers/Li_Advancing_High_Fidelity_Identity_Swapping_for_Forgery_Detection_CVPR_2020_paper.pdf
9. ?Disentangled Image Generation Through Structured Noise Injection

這篇論文作者喜歡 StyleGAN 可以生成不同的人臉,但對不能通過全局的隱式編碼修改圖片的局部部位感到不滿意。因此,作者對原始的 StyleGAN 進(jìn)行了修改。修改的內(nèi)容包括:
提供的張量不再是常數(shù)4x4x512的輸入張量,而是通過通道分為4個邏輯部分。 全局代碼在空間部分為1 (1x1被擴(kuò)展為4x4)。 共享2x2(擴(kuò)展為4x4),本地4x4。 生成器中的AdaIN仍然存在,每個代碼都是單獨生成的。
通過這些修改可以實現(xiàn)在不影響全局的情況下,對人臉的局部位置進(jìn)行修改。
論文的介紹:https://youtu.be/7h-7wso9E0k
論文下載地址:https://openaccess.thecvf.com/content_CVPR_2020/papers/Alharbi_Disentangled_Image_Generation_Through_Structured_Noise_Injection_CVPR_2020_paper.pdf
開源代碼:https://github.com/yalharbi/StructuredNoiseInjection
10.Cascade EF-GAN: Progressive Facial Expression Editing With Local Focuses

該論文提出一個可以改變?nèi)四槺砬榈木W(wǎng)絡(luò)。在 image2image 的基礎(chǔ)上添加了2個修改。局部改變眼睛,鼻子,嘴巴,然后連接起來。漸進(jìn)式編輯——將結(jié)果通過網(wǎng)絡(luò)運(yùn)行幾次。
論文下載地址:https://arxiv.org/abs/2003.05905
11.PSGAN: Pose and Expression Robust Spatial-Aware GAN for Customizable Makeup Transfer

該論文是介紹一個實現(xiàn)化妝變換的方法,通過一個注意力機(jī)制解決了先前方法中的問題,即無法對姿勢或者光照有很大的差別的情況進(jìn)行轉(zhuǎn)換化妝效果。采用的注意力是放在源圖的瓶頸層和參考圖片的瓶頸層之間。除了對抗損失外,還采用了不少的其他損失函數(shù)。
論文地址:https://arxiv.org/abs/1909.06956
開源代碼地址:https://github.com/wtjiang98/PSGAN
12.MixNMatch: Multifactor Disentanglement and Encoding for Conditional Image Generation

該論文的方法可以實現(xiàn)生成部件的圖片,將其分成背景,形狀,紋理和姿勢。另外對每個實體都有不同的編碼器。
論文下載地址:https://arxiv.org/abs/1911.11758
開源代碼:https://github.com/Yuheng-Li/MixNMatch
13.Learning to Shadow Hand-Drawn Sketches

論文主要是實現(xiàn)給素描圖添加陰影效果。作者收集了一個 1000 張素描圖片以及對應(yīng)陰影的小數(shù)據(jù)集,然后硬編碼了光照的 26 個不同位置,并采用 image2image 來預(yù)測陰影的蒙版。
論文下載地址:https://openaccess.thecvf.com/content_CVPR_2020/papers/Zheng_Learning_to_Shadow_Hand-Drawn_Sketches_CVPR_2020_paper.pdf
開源代碼:https://github.com/qyzdao/ShadeSketch
14.Reusing Discriminators for Encoding: Towards Unsupervised Image-to-Image Translation

這篇論文是對 image2image 在轉(zhuǎn)換非成對數(shù)據(jù)的改進(jìn)。改進(jìn)點主要是通過復(fù)用判別器中的部分編碼器。
論文下載地址:https://arxiv.org/abs/2003.00273
15. Unpaired Portrait Drawing Generation via Asymmetric Cycle Mapping

對繪制的臉進(jìn)行非配對的image2image轉(zhuǎn)換。修正以前方法的缺點。該方法主要的特點是,前向循環(huán)一致性不需要像后向那樣嚴(yán)格,這允許在生成一個繪制的臉的時候,讓生成器更加自由。
論文下載地址:https://openaccess.thecvf.com/content_CVPR_2020/papers/Yi_Unpaired_Portrait_Drawing_Generation_via_Asymmetric_Cycle_Mapping_CVPR_2020_paper.pdf
開源代碼:https://github.com/yiranran/Unpaired-Portrait-Drawing
16.SketchyCOCO: Image Generation From Freehand Scene Sketches

在之前的工作里有將分割、文本、邊界框甚至單獨的素描轉(zhuǎn)換成照片的,但是并沒有做將照片轉(zhuǎn)換為手繪素描圖,而本文的工作就是這個。該方法的實現(xiàn)分為兩個步驟:
生成前景的物體,盡量做到精準(zhǔn); 生成背景部分的內(nèi)容,這部分會比較自由,并不需要太嚴(yán)格的匹配輸入的樹或者云朵等。
作者自己構(gòu)造了基于素描的照片數(shù)據(jù)集,其中動物是會替代為數(shù)據(jù)庫中最相似的手繪動物,背景也是類似的做法。
實驗結(jié)果非常的有趣,如上圖 a 轉(zhuǎn)到 e 圖。
論文下載地址:https://openaccess.thecvf.com/content_CVPR_2020/papers/Gao_SketchyCOCO_Image_Generation_From_Freehand_Scene_Sketches_CVPR_2020_paper.pdf
17.BachGAN: High-Resolution Image Synthesis From Salient Object Layout

現(xiàn)在 image2image 已經(jīng)可以很好地通過圖像分割生成圖片。但對于完整的語義圖的效果還不夠好,反倒是獲得帶有標(biāo)簽的捆綁盒要容易得多。但生產(chǎn)類似的標(biāo)簽結(jié)果是很困難的,所以本文作者在生成器部分加入這樣的幫助,給生成器加入來自數(shù)據(jù)集中和完整分割標(biāo)簽相似的背景信息。
論文下載地址:https://openaccess.thecvf.com/content_CVPR_2020/papers/Li_BachGAN_High-Resolution_Image_Synthesis_From_Salient_Object_Layout_CVPR_2020_paper.pdf
開源代碼:https://github.com/Cold-Winter/BachGAN
18.Neural Rerendering in the Wild

這是對去年工作的一個改進(jìn)。之前的工作可以實現(xiàn)在一組景點的照片上,通過經(jīng)典的方法得到一個3d點云,然后訓(xùn)練image2image模型,通過地標(biāo)在點云中的呈現(xiàn)來恢復(fù)地標(biāo)的原始照片。你可以得到正常的結(jié)果,但問題是會帶有模糊的游客人群,以及不同的環(huán)境條件(天氣,一天的時間)。
而本文的解決方法就是對外觀采用單獨的編碼器,這會對環(huán)境條件進(jìn)行編碼,并使用語義分割。根據(jù)推理結(jié)果,您可以確定一天的時間和天氣,以及刪除人員。
論文介紹:https://youtu.be/E1crWQn_kmY
論文下載地址:https://openaccess.thecvf.com/content_CVPR_2019/papers/Meshry_Neural_Rerendering_in_the_Wild_CVPR_2019_paper.pdf
開源代碼地址:https://github.com/google/neural_rerendering_in_the_wild
19. Attentive Normalization for Conditional Image Generation

在 GANs 中加入注意力機(jī)制的效果非常好,正如最早加入注意力機(jī)制的SA -GAN(Self-Attention GAN)模型中展示的結(jié)果。但在空間尺度上,特征圖的復(fù)雜度是二次復(fù)雜度,作者利用自己的拐杖使其復(fù)雜性變得線性化,他們還解釋了應(yīng)該在模型中中學(xué)習(xí)什么語義場景圖。方法的效果和速度超過了baseline 方法。
論文下載地址:https://openaccess.thecvf.com/content_CVPR_2020/supplemental/Wang_Attentive_Normalization_for_CVPR_2020_supplemental.pdf
開源代碼地址:https://github.com/shepnerd/AttenNorm
20.Freeze the Discriminator: a Simple Baseline for Fine-Tuning GANs

論文給出這樣的觀點:簡單凍結(jié)判別器的前幾層,反倒比對整個 GAN 進(jìn)行 finetuning 的效果要更好,而且更容易收斂。
論文下載地址:https://arxiv.org/abs/2002.10964
開源代碼地址:https://github.com/sangwoomo/FreezeD
小結(jié)
文章里總共盤點了 20 篇圖像合成的論文,并給出簡單的方法介紹,然后部分論文還帶有視頻介紹。
在后臺回復(fù)“圖像合成”,即可獲取本文介紹的 20 篇論文。
精選AI文章
1.??2020年計算機(jī)視覺學(xué)習(xí)指南
8.?實戰(zhàn)|手把手教你訓(xùn)練一個基于Keras的多標(biāo)簽圖像分類器
精選python文章
精選教程資源文章
1.?[資源分享] TensorFlow 官方中文版教程來了
2.?[資源]推薦一些Python書籍和教程,入門和進(jìn)階的都有!
3.?[Github項目推薦] 推薦三個助你更好利用Github的工具
5.?GitHub上有哪些比較好的計算機(jī)視覺/機(jī)器視覺的項目?
歡迎關(guān)注我的微信公眾號--算法猿的成長,或者掃描下方的二維碼,大家一起交流,學(xué)習(xí)和進(jìn)步!
如果覺得不錯,歡迎點贊、在看、分享三連,謝謝!
