ECCV2022 | 生成對(duì)抗網(wǎng)絡(luò)GAN論文匯總(圖像轉(zhuǎn)換-圖像編輯-圖像修復(fù)-少樣本生成-3D等)
圖像轉(zhuǎn)換/圖像可控編輯 視頻生成 少樣本生成 圖像外修復(fù)/結(jié)合transformer GAN改進(jìn) 新數(shù)據(jù)集 圖像增強(qiáng) 3D 圖像來(lái)源歸屬分析
一、圖像轉(zhuǎn)換/圖像可控編輯
1、VecGAN: Image-to-Image Translation with Interpretable Latent Directions
提出VecGAN,圖像到圖像的轉(zhuǎn)換方法,用于具有可解釋的潛在方向的人臉屬性編輯。人臉屬性編輯任務(wù)面臨著強(qiáng)度可控的精確屬性編輯和保留圖像其它非目標(biāo)屬性的挑戰(zhàn)。為此,通過(guò)潛在空間分解來(lái)設(shè)計(jì)屬性編輯,并且對(duì)于每個(gè)屬性,學(xué)習(xí)一個(gè)與其他屬性正交的線性方向。另一個(gè)組件是變化的可控強(qiáng)度,一個(gè)標(biāo)量值去表示,這個(gè)標(biāo)量可以通過(guò)投影從參考圖像中采樣或編碼。
受到預(yù)訓(xùn)練 GAN 的潛在空間分解工作的啟發(fā),雖然這些模型無(wú)法進(jìn)行端到端訓(xùn)練并且難以精確地編輯編碼圖像,但 VecGAN 是針對(duì)圖像轉(zhuǎn)換任務(wù)進(jìn)行端到端訓(xùn)練,且成功編輯單個(gè)屬性,同時(shí)保留了其他屬性。

2、Dynamic Sparse Transformer for Exemplar-Guided Image Generation
示例引導(dǎo)的圖像生成任務(wù),一個(gè)關(guān)鍵挑戰(zhàn)在于在輸入圖像和引導(dǎo)圖像之間建立細(xì)粒度的對(duì)應(yīng)關(guān)系。先前的方法,盡管取得了可喜的結(jié)果,但依賴(lài)于估計(jì)密集注意力來(lái)計(jì)算每點(diǎn)匹配,由于二次內(nèi)存成本,這僅限于粗略的尺度,或者固定對(duì)應(yīng)的數(shù)量以實(shí)現(xiàn)線性復(fù)雜性,這缺乏靈活性。
本文提出一種基于動(dòng)態(tài)稀疏注意力的 Transformer 模型,稱(chēng)為 Dynamic Sparse Transformer (DynaST),以實(shí)現(xiàn)具有良好效率的精細(xì)匹配。方法核心是一個(gè)新的動(dòng)態(tài)注意單元,致力于覆蓋一個(gè)位置應(yīng)該關(guān)注的最佳tokens數(shù)量的變化。具體來(lái)說(shuō),DynaST 利用了 Transformer 結(jié)構(gòu)的多層特性,并以級(jí)聯(lián)方式執(zhí)行動(dòng)態(tài)注意方案,以?xún)?yōu)化匹配結(jié)果并合成視覺(jué)上令人愉悅的輸出。
此外,為 DynaST 引入了統(tǒng)一的訓(xùn)練目標(biāo),使其成為適用于有監(jiān)督和無(wú)監(jiān)督場(chǎng)景的通用基于參考的圖像轉(zhuǎn)換框架。在三個(gè)應(yīng)用任務(wù)(姿勢(shì)引導(dǎo)的人物圖像生成、基于邊緣的人臉合成和不失真的圖像風(fēng)格轉(zhuǎn)移)上的廣泛實(shí)驗(yàn)表明,DynaST 在局部細(xì)節(jié)方面取得了卓越的性能,在降低計(jì)算成本的同時(shí)超越了現(xiàn)有技術(shù)。
代碼在:https://github.com/Huage001/DynaST

3、Context-Consistent Semantic Image Editing with Style-Preserved Modulation
語(yǔ)義圖像編輯利用局部語(yǔ)義標(biāo)簽圖、在編輯區(qū)域中生成所需的內(nèi)容。比如有些工作是借用 SPADE 塊來(lái)實(shí)現(xiàn)語(yǔ)義圖像編輯。但是,由于編輯區(qū)域和周?chē)袼刂g的差異,不能產(chǎn)生滿(mǎn)意結(jié)果。本文認(rèn)為,這是因?yàn)?SPADE 僅使用與圖像無(wú)關(guān)的局部語(yǔ)義布局,但忽略了已知像素中包含的圖像特定風(fēng)格。
為了解決這個(gè)問(wèn)題,提出一種保留風(fēng)格的調(diào)制(SPM),包括兩個(gè)過(guò)程:第一個(gè)結(jié)合了上下文風(fēng)格和語(yǔ)義布局,然后生成兩個(gè)融合的調(diào)制參數(shù)。第二個(gè)采用融合參數(shù)來(lái)調(diào)制特征圖。通過(guò)使用這兩種調(diào)制,SPM 可以注入給定的語(yǔ)義布局,同時(shí)保留圖像特定的上下文風(fēng)格。此外,設(shè)計(jì)了一種漸進(jìn)式架構(gòu),用于以粗到細(xì)的方式生成編輯內(nèi)容。所提出的方法可以獲得上下文一致的結(jié)果,并明顯緩解生成區(qū)域與已知像素之間的不自然邊界。
https://github.com/WuyangLuo/SPMPGAN

4、Supervised Attribute Information Removal and Reconstruction for Image Manipulation
屬性操作的目標(biāo)是控制給定圖像中的指定屬性。先前的工作通過(guò)學(xué)習(xí)每個(gè)屬性的解耦表示來(lái)解決這個(gè)問(wèn)題,使其能夠?qū)⒕幋a的源屬性操縱到目標(biāo)屬性。然而,編碼屬性通常與相關(guān)的圖像內(nèi)容相關(guān)聯(lián)。因此,源屬性信息通常會(huì)隱藏在解耦的特征中,從而導(dǎo)致不需要的圖像編輯效果。
本文提出一種屬性信息刪除和重建 (Attribute Information Removal and Reconstruction ,AIRR) 網(wǎng)絡(luò),該網(wǎng)絡(luò)通過(guò)學(xué)習(xí)如何完全刪除屬性信息、創(chuàng)建屬性排除特征,然后學(xué)習(xí)在重建圖像中直接注入所需的屬性來(lái)防止此類(lèi)信息隱藏。在具有各種屬性的四個(gè)不同數(shù)據(jù)集上評(píng)估方法,包括 DeepFashion Synthesis、DeepFashion Fine-grained Attribute、CelebA 和 CelebA-HQ,其中模型將屬性操作準(zhǔn)確度和 top-k 檢索率平均提高了 10%。
https://github.com/NannanLi999/AIRR

二、視頻生成
5、Fast-Vid2Vid: Spatial-Temporal Compression for Video-to-Video Synthesis
視頻到視頻合成 (Vid2Vid) ,對(duì)一系列語(yǔ)義圖,生成照片般逼真的視頻。存在計(jì)算成本高和推理延遲長(zhǎng)的問(wèn)題,這在很大程度上取決于兩個(gè)基本因素:1)網(wǎng)絡(luò)架構(gòu)參數(shù),2)順序數(shù)據(jù)流。最近,基于圖像的生成模型的參數(shù)已通過(guò)更有效的網(wǎng)絡(luò)架構(gòu)得到顯著壓縮。然而,現(xiàn)有的方法主要集中在精簡(jiǎn)網(wǎng)絡(luò)架構(gòu),而忽略了順序數(shù)據(jù)流的大小。此外,由于缺乏時(shí)間相干性,基于圖像的壓縮不足以壓縮視頻任務(wù)。
本文提出一個(gè)時(shí)空壓縮框架 Fast-Vid2Vid,它專(zhuān)注于生成模型的數(shù)據(jù)方面。它首次嘗試在時(shí)間維度上減少計(jì)算資源并加速推理。具體來(lái)說(shuō),在空間上壓縮輸入數(shù)據(jù)流并減少時(shí)間冗余。在提出的時(shí)空知識(shí)蒸餾之后,模型可以使用低分辨率數(shù)據(jù)流合成關(guān)鍵幀。最后,F(xiàn)ast-Vid2Vid 通過(guò)具有輕微延遲的運(yùn)動(dòng)補(bǔ)償對(duì)中間幀進(jìn)行插值。在標(biāo)準(zhǔn)基準(zhǔn)測(cè)試中,F(xiàn)ast-Vid2Vid 實(shí)現(xiàn)了大約 20 FPS 的實(shí)時(shí)性能,并在單個(gè) V100 GPU 上節(jié)省了大約 8 倍的計(jì)算成本。
https://github.com/fast-vid2vid/fast-vid2vid

三、少樣本生成
6、Adaptive Feature Interpolation for Low-Shot Image Generation
生成模型的訓(xùn)練,尤其是生成對(duì)抗網(wǎng)絡(luò)的訓(xùn)練,在少數(shù)據(jù)情況下尤顯困難。為了緩解這個(gè)問(wèn)題,提出了一種新的隱式數(shù)據(jù)增強(qiáng)方法,該方法有助于穩(wěn)定訓(xùn)練并在不需要標(biāo)簽信息的情況下合成高質(zhì)量的樣本。
具體來(lái)說(shuō),將判別器視為真實(shí)數(shù)據(jù)流形的度量嵌入,它提供了真實(shí)數(shù)據(jù)點(diǎn)之間的適當(dāng)距離。然后,利用特征空間中的信息來(lái)開(kāi)發(fā)一種完全無(wú)監(jiān)督和數(shù)據(jù)驅(qū)動(dòng)的增強(qiáng)方法。對(duì)小樣本生成任務(wù)的實(shí)驗(yàn)表明,所提出的方法顯著改善了具有數(shù)百個(gè)訓(xùn)練樣本的強(qiáng)基線的結(jié)果。
7、Frequency-aware GAN for High-Fidelity Few-shot Image Generation
https://github.com/kobeshegu/ECCV2022_WaveGAN
現(xiàn)有的少樣本圖像生成方法,通常在圖像或特征級(jí)別上采用基于融合的策略來(lái)生成新圖像。然而,以前的方法難以合成具有精細(xì)細(xì)節(jié)的高頻信號(hào),從而降低了合成質(zhì)量。
為了解決這個(gè)問(wèn)題,提出 WaveGAN,一種用于少樣本圖像生成的、頻率感知的模型。具體來(lái)說(shuō),將編碼特征分解為多個(gè)頻率分量,并執(zhí)行低頻跳躍連接以保留輪廓和結(jié)構(gòu)信息。然后,通過(guò)使用高頻跳躍連接來(lái)緩解生成器合成精細(xì)細(xì)節(jié)的困難,從而為生成器提供信息豐富的頻率信息。此外,在生成的真實(shí)圖像上使用頻率 L 1-loss 來(lái)進(jìn)一步阻止頻率信息丟失。大量實(shí)驗(yàn)證明了方法在三個(gè)數(shù)據(jù)集上的有效性和先進(jìn)性。在 Flower、Animal Faces 和 VGGFace 上分別實(shí)現(xiàn)了 FID 42.17、LPIPS 0.3868、FID 30.35、LPIPS 0.5076 和 FID 4.96、LPIPS 0.3822 的最好指標(biāo)。

8、FakeCLR: Exploring Contrastive Learning for Solving Latent Discontinuity in Data-Efficient GANs
https://github.com/iceli1007/FakeCLR
數(shù)據(jù)高效 GAN (Data-Efficient GANs,DE-GAN) 旨在使用有限的訓(xùn)練數(shù)據(jù)來(lái)學(xué)習(xí)生成模型,但在生成高質(zhì)量樣本方面遇到了一些挑戰(zhàn)。由于數(shù)據(jù)增強(qiáng)策略在很大程度上緩解了訓(xùn)練的不穩(wěn)定性,如何進(jìn)一步提高 DE-GANs 的生成性能成為一個(gè)熱點(diǎn)。最近,對(duì)比學(xué)習(xí)已經(jīng)顯示出提高 DE-GAN 合成質(zhì)量的巨大潛力,但相關(guān)原理尚未得到很好的探索。
本文重新審視和比較了 DE-GAN 中的不同對(duì)比學(xué)習(xí)策略,并確定(i)當(dāng)前生成性能的瓶頸是潛在空間的不連續(xù)性;(ii) 與其他對(duì)比學(xué)習(xí)策略相比,實(shí)例擾動(dòng)致力于潛在空間連續(xù)性,這為 DE-GAN 帶來(lái)了重大改進(jìn)。基于這些觀察,提出了 FakeCLR,它只對(duì)擾動(dòng)的假樣本應(yīng)用對(duì)比學(xué)習(xí),并設(shè)計(jì)了三種相關(guān)的訓(xùn)練技術(shù):噪聲相關(guān)的潛在增強(qiáng)、多樣性感知隊(duì)列和隊(duì)列的遺忘因子。實(shí)驗(yàn)結(jié)果表明了小樣本生成和有限數(shù)據(jù)生成的最新技術(shù)。在多個(gè)數(shù)據(jù)集上,與現(xiàn)有的 DE-GAN 相比,F(xiàn)akeCLR 獲得了超過(guò) 15% 的 FID 改進(jìn)。

四、圖像外修復(fù)
9、Outpainting by Queries
https://github.com/Kaiseem/QueryOTR
使用基于CNN的方法很好地研究了圖像外修復(fù)(outpainting),然而,CNN 依賴(lài)于固有的歸納偏差來(lái)實(shí)現(xiàn)有效的樣本學(xué)習(xí),這可能會(huì)降低性能上限。本文依據(jù) Transformer 架構(gòu)中具有最小歸納偏差的靈活自注意機(jī)制的特點(diǎn),將廣義圖像外修復(fù)問(wèn)題重新定義為一個(gè)patch方式的序列到序列自回歸問(wèn)題,從而實(shí)現(xiàn)基于查詢(xún)的圖像外修復(fù)。
具體來(lái)說(shuō),提出了一種新的基于混合視覺(jué)Transformer 的編碼器-解碼器,名為 Query Outpainting TRansformer (QueryOTR),用于在給定圖像周?chē)嫱茢嘁曈X(jué)上下文。
Patch-wise 模式的全局建模能力能夠從注意力機(jī)制的查詢(xún)角度推斷圖像。一種新的查詢(xún)擴(kuò)展模塊(QEM)根據(jù)編碼器的輸出整合來(lái)自預(yù)測(cè)查詢(xún)的信息,從而加速純Transformer 的收斂,即使數(shù)據(jù)集相對(duì)較小的情況下。為了進(jìn)一步增強(qiáng)每個(gè)patch之間的連通性,所提出的patch平滑模塊(PSM)重新分配和平均重疊區(qū)域,從而提供無(wú)縫預(yù)測(cè)圖像。通過(guò)實(shí)驗(yàn)證明, QueryOTR 可以針對(duì)最先進(jìn)的圖像外修復(fù)方法平滑而逼真地生成視覺(jué)上吸引人的結(jié)果。

五、GAN改進(jìn)
10、Generator Knows What Discriminator Should Learn in Unconditional GANs
最近的條件圖像生成方法受益于密集監(jiān)督“”dense supervision”,例如分割標(biāo)簽圖,以實(shí)現(xiàn)高保真度。然而,很少有人探索使用密集監(jiān)督來(lái)生成無(wú)條件的圖像。
在這里,探討了密集監(jiān)督在無(wú)條件生成中的功效,并發(fā)現(xiàn)生成器特征圖可以替代成本高昂的語(yǔ)義標(biāo)簽圖。提出一種新的生成器引導(dǎo)判別器正則化(GGDR),其中生成器特征圖監(jiān)督判別器在無(wú)條件生成中具有豐富的語(yǔ)義表示。具體來(lái)說(shuō),采用 U-Net 架構(gòu)作為判別器,該架構(gòu)經(jīng)過(guò)訓(xùn)練以預(yù)測(cè)給定假圖像作為輸入的生成器特征圖。
在多個(gè)數(shù)據(jù)集上進(jìn)行的大量實(shí)驗(yàn)表明,GGDR 在定量和定性方面不斷提高基線方法的性能。
代碼:https://github.com/naver-ai/GGDR

六、新數(shù)據(jù)集
11、CelebV-HQ: A Large-Scale Video Facial Attributes Dataset
大規(guī)模數(shù)據(jù)集在最近人臉生成/編輯的成功中發(fā)揮了不可或缺的作用,并極大地促進(jìn)了新興研究領(lǐng)域的進(jìn)步。然而,學(xué)術(shù)界仍然缺乏具有多樣化人臉屬性標(biāo)簽的視頻數(shù)據(jù)集,這對(duì)于人臉相關(guān)視頻的研究至關(guān)重要。
這項(xiàng)工作提出一個(gè)具有豐富面部屬性標(biāo)簽的大規(guī)模、高質(zhì)量和多樣化的視頻數(shù)據(jù)集,稱(chēng)為高質(zhì)量名人視頻數(shù)據(jù)集 (CelebV-HQ)。CelebV-HQ 包含 35666 個(gè)視頻片段,分辨率至少為 512×512,涉及 15653 個(gè)身份。所有剪輯都手動(dòng)標(biāo)記了 83 個(gè)面部屬性,包括外觀、動(dòng)作和情感。從年齡、種族、亮度穩(wěn)定性、運(yùn)動(dòng)平滑度、頭部姿勢(shì)多樣性和數(shù)據(jù)質(zhì)量等方面進(jìn)行綜合分析,以證明 CelebV-HQ 的多樣性和時(shí)間連貫性。此外,它的多功能性和潛力在兩個(gè)代表性任務(wù)上得到驗(yàn)證,即無(wú)條件視頻生成和視頻人臉屬性編輯。此外,展望了CelebV-HQ的未來(lái)潛力,以及它將給相關(guān)研究方向帶來(lái)的新機(jī)遇和挑戰(zhàn)。
數(shù)據(jù)、代碼和模型公開(kāi):https://github.com/CelebV-HQ/CelebV-HQ

七、圖像增強(qiáng)
12、Unsupervised Night Image Enhancement:When Layer Decomposition Meets Light-Effects Suppression
夜間圖像不僅受到光線不足的影響,而且還受到光線分布不均勻的影響。大多數(shù)現(xiàn)有的夜間能見(jiàn)度增強(qiáng)方法主要集中在增強(qiáng)弱光區(qū)域。這不可避免地會(huì)導(dǎo)致明亮區(qū)域的過(guò)度增強(qiáng)和飽和。為了解決這個(gè)問(wèn)題,我們需要抑制亮區(qū)的光效應(yīng),同時(shí)提高暗區(qū)的強(qiáng)度。
本文引入了一種集成了層分解網(wǎng)絡(luò)和光效抑制網(wǎng)絡(luò)的無(wú)監(jiān)督方法。給定單個(gè)夜間圖像作為輸入,分解網(wǎng)絡(luò)在無(wú)監(jiān)督層特定的先驗(yàn)損失的指導(dǎo)下學(xué)習(xí)分解陰影、反射和光效層。光效抑制網(wǎng)絡(luò)進(jìn)一步抑制了光效,同時(shí)增強(qiáng)了黑暗區(qū)域的照明。這個(gè)光效抑制網(wǎng)絡(luò)利用估計(jì)的光效層作為指導(dǎo)來(lái)關(guān)注光效區(qū)域。為了恢復(fù)背景細(xì)節(jié)并減少幻覺(jué)/偽影,提出了結(jié)構(gòu)和高頻一致性損失。
對(duì)真實(shí)圖像的定量和定性評(píng)估表明,方法在抑制夜光效應(yīng)和提高暗區(qū)強(qiáng)度方面優(yōu)于最先進(jìn)的方法
https://github.com/jinyeying/night-enhancement

八、3D
13、Generative Multiplane Images: Making a 2D GAN 3D-Aware
如何讓現(xiàn)有的 2D GAN變成3D感知的?
本文盡可能少地修改經(jīng)典 GAN,即 StyleGANv2,發(fā)現(xiàn)只有兩個(gè)修改是絕對(duì)必要的:1)一個(gè)多平面圖像風(fēng)格生成器分支,它產(chǎn)生一組以深度為條件的阿爾法圖;2)一個(gè)姿勢(shì)條件判別器。
將生成的輸出稱(chēng)為“生成多平面圖像”(generative multiplane image,GMPI),并強(qiáng)調(diào)其渲染不僅質(zhì)量高,而且保證視圖一致。重要的是,alpha 映射的數(shù)量可以動(dòng)態(tài)調(diào)整,并且可以在訓(xùn)練和推理之間有所不同,從而減輕內(nèi)存問(wèn)題并在不到半天的時(shí)間內(nèi)以 1024 分辨率快速訓(xùn)練。
https://github.com/apple/ml-gmpi

14、Monocular 3D Object Reconstruction with GAN Inversion
從單目圖像中恢復(fù)帶紋理的 3D mesh 非常具有挑戰(zhàn)性,這項(xiàng)工作提出了 Mesh Inversion,利用3D 紋理mesh 進(jìn)行預(yù)訓(xùn)練 3D GAN 的先驗(yàn)來(lái)改進(jìn)重建。
具體而言,通過(guò)在 3D GAN 中搜索與目標(biāo)最相似的潛在空間來(lái)實(shí)現(xiàn)重建。由于預(yù)訓(xùn)練的 GAN 在幾何和紋理方面蘊(yùn)含了豐富的 3D 語(yǔ)義,因此在 GAN 流形內(nèi)進(jìn)行搜索自然地規(guī)范了重建的真實(shí)性和保真度。重要的是,這種正則化直接應(yīng)用于 3D 空間,為 2D 空間中未觀察到的網(wǎng)格部分提供關(guān)鍵指導(dǎo)。實(shí)驗(yàn)表明,框架在觀察到的和未觀察到的部分獲得了具有一致幾何和紋理的忠實(shí) 3D 重建。此外,它可以很好地推廣到不太常見(jiàn)的網(wǎng)格,例如可變形物體的擴(kuò)展關(guān)節(jié)。
代碼在:https://github.com/junzhezhang/mesh-inversion

九、圖像來(lái)源歸屬分析
15、RepMix: Representation Mixing for Robust Attribution of Synthesized Images
生成對(duì)抗網(wǎng)絡(luò) (GAN) 的快速發(fā)展為image attribution提出了新的挑戰(zhàn);檢測(cè)圖像是否是合成的,如果是,則確定創(chuàng)建它的 GAN 架構(gòu)。本文為這項(xiàng)任務(wù)提供了一種解決方案,能夠 1)匹配與其語(yǔ)義內(nèi)容不變的圖像;2) 對(duì)在線重新共享圖像時(shí)常見(jiàn)的轉(zhuǎn)換(質(zhì)量、分辨率、形狀等的變化)具有魯棒性。
收集了一個(gè)具有挑戰(zhàn)性的基準(zhǔn) Attribution88,以實(shí)現(xiàn)可靠且實(shí)用的image attribution。然后,提出了RepMix,基于表示混合和新?lián)p失的 GAN 指紋識(shí)別技術(shù)。驗(yàn)證了它追蹤 GAN 圖像的來(lái)源的能力,它不受圖像語(yǔ)義內(nèi)容的影響,并且對(duì)擾動(dòng)也具有魯棒性。方法在語(yǔ)義泛化和魯棒性方面比現(xiàn)有的 GAN 指紋識(shí)別工作有明顯改進(jìn)。
數(shù)據(jù)和代碼:https://github.com/TuBui/image_attribution

猜您喜歡:
戳我,查看GAN的系列專(zhuān)輯~!附下載 | 《可解釋的機(jī)器學(xué)習(xí)》中文版
附下載 |《TensorFlow 2.0 深度學(xué)習(xí)算法實(shí)戰(zhàn)》
附下載 |《計(jì)算機(jī)視覺(jué)中的數(shù)學(xué)方法》分享
《基于深度學(xué)習(xí)的表面缺陷檢測(cè)方法綜述》
《基于深度神經(jīng)網(wǎng)絡(luò)的少樣本學(xué)習(xí)綜述》
