超110篇!CVPR 2021最全GAN論文匯總梳理!
下述論文已分類打包好!超110篇,事實(shí)上仍有一些GAN論文未被包含入內(nèi)……可見GAN在CVPR 2021仍十分火熱。
后臺(tái)回復(fù)?2021GAN?(長按紅字、選中復(fù)制)獲取分類、按文件夾匯總好的論文集,gan起來吧?。。?/span>
等你著陸!【GAN生成對(duì)抗網(wǎng)絡(luò)】知識(shí)星球!一、年齡遷移
1,Continuous Face Aging via Self-estimated Residual Age Embedding

人臉合成,尤其是年齡遷移,一直是生成對(duì)抗網(wǎng)絡(luò) (GAN) 的重要應(yīng)用之一。大多數(shù)現(xiàn)有的人臉年齡遷移方法會(huì)將數(shù)據(jù)集分為幾個(gè)年齡組并利用基于組的訓(xùn)練策略,這在本質(zhì)上缺乏提供精細(xì)控制的連續(xù)年齡合成的能力。
這項(xiàng)工作提出統(tǒng)一的網(wǎng)絡(luò)結(jié)構(gòu),將線性年齡估計(jì)器嵌入到基于 GAN 的模型中,年齡估計(jì)器與編碼器和解碼器聯(lián)合訓(xùn)練以估計(jì)人臉圖像的年齡并提供個(gè)性化的目標(biāo)年齡特征嵌入。
二、發(fā)型遷移2,LOHO: Latent Optimization of Hairstyles via Orthogonalization

由于源發(fā)型和目標(biāo)發(fā)型的結(jié)構(gòu)差異,發(fā)型遷移具有挑戰(zhàn)性。提出通過正交化(LOHO)對(duì)發(fā)型進(jìn)行潛在空間的優(yōu)化,用GAN逆映射方法,在發(fā)型遷移期間填充潛在空間中缺失的頭發(fā)結(jié)構(gòu)細(xì)節(jié)。
方法將頭發(fā)分解為三個(gè)屬性:結(jié)構(gòu)、外觀和風(fēng)格,并定制損失來獨(dú)立建模這些屬性。提出兩階段優(yōu)化和梯度正交化,以實(shí)現(xiàn)頭發(fā)屬性的潛在空間解糾纏優(yōu)化。使用LOHO進(jìn)行潛在空間操作,用戶可通過操作頭發(fā)屬性,從參考發(fā)型中遷移所需的屬性來合成新圖像。

- 與當(dāng)前最先進(jìn)的發(fā)型遷移技術(shù)相比,LOHO實(shí)現(xiàn)FID表現(xiàn)更好。根據(jù)PSNR和SSIM,LOHO較好保留了主體身份。代碼https://github.com/dukebw/LOHO
3,Spatially-invariant Style-codes Controlled Makeup Transfer

從未對(duì)齊的參考圖像中遷移妝容具有挑戰(zhàn)性。以前的方法通過計(jì)算兩個(gè)圖像之間的像素對(duì)應(yīng)來克服這個(gè)障礙,這不準(zhǔn)確且計(jì)算成本高。本文從不同的角度將妝容遷移問題分解為兩步“提取-分配”過程。
為此提出一種基于風(fēng)格的可控 GAN 模型,由三個(gè)組件組成,每個(gè)組件分別對(duì)應(yīng)于目標(biāo)風(fēng)格碼編碼、人臉身份特征提取和妝容融合。
特定于局部區(qū)域風(fēng)格的編碼器將參考圖像的局部妝容編碼為中間潛在空間 W 中的風(fēng)格碼。風(fēng)格碼忽略空間信息,對(duì)于空間錯(cuò)位具有不變性。而且,風(fēng)格碼嵌入了局部信息,支持從多個(gè)參考進(jìn)行靈活的編輯。此風(fēng)格碼與源身份特征一起集成到AdaIN層融合,在解碼器生成最終結(jié)果。方法支持卸妝、陰影可控的、特定部的位妝容遷移。
代碼可在 https://github.com/makeuptransfer/SCGAN
4,Lipstick ain’t enough: Beyond Color Matching for In-the-Wild Makeup Transfer

妝容遷移將參考圖像中的化妝風(fēng)格應(yīng)用到源臉上。現(xiàn)實(shí)生活中的妝容是多樣的,包括變色、圖案貼紙、腮紅甚至珠寶等。然而,現(xiàn)有方法忽視了后者的組成部分,并將妝容遷移到色彩處理上,只關(guān)注淡妝風(fēng)格。
這項(xiàng)工作提出一個(gè)整體的妝容遷移框架,由改進(jìn)的顏色遷移分支和圖案遷移分支組成,用于學(xué)習(xí)所有化妝屬性,包括顏色、形狀、紋理和位置。為訓(xùn)練和評(píng)估,還為真實(shí)和合成的極端化妝引入新的化妝數(shù)據(jù)集。
實(shí)驗(yàn)結(jié)果表明,方法在淡妝、濃妝都達(dá)到了最先進(jìn)的性能。代碼https://github.com/VinAIResearch/CPM
5,Disentangled Cycle Consistency for Highly-realistic Virtual Try-On

- 圖像虛擬試穿指的是,用參考衣服圖像替換人物圖像上的衣服,這并不簡(jiǎn)單,因?yàn)槿撕鸵路]有配對(duì)數(shù)據(jù)集?,F(xiàn)有方法將虛擬試穿制定為修復(fù)或循環(huán)一致性。這兩個(gè)公式都鼓勵(lì)生成網(wǎng)絡(luò)以自監(jiān)督的方式重建輸入圖像。然而并沒有區(qū)分服裝和非服裝區(qū)域。由于嚴(yán)重耦合的圖像內(nèi)容,簡(jiǎn)單的生成阻礙了虛擬試穿質(zhì)量。

- 本文提出Disentangled Cycleconsistency Try-On Network (DCTON),能夠通過解耦虛擬試穿的重要組成部分(包括衣服變形、皮膚合成和圖像合成)來生成高度逼真的試穿圖像。此外,在循環(huán)一致性學(xué)習(xí)之后,DCTON 可以以自監(jiān)督的方式自然地進(jìn)行訓(xùn)練。
6,VITON-HD: High-Resolution Virtual Try-On via Misalignment-Aware Normalization

虛擬試穿任務(wù)旨在將目標(biāo)服裝遷移到人的相應(yīng)區(qū)域,通常通過將衣服擬合到身體部位,并與人體融合來解決。雖然已經(jīng)進(jìn)行了越來越多的研究,但合成圖像的分辨率仍然低(例如,256×192)。限制源于幾個(gè)挑戰(zhàn):隨著分辨率的增加,扭曲的衣服和所需的衣服區(qū)域之間未對(duì)齊區(qū)域中的偽影在最終結(jié)果中變得明顯;方法在生成高質(zhì)量的身體和保持衣服的紋理清晰度方面性能較低。
提出VITON-HD,成功合成1024×768的虛擬試穿圖像。首先準(zhǔn)備分割圖來指導(dǎo)虛擬試穿合成,然后將目標(biāo)服裝大致適合給定人的身體。接下來,提出ALIgnmentAware Segment (ALIAS) 歸一化和 ALIAS 生成器來處理未對(duì)齊的區(qū)域,并保留 1024×768 輸入的細(xì)節(jié)。通過與現(xiàn)有方法比較,證明VITON-HD在合成圖像質(zhì)量方面在質(zhì)量和數(shù)量上有顯著改進(jìn)。
五、姿勢(shì)遷移、人像合成7,HumanGAN: A Generative Model of Human Images

- 生成對(duì)抗網(wǎng)絡(luò)在各領(lǐng)域圖像合成取得了出色的表現(xiàn),然而通常用潛在向量來對(duì)采樣輸出進(jìn)行全局編碼。這不能方便地控制圖像中語義相關(guān)的各個(gè)部分,也不能繪制僅在部分方面不同的樣本,例如服裝風(fēng)格。

- 本文嘗試解決這些限制,可以控制姿勢(shì)、局部身體部位的外觀和服裝風(fēng)格。
8,MUST-GAN: Multi-level Statistics Transfer for Self-driven Person Image Generation


9,PISE: Person Image Synthesis and Editing with Decoupled GAN


由于大的變化和遮擋,人物圖像合成,例如姿勢(shì)遷移,是一個(gè)具有挑戰(zhàn)性的問題?,F(xiàn)有方法難以預(yù)測(cè)合理的不可見區(qū)域,并且無法解耦服裝的形狀和風(fēng)格,這限制了它們?cè)谌宋飯D像編輯中的應(yīng)用。
本文提出PISE,一種用于人物圖像合成和編輯的新型兩階段生成模型,能生成具有所需姿勢(shì)、紋理或語義布局的逼真人物圖像。
對(duì)于人體姿勢(shì)遷移,首先合成一個(gè)與目標(biāo)姿勢(shì)對(duì)齊的人體解析分割圖,通過解析生成器來表示服裝的形狀,然后通過圖像生成器生成最終圖像。為解耦服裝的形狀和風(fēng)格,提出聯(lián)合全局和局部每個(gè)區(qū)域的編碼和歸一化來預(yù)測(cè)不可見區(qū)域的合理服裝風(fēng)格。還提出了空間感知?dú)w一化以保留源圖像中的空間上下文關(guān)系。
10,HistoGAN: Controlling Colors of GAN-Generated and Real Images via Color Histograms

雖然生成對(duì)抗網(wǎng)絡(luò) (GAN) 可以成功生成高質(zhì)量的圖像,但生成內(nèi)容難以控制。簡(jiǎn)化基于 GAN 的圖像生成對(duì)于它們?cè)谄矫嬖O(shè)計(jì)和藝術(shù)作品中的采用至關(guān)重要。這一目標(biāo)引起了人們對(duì)可以直觀地控制 GAN 生成的圖像外觀的方法的極大興趣。本文提出HistoGAN,一種基于顏色直方圖的方法,用于控制 GAN 生成圖像的顏色。
專注于顏色直方圖,是因?yàn)樗峁┮环N直觀的方式來描述圖像顏色。具體來說,對(duì)StyleGAN 架構(gòu)修改,由目標(biāo)顏色直方圖特征指定的顏色GAN生成圖像。實(shí)驗(yàn)表明,這種基于直方圖的方法提供了一種更好的方法來控制 GAN 生成圖像的顏色。https://github.com/mahmoudnafifi/HistoGAN HistoGAN

11,Audio-Driven Emotional Video Portraits

- 盡管此前一些方法在基于音頻驅(qū)動(dòng)的說話人臉生成方面已取得不錯(cuò)的進(jìn)展,但大多數(shù)研究集中在語音內(nèi)容與嘴形之間的相關(guān)性上。人臉的情感表現(xiàn)是很重要的特征,但此前的方法總忽視這一點(diǎn)。

- 這項(xiàng)工作提出“表情視頻肖像” (Emotional Video Portraits,EVP),一種由音頻驅(qū)動(dòng)、具有動(dòng)態(tài)情感的肖像視頻合成系統(tǒng)。具體來說,提出交叉重構(gòu)式的表情解耦技術(shù),將語音分解為兩個(gè)解耦空間,即與時(shí)長無關(guān)的情感空間和與時(shí)長相關(guān)的內(nèi)容空間。解開的特征可推斷出動(dòng)態(tài)2D表情人臉。
12,Everything’s Talkin’: Pareidolia Face Reenactment

提出Pareidolia Face Reenactment 的新應(yīng)用方向,指的是動(dòng)畫化靜態(tài)虛幻的臉,讓其與參照視頻中的人臉一起變動(dòng)。
分解為三個(gè)串聯(lián)過程:形狀建模、運(yùn)動(dòng)遷移和紋理合成。通過分解,引入了三個(gè)關(guān)鍵組件,即參數(shù)形狀建模、動(dòng)作遷移和無監(jiān)督紋理合成器。

13,Pose-Controllable Talking Face Generation by Implicitly Modularized Audio-Visual Representation

- 針對(duì)任意人的、以其音頻驅(qū)動(dòng)的說話人臉生成研究方向,已實(shí)現(xiàn)了較準(zhǔn)確的唇形同步,但頭部姿勢(shì)的對(duì)齊問題依舊不理想。

- 此前的方法依賴于預(yù)先估計(jì)的結(jié)構(gòu)信息,例如關(guān)鍵點(diǎn)和3D參數(shù)。但極端條件下這種估計(jì)信息不準(zhǔn)確則效果不佳。本文主要針對(duì)的是,如何生成姿勢(shì)可控的說話人臉。
14,One-Shot Free-View Neural Talking-Head Synthesis for Video Conferencing

- 提出一種說話人臉的視頻合成模型,并展示在視頻會(huì)議中的應(yīng)用。

- 使用包含目標(biāo)人物的源圖像,以及驅(qū)動(dòng)視頻來合成源人物說話視頻。運(yùn)動(dòng)信息基于一種關(guān)鍵點(diǎn)表示進(jìn)行編碼,其中特定于身份和運(yùn)動(dòng)相關(guān)的信息被無監(jiān)督地解耦。
15,F(xiàn)low-guided One-shot Talking Face Generation with a High-resolution Audio-visual Dataset

一次性說話人臉生成應(yīng)合成具有合理表情和頭部姿勢(shì)動(dòng)畫的高視覺質(zhì)量人臉視頻,并僅以任意駕駛音頻和任意單人臉圖像為源。由于缺乏合適的高分辨率視聽數(shù)據(jù)集,以及稀疏面部標(biāo)志在提供不良表情細(xì)節(jié)方面的限制,當(dāng)前的工作無法生成超過 256×256 分辨率的逼真視頻。
為此構(gòu)建一個(gè)大型的高分辨率視聽數(shù)據(jù)集,并提出一種流式引導(dǎo)的說話人臉生成方法。新數(shù)據(jù)集從youtube 收集,由大約 16 小時(shí)的 720P 或 1080P 視頻組成。利用人臉3D可變形模型 (3DMM) 將框架拆分為兩個(gè)級(jí)聯(lián)模塊,而不是學(xué)習(xí)從音頻到視頻的直接映射。第一個(gè)模塊里,設(shè)計(jì)生成器來同時(shí)生成嘴巴、眉毛和頭部姿勢(shì)的運(yùn)動(dòng);第二個(gè)模塊,將動(dòng)畫轉(zhuǎn)化為密集流以提供更多的表達(dá)細(xì)節(jié),并設(shè)計(jì)流引導(dǎo)的視頻生成器來合成視頻。方法能制作高清視頻,并在客觀和主觀比較中優(yōu)于當(dāng)前最好算法。
八、人臉圖像編輯16,Exploiting Spatial Dimensions of Latent in GAN for Real-time Image Editing

生成對(duì)抗網(wǎng)絡(luò) (GAN) 從隨機(jī)潛在向量Z合成逼真的圖像。雖然通過潛在向量能一定程度上控制合成,但存在以下問題:i) 將真實(shí)圖像投影到潛在向量的優(yōu)化耗時(shí),ii) 通過編碼器的特征嵌入難精確。提出StyleMapGAN:中間潛在空間具有空間維度,且替代AdaIN,更準(zhǔn)確控制。
https://github.com/naver-ai/StyleMapGAN

17,High-Fidelity and Arbitrary Face Editing

- 循環(huán)一致性廣泛用于人臉編輯。然而,生成器傾向于為滿足循環(huán)一致性的約束,無法保持豐富細(xì)節(jié)。這項(xiàng)工作提出HifaFace,從兩個(gè)角度解決上述問題。首先,通過將輸入圖像的高頻信息直接饋送到生成器的末端來減輕生成器合成豐富細(xì)節(jié)的壓力。其次,采用額外的判別器來鼓勵(lì)生成器合成豐富的細(xì)節(jié)。具體來說,應(yīng)用小波變換將圖像變換到多頻域,其中高頻部分可用于恢復(fù)豐富的細(xì)節(jié)。注意到,對(duì)屬性進(jìn)行細(xì)粒度和更廣泛的控制對(duì)于人臉編輯非常重要。為了實(shí)現(xiàn)這一目標(biāo),提出了一種新的屬性回歸損失。

18,Hijack-GAN: Unintended-Use of Pretrained, Black-Box GANs


- GAN模型具有高度非線性的潛在空間,本文通過迭代方案實(shí)現(xiàn)對(duì)圖像生成過程的控制。代碼可在 https://github.com/a514514772/hijackgan
19,Linear Semantics in Generative Adversarial Networks


生成對(duì)抗網(wǎng)絡(luò) (GAN) 能夠生成高質(zhì)量的圖像,但仍難明確指定合成圖像的語義。這項(xiàng)工作旨在更好地理解 GAN 的語義表示,從而實(shí)現(xiàn)語義控制。
本文發(fā)現(xiàn)訓(xùn)練好的GAN以一種非常簡(jiǎn)單的方式在其內(nèi)部特征圖中編碼圖像語義:特征圖的線性變換足以提取生成的圖像語義。為了驗(yàn)證這種簡(jiǎn)單性,對(duì)各種 GAN 和數(shù)據(jù)集進(jìn)行了大量實(shí)驗(yàn);并且由于這種簡(jiǎn)單性,能從少量(例如 8 個(gè))標(biāo)記圖像中為經(jīng)過訓(xùn)練的 GAN 學(xué)習(xí)語義分割模型。最后利用這種發(fā)現(xiàn),提出少樣本圖像編輯方法。代碼https://github.com/AtlantixJJ/LinearGAN
20,DeFLOCNet: Deep Image Editing via Flexible Low-level Controls

在圖像編輯場(chǎng)景中,往往會(huì)有一些用戶交互,比如期望的內(nèi)容草圖、顏色等提示線索。現(xiàn)有方法將輸入圖像和用戶交互線索用于CNN 輸入,但相應(yīng)的特征表示不足以傳達(dá)用戶意圖細(xì)節(jié),從而導(dǎo)致生成內(nèi)容不佳。
本文提出DeFLOCNet,依賴于深度編碼器-解碼器保留輸入信息在深度特征表示。在每個(gè)跳躍連接層中,設(shè)計(jì)結(jié)構(gòu)生成塊,并將這些用戶提示直接注入每個(gè)結(jié)構(gòu)生成塊中。同時(shí),DeFLOCNet還有另一個(gè)用于紋理生成和細(xì)節(jié)增強(qiáng)的解碼器分支。
代碼可在 https://github.com/KumapowerLIU/DeFLOCNet

21,L2M-GAN: Learning to Manipulate Latent Space Semantics for Facial Attribute Editing


一般來說,深度人臉屬性編輯模型力求滿足兩個(gè)要求:(1)屬性正確性——目標(biāo)屬性應(yīng)該正確出現(xiàn)在編輯后的人臉圖像上;(2) 不相關(guān)保存——任何不相關(guān)的信息(如身份)在編輯后不應(yīng)更改。。
本文提出一種潛在空間分解模型,稱為L2M-GAN,它是端到端學(xué)習(xí)的,可有效編輯局部和全局屬性。(1)GAN 的潛在空間向量被分解為屬性相關(guān)和不相關(guān)的碼,并施加正交性約束以確保解開。(2) 學(xué)習(xí)一個(gè)屬性相關(guān)的轉(zhuǎn)換器來操作屬性值;
22,One Shot Face Swapping on Megapixels

換臉既有娛樂、人機(jī)交互等正面的應(yīng)用,也有DeepFake對(duì)政治、經(jīng)濟(jì)等的威脅等負(fù)面應(yīng)用。本文提出第一個(gè)用于單樣本、百萬像素級(jí)人臉交換方法(或稱MegaFS)。
MegaFS提出“層次表征人臉編碼器” (HieRFE) 來表征人臉,保持更多細(xì)節(jié),而不是以前的人臉交換方法中的壓縮表示。還提出一種精心設(shè)計(jì)的人臉遷移模塊(FTM)將身份從源圖像遷移到目標(biāo)。最后,可以利用StyleGAN2的訓(xùn)練穩(wěn)定性和強(qiáng)大的生成能力來合成交換的人臉。
MegaFS的每個(gè)部分都可以單獨(dú)訓(xùn)練,因此可以滿足百萬像素人臉交換的 GPU 內(nèi)存模型的相應(yīng)要求??傊暾娜四槺碚?、穩(wěn)定的訓(xùn)練和有限的內(nèi)存使用是方法的三個(gè)亮點(diǎn)。大量實(shí)驗(yàn)了證明MegaFS的優(yōu)越性,本文也發(fā)布了第一個(gè)百萬像素級(jí)別的人臉交換數(shù)據(jù)庫,用于研究DeepFake檢測(cè)和人臉圖像編輯。
九、人臉識(shí)別23、A 3D GAN for Improved Large-pose Facial Recognition

基于端到端的深度卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行人臉識(shí)別,依賴于大型人臉數(shù)據(jù)集。這需要大量類別(不同人或者身份)的人臉圖像,且對(duì)每個(gè)人都需要各種各樣的圖像,如此網(wǎng)絡(luò)才能適應(yīng)類內(nèi)差異,增加魯棒性。
然而現(xiàn)實(shí)中很難獲得這樣的數(shù)據(jù)集,特別是那些包含不同姿勢(shì)變化的數(shù)據(jù)集。生成對(duì)抗網(wǎng)絡(luò)(GAN)由于具有生成逼真的合成圖像的能力,因此提供了解決此問題的潛在方法。

- 但最近的研究表明,將姿勢(shì)與個(gè)人身份特征分離的方法效果并不好。本文嘗試將3D可變形模型合并到GAN的生成器中,生成人臉,并在不影響個(gè)人身份辨識(shí)度的情況下操縱姿勢(shì)、照明和表情。所生成的數(shù)據(jù)用在CFP和CPLFW數(shù)據(jù)集上,可增強(qiáng)人臉識(shí)別模型的性能。
24、When Age-Invariant Face Recognition Meets Face Age Synthesis: A Multi-Task Learning Framework

為了最大程度地減少年齡變化對(duì)人臉識(shí)別的影響,先前的工作有兩種方案:一是通過最小化身份特征和年齡特征之間的相關(guān)性來提取與身份相關(guān)的辨識(shí)性特征(稱為年齡不變的人臉識(shí)別age-invariant face recognition,AIFR);二是通過轉(zhuǎn)換不同年齡組的人臉到同一年齡組,稱為人臉年齡生成(face age synthesis,F(xiàn)AS);但是,前者缺乏用于模型解釋的視覺結(jié)果,而后者則的生成效果可能有影響下游識(shí)別的偽影。
本文提出一個(gè)統(tǒng)一的多任務(wù)框架MTLFace來共同處理人臉識(shí)別和生成任務(wù),它可以學(xué)習(xí)與年齡不變的身份表征,同時(shí)完成人臉合成。具體來說,通過注意力機(jī)制將混合的人臉特征分解為兩個(gè)不相關(guān)的部分(身份和年齡相關(guān)的特征),然后使用多任務(wù)訓(xùn)練和連續(xù)域自適應(yīng)將這兩個(gè)部分的相關(guān)性進(jìn)行解耦。
其中,與實(shí)現(xiàn)組級(jí)FAS的常規(guī)one-hot編碼相反,提出了一種新穎的以身份作為條件的模塊來實(shí)現(xiàn)身份級(jí)別的FAS,并采用權(quán)重共享策略來改善合成人臉的年齡平滑度。

- 此外,收集并發(fā)布帶有年齡和性別標(biāo)注的大型跨年齡人臉數(shù)據(jù)集,以推進(jìn)AIFR和FAS的發(fā)展。在五個(gè)基準(zhǔn)跨年齡數(shù)據(jù)集上進(jìn)行的廣泛實(shí)驗(yàn)表明,MTLFace性能優(yōu)于現(xiàn)有的AIFR和FAS方法。https://github.com/Hzzone/MTLFace
25、Coming Down to Earth: Satellite-to-Street View Synthesis for Geo-Localization

- 本文方法以衛(wèi)星輸入,跨視圖地去合成街景圖像。通過將查詢街道圖像與數(shù)據(jù)庫中最近的衛(wèi)星圖像進(jìn)行匹配來同時(shí)確定查詢街道圖像的地理位置。

26、Layout-Guided Novel View Synthesis from a Single Indoor Panorama

本文嘗試從單個(gè)室內(nèi)全景圖生成新的視圖,并考慮到大型相機(jī)平移效果。首先使用卷積神經(jīng)網(wǎng)絡(luò) (CNN) 從源視圖圖像中提取深度特征并估計(jì)深度圖。然后,利用室內(nèi)場(chǎng)景的強(qiáng)結(jié)構(gòu)約束先驗(yàn)房間布局來指導(dǎo)目標(biāo)視圖的生成。
https://github.com/bluestyle97/PNVS

27、ID-Unet: Iterative Soft and Hard Deformation for View Synthesis

視圖合成通常由自動(dòng)編碼器完成,其中編碼器將源視圖圖像映射為潛在內(nèi)容碼,解碼器根據(jù)條件將其轉(zhuǎn)換為目標(biāo)視圖圖像。但在此設(shè)置中,源內(nèi)容往往沒有得到很好的保存,這會(huì)導(dǎo)致視圖轉(zhuǎn)換過程中發(fā)生不必要的更改。雖然添加如Unet的結(jié)構(gòu),可緩解問題,但經(jīng)常導(dǎo)致視圖一致性不佳。
本文以迭代方式執(zhí)行源到目標(biāo)的轉(zhuǎn)變合成,不是簡(jiǎn)單地結(jié)合來自多個(gè)編碼器層的特征,而是設(shè)計(jì)軟和硬變形模塊,將編碼器特征扭曲到不同分辨率的目標(biāo)視圖,并將結(jié)果提供給解碼器以補(bǔ)充細(xì)節(jié)。
https://github.com/MingyuY/ Iterative-view-synthesis

28、Generative Hierarchical Features from Synthesizing Images

生成對(duì)抗網(wǎng)絡(luò) (GAN) 通過學(xué)習(xí)數(shù)據(jù)的潛在分布來進(jìn)行圖像合成,但從中學(xué)到的特征如何適用于其他視覺任務(wù)仍然很少被探索。
這項(xiàng)工作表明通過學(xué)習(xí)合成圖像,可以帶來顯著意義的層次視覺特征,這些特征可在各應(yīng)用中使用。具體來說,將預(yù)訓(xùn)練的 StyleGAN 生成器視為學(xué)習(xí)的損失函數(shù),并利用其逐層的表征來訓(xùn)練新的層次編碼器,而編碼器產(chǎn)生的視覺特征稱為“生成式層次特征 (GH-Feat)”,對(duì)生成和判別任務(wù)具有很強(qiáng)的可遷移性,包括圖像編輯、圖像協(xié)調(diào)、圖像分類、人臉驗(yàn)證、地標(biāo)檢測(cè)和布局預(yù)測(cè)。大量的定性和定量實(shí)驗(yàn)結(jié)果證明了GH-Feat的潛力。
https://genforce.github.io/ghfeat/
十二、解耦學(xué)習(xí)29,Smoothing the Disentangled Latent Style Space for Unsupervised Image-to-Image Translation

對(duì)圖像到圖像 (I2I) 多域轉(zhuǎn)換模型,通常也使用其語義插值結(jié)果的質(zhì)量進(jìn)行評(píng)估。然而,最先進(jìn)的模型經(jīng)常在插值過程中顯示圖像外觀的突然變化,并且在跨域插值時(shí)通常表現(xiàn)不佳。
本文提出基于三個(gè)特定損失的新訓(xùn)練方法,有助于學(xué)習(xí)平滑且解耦開的潛在風(fēng)格空間,其中:1)域內(nèi)和域間插值對(duì)應(yīng)于生成圖像的逐漸變化2)在轉(zhuǎn)換過程中更好地保留源圖像的內(nèi)容。
提出一種評(píng)估指標(biāo)來正確衡量 I2I 轉(zhuǎn)換模型的潛在風(fēng)格空間的平滑度。方法可以插入現(xiàn)有的轉(zhuǎn)換方法中,在不同數(shù)據(jù)集上大量實(shí)驗(yàn)表明,可以顯著提高生成圖像的質(zhì)量和插值的自然漸變。

30,Surrogate Gradient Field for Latent Space Manipulation

生成對(duì)抗網(wǎng)絡(luò) (GAN) 可以從采樣的潛碼中生成高質(zhì)量的圖像。最近的工作試圖通過操縱其潛碼來編輯圖像,但很少超出屬性調(diào)整的基本任務(wù)。
提出一種可以使用多維條件(例如關(guān)鍵點(diǎn))進(jìn)行操作的方法,基于輔助映射網(wǎng)絡(luò)誘導(dǎo)的Surrogate Gradient Field(SGF)來搜索滿足目標(biāo)條件的新潛碼。為定量比較,提出一個(gè)度量來評(píng)估操作方法的解耦度。

- 對(duì)人臉屬性調(diào)整任務(wù)的分析表明,方法在解耦方面優(yōu)于最先進(jìn)方法。方法應(yīng)用于各種條件模態(tài)的任務(wù),也能改變復(fù)雜的圖像屬性,例如關(guān)鍵點(diǎn)等。
31,StyleSpace Analysis: Disentangled Controls for StyleGAN Image Generation

本文探索分析在多個(gè)數(shù)據(jù)集上預(yù)訓(xùn)練的模型StyleGAN2的潛在風(fēng)格空間。
首先表明,在通道級(jí)別的風(fēng)格參數(shù)空間在解耦度上更好;接下來,介紹一種挖掘大量風(fēng)格通道的方法,它們以一種高度分離的方式控制不同的視覺屬性。
最后還提出一種用預(yù)訓(xùn)練分類器或少量示例圖像來識(shí)別控制特定屬性的風(fēng)格通道的簡(jiǎn)單方法。

32,Unsupervised Disentanglement of Linear-Encoded Facial Semantics

提出一種無需外部監(jiān)督即可從 StyleGAN 中解開線性編碼面部語義的方法。該方法源自線性回歸和稀疏表示學(xué)習(xí)概念,使解耦的潛在表示也易于解釋。
首先將 StyleGAN 與3D可變形人臉重建方法相結(jié)合,以將單視圖生成分解為多個(gè)語義。然后提取潛在表示以捕獲可解釋的面部語義。
這項(xiàng)工作可以擺脫標(biāo)簽以解開有意義的人臉語義,沿著解耦的表示引導(dǎo)外推可以幫助數(shù)據(jù)增強(qiáng),這有助于處理不平衡的數(shù)據(jù)。
十三、主動(dòng)學(xué)習(xí)33、Task-Aware Variational Adversarial Active Learning

- 標(biāo)記大量數(shù)據(jù)成本高、甚至不可能。主動(dòng)學(xué)習(xí) (AL) 通過在未標(biāo)記的池中查詢信息量最大的樣本來解決無標(biāo)簽數(shù)據(jù)的問題。
- 本文提出任務(wù)感知變分對(duì)抗主動(dòng)學(xué)習(xí)(TA-VAAL),在平衡/不平衡標(biāo)簽的分類以及語義分割的各種基準(zhǔn)數(shù)據(jù)集上的表現(xiàn)優(yōu)于最先進(jìn)的技術(shù)。
十四、終身學(xué)習(xí)34、Hyper-LifelongGAN: Scalable Lifelong Learning for Image Conditioned Generation

深度神經(jīng)網(wǎng)絡(luò)容易出現(xiàn)災(zāi)難性遺忘:當(dāng)遇到新任務(wù)時(shí),它們只能記住新任務(wù),而無法保持其完成先前學(xué)習(xí)任務(wù)的能力。
本文研究生成模型的終身學(xué)習(xí)問題,提出一種通用的持續(xù)學(xué)習(xí)框架Hyper-LifelongGAN,所提出的方法可以以較低的參數(shù)成本保持甚至提高生成質(zhì)量。在各種圖像條件生成任務(wù)上驗(yàn)證方法可有效地解決災(zāi)難性遺忘問題。
十五、遷移學(xué)習(xí)35、Visualizing Adapted Knowledge in Domain Transfer

在源數(shù)據(jù)上訓(xùn)練的源模型,通過無監(jiān)督域適應(yīng) (UDA) 學(xué)習(xí)的目標(biāo)模型,它們通常編碼了不同的知識(shí)。為理解不同域的適應(yīng)過程,本文用圖像轉(zhuǎn)換來描繪它們的知識(shí)差異。
具體來說,將轉(zhuǎn)換后的圖像及其原始版本分別提供給兩個(gè)模型,形成兩個(gè)分支。通過更新轉(zhuǎn)換后的圖像,強(qiáng)制兩個(gè)分支的輸出相似。當(dāng)滿足這些要求時(shí),兩個(gè)圖像之間的差異可以補(bǔ)償并代表模型間的知識(shí)差異。
代碼https://github.com/houyz/DA_visualization

36、Efficient Conditional GAN Transfer with Knowledge Propagation across Classes

生成對(duì)抗網(wǎng)絡(luò) (GAN) 在無條件和有條件的圖像生成中都顯示出令人印象深刻的結(jié)果。近來一些研究表明,可以遷移不同數(shù)據(jù)集上的預(yù)訓(xùn)練 GAN,以改進(jìn)小目標(biāo)數(shù)據(jù)的圖像生成效果。
本文引入了一種新的 GAN 遷移方法來顯式地將知識(shí)從舊類傳播到新類。關(guān)鍵思想是強(qiáng)制條件批量歸一化 (BN)從舊類信息學(xué)習(xí)新類信息,并進(jìn)行知識(shí)共享。代碼:https://github.com/mshahbazi72/cGANTransfer
37,F(xiàn)ew-shot Image Generation via Cross-domain Correspondence

- 樣本有限(例如10個(gè))訓(xùn)練生成模型時(shí),容易導(dǎo)致過擬合。這項(xiàng)工作尋求利用大型源域進(jìn)行預(yù)訓(xùn)練并將多樣性信息從源轉(zhuǎn)移到目標(biāo)。
- 提出一種新的跨域距離一致性損失來保留源中實(shí)例之間的相對(duì)相似性和差異性。為進(jìn)一步減少過擬合,提出一種基于錨的策略,以鼓勵(lì)潛在空間中不同區(qū)域的不同程度的真實(shí)感。定性和定量地證明該小樣本模型可以自動(dòng)發(fā)現(xiàn)源域和目標(biāo)域之間的對(duì)應(yīng)關(guān)系,并生成比以前的方法更多樣化和更逼真的圖像。
十七、半監(jiān)督學(xué)習(xí)38、Mask-Embedded Discriminator with Region-based Semantic Regularization for Semi-Supervised Class-Conditional Image Synthesis

當(dāng)沒有足夠的標(biāo)記數(shù)據(jù)可用時(shí),半監(jiān)督生成學(xué)習(xí) (SSGL) 使用未標(biāo)記的數(shù)據(jù)來實(shí)現(xiàn)數(shù)據(jù)和性能之間的權(quán)衡。學(xué)習(xí)精確的類語義對(duì)于有限監(jiān)督數(shù)據(jù)的類條件圖像合成至關(guān)重要。為此,提出一個(gè)帶有掩碼嵌入判別器的半監(jiān)督生成對(duì)抗網(wǎng)絡(luò)MED-GAN。
通過引入掩碼嵌入模塊,判別器特征與空間信息相關(guān)聯(lián),判別器在區(qū)分真實(shí)圖像和合成圖像時(shí),可以將焦點(diǎn)限制在指定區(qū)域內(nèi)。如此,強(qiáng)制生成器合成包含更精確類語義的實(shí)例。同樣受益于掩碼嵌入,在判別器特征空間上強(qiáng)加了基于區(qū)域的語義正則化,可增加真假類之間以及對(duì)象類別之間的分離程度。實(shí)驗(yàn)中MED-GAN 的優(yōu)越性能證明了掩碼嵌入和相關(guān)正則化在促進(jìn) SSGL 方面的有效性。

39、DatasetGAN: Efficient Labeled Data Factory with Minimal Human Effort

提出DatasetGAN用于生成高質(zhì)量語義分割圖像的大量數(shù)據(jù)集。當(dāng)前的深度網(wǎng)絡(luò)得益于大規(guī)模數(shù)據(jù)集的訓(xùn)練,而這些數(shù)據(jù)集標(biāo)注起來非常耗時(shí)。
方法基于GAN生成逼真圖像,展示了如何解碼 GAN 潛碼以生成圖像語義分割圖。訓(xùn)練解碼器只需要幾個(gè)帶標(biāo)簽的例子就可以推廣到其余的潛在空間,從而產(chǎn)生無限的帶標(biāo)簽的數(shù)據(jù)集生成器!
十八、單樣本訓(xùn)練40,Learning to Generate Novel Scene Compositions from Single Images and Videos

在少量訓(xùn)練數(shù)據(jù)情況下,訓(xùn)練 GAN 仍是一個(gè)挑戰(zhàn),通常會(huì)有過擬合問題。
這項(xiàng)工作引入One-Shot GAN,它可以學(xué)習(xí)從一張圖像或一個(gè)視頻的訓(xùn)練集中生成樣本。提出了一個(gè)兩分支鑒別器,其內(nèi)容和布局分支旨在分別從場(chǎng)景布局真實(shí)感中判斷內(nèi)部內(nèi)容。這就可以合成具有不同內(nèi)容和布局的視覺上合理的、新穎的場(chǎng)景組合,同時(shí)保留原始樣本的上下文。與之前的單圖像 GAN 模型相比,One-Shot GAN 實(shí)現(xiàn)了更好的多樣性和合成質(zhì)量。它也適用單個(gè)視頻的學(xué)習(xí)。

41,IMAGINE: Image Synthesis by Image-Guided Model Inversion

引入了一種基于逆映射的方法,用IMAge-Guided INvVersion (IMAGINE)表示,可以僅從單個(gè)訓(xùn)練樣本生成高質(zhì)量和多樣化的圖像。
利用來自預(yù)訓(xùn)練分類器的圖像語義知識(shí),通過匹配分類器中多級(jí)特征表示來實(shí)現(xiàn)合理的生成,并與外部鑒別器的對(duì)抗訓(xùn)練相關(guān)聯(lián)。IMAGINE使合成過程能夠同時(shí) 1) 在合成過程中強(qiáng)制執(zhí)行語義特異性約束,2) 無需生成器訓(xùn)練即可生成逼真的圖像,3) 為用戶提供對(duì)生成過程的直觀控制。
十九、多樣化生成42,DivCo: Diverse Conditional Image Synthesis via Contrastive Generative Adversarial Network

條件生成對(duì)抗網(wǎng)絡(luò) (cGAN) 可以在給定輸入條件和潛碼的情況下,合成不同的、多樣化的圖像。但常常會(huì)遇到模式坍塌的問題。為了解決這個(gè)問題,以前的工作主要集中在潛碼與其生成的圖像的關(guān)系上,而忽略了各種潛碼所生成圖像之間的關(guān)系。
與MSGAN只考慮圖像對(duì)之間的“負(fù)”關(guān)系不同,本文所提出的DivCo框架,可以恰當(dāng)?shù)丶s束潛在空間中指定的生成圖像之間的“正”、“負(fù)”關(guān)系;這是第一次將對(duì)比學(xué)習(xí)用于多樣性條件圖像生成的嘗試。
本文引入一種潛在增強(qiáng)對(duì)比損失,它鼓勵(lì)從相鄰潛碼生成的圖像相似、而不同潛碼生成的圖像則不同。所提出的潛在增強(qiáng)對(duì)比損失可以很好地與各種 cGAN 架構(gòu)兼容。大量實(shí)驗(yàn)表明,在多個(gè)非成對(duì)和成對(duì)的圖像生成任務(wù)中,DivCo可以生成更多樣化的圖像,且不犧牲視覺質(zhì)量。訓(xùn)練代碼和預(yù)訓(xùn)練模型:https://github.com/ruiliu-ai/DivCo

43,Diverse Semantic Image Synthesis via Probability Distribution Modeling

- 語義圖像合成(Semantic image synthesis),將語義布局轉(zhuǎn)換為照片般逼真的圖像,是一個(gè)一對(duì)多的映射問題。

盡管已有不錯(cuò)的進(jìn)展,但有效地產(chǎn)生多樣化效果仍是一個(gè)挑戰(zhàn)。本文從語義類分布的角度提出一種多樣化語義圖像合成框架,支持語義甚至實(shí)例級(jí)別的多樣化生成。
提出通過將類級(jí)條件調(diào)制參數(shù)建模為連續(xù)概率分布而不是離散值來實(shí)現(xiàn),對(duì)多個(gè)數(shù)據(jù)集的大量實(shí)驗(yàn)表明,與最先進(jìn)方法相比,可以實(shí)現(xiàn)更好的多樣性和視覺質(zhì)量。代碼:https://github.com/tzt101/INADE.git
44,Navigating the GAN Parameter Space for Semantic Image Editing

- 生成對(duì)抗網(wǎng)絡(luò) (GAN) 目前是視覺編輯不可或缺的工具,是圖像轉(zhuǎn)換和圖像復(fù)原的常用方法。此外,可以通過探索GAN的潛在空間中所包含的可解釋方向,可以進(jìn)行可控生成、語義編輯等操作。本文擴(kuò)展使用最先進(jìn)模型(如 StyleGAN2),在生成器參數(shù)空間中探索可解釋的方向。

45,Context-Aware Layout to Image Generation with Enhanced Object Appearance


布局到圖像 (layout to image,L2I) 任務(wù)的生成模型:以給定布局為條件輸入,生成符合語義的圖像?,F(xiàn)有方法有兩個(gè)局限:(1)圖像中對(duì)象之間的關(guān)系不完整;(2)對(duì)象的外觀扭曲,語義辨識(shí)度。
本文認(rèn)為這是由于生成器中缺少上下文特征感知的能力,或者判別器缺少位置敏感的外觀表示造成。為此這項(xiàng)工作提出兩個(gè)新模塊:在生成器引入上下文感知特征轉(zhuǎn)換模塊,以確保生成的對(duì)象的特征編碼了解場(chǎng)景中其他共存的對(duì)象;其次,使用從生成的對(duì)象圖像的特征圖計(jì)算的 Gram 矩陣來保留位置敏感信息,以改善對(duì)象的外觀。代碼:https://github.com/wtliao/layout2img
46,House-GAN++: Generative Adversarial Layout Refinement Network towards Intelligent Computational Agent for Professional Architects

本文提出一種用于自動(dòng)平面圖生成的GAN網(wǎng)絡(luò),方法由圖約束的關(guān)系GAN和條件GAN集成。前一步生成的布局作為下一個(gè)輸入,實(shí)現(xiàn)迭代細(xì)化。
代碼、模型和數(shù)據(jù)可在 https://ennauata.github.io/houseganpp/page.html

47,TediGAN: Text-Guided Diverse Image Generation and Manipulation

提出TediGAN,一種用于多模態(tài)圖像生成和處理文本描述的方法。由三個(gè)部分組成:StyleGAN逆映射模塊、視覺語言相似性學(xué)習(xí)和實(shí)例級(jí)優(yōu)化。
逆映射模塊是訓(xùn)練圖像編碼器將真實(shí)圖像映射到StyleGAN潛在空間;視覺-語言相似性通過將圖像和文本映射到公共嵌入空間來學(xué)習(xí)文本-圖像匹配;實(shí)例級(jí)優(yōu)化用于操作中的ID身份信息保存。
為了促進(jìn)文本引導(dǎo)的多模態(tài)合成,提出MULTIMODAL CELEBA-HQ,一個(gè)由真實(shí)人臉圖像和相應(yīng)的語義分割圖、草圖和文本描述組成的大規(guī)模數(shù)據(jù)集。
在引入數(shù)據(jù)集上的大量實(shí)驗(yàn)證明了方法的優(yōu)越性能。代碼和數(shù)據(jù)https://github.com/weihaox/TediGAN

48、Semantic Palette: Guiding Scene Generation with Class Proportions

盡管最近生成對(duì)抗網(wǎng)絡(luò) (GAN) 在合成逼真圖像方面取得了進(jìn)展,但生成復(fù)雜的城市場(chǎng)景仍然是一個(gè)具有挑戰(zhàn)性的問題。
這項(xiàng)工作探索的是,更高的語義控制下的條件布局生成:給定一個(gè)類比例向量,生成對(duì)應(yīng)的布局。

49、StEP: Style-based Encoder Pre-training for Multi-modal Image Synthesis

提出一種多模態(tài)圖像轉(zhuǎn)換的新方法,解決輸入域和輸出域之間的一對(duì)多關(guān)系。本文預(yù)訓(xùn)練通用風(fēng)格編碼器,學(xué)習(xí)從任意域到低維風(fēng)格潛在空間的圖像特征嵌入。與以前的多模 I2I 轉(zhuǎn)換傳統(tǒng)方法相比,學(xué)習(xí)到的潛在空間優(yōu)點(diǎn)是:首先,它不依賴于目標(biāo)數(shù)據(jù)集,并且可以很好地跨多個(gè)域泛化;其次,它學(xué)習(xí)了一個(gè)更強(qiáng)大和更具表現(xiàn)力的潛在空間,提高了風(fēng)格捕捉和遷移的保真度;預(yù)訓(xùn)練還簡(jiǎn)化了訓(xùn)練目標(biāo)并加快訓(xùn)練速度。
此外,本文詳細(xì)研究了不同損失項(xiàng)對(duì)多模態(tài) I2I 轉(zhuǎn)換任務(wù)的貢獻(xiàn),并提出一種簡(jiǎn)單的VAE替代方案,以實(shí)現(xiàn)從不受約束的潛在空間采樣。最后,在六個(gè)基準(zhǔn)測(cè)試中取得了當(dāng)前最好的結(jié)果。其訓(xùn)練目標(biāo)簡(jiǎn)單,僅包括 GAN 損失和重建損失。
二十一、行人重識(shí)別50、 Joint Generative and Contrastive Learning for Unsupervised Person Re-identification

- 最近的自監(jiān)督對(duì)比學(xué)習(xí)通過從輸入的不同視圖(轉(zhuǎn)換版本)中學(xué)習(xí)不變性,為無監(jiān)督行人重識(shí)別 (ReID) 提供了一種有效的方法。本文將生成對(duì)抗網(wǎng)絡(luò) (GAN) 和對(duì)比學(xué)習(xí)模塊合并到一個(gè)聯(lián)合訓(xùn)練框架中,GAN 為對(duì)比學(xué)習(xí)提供在線數(shù)據(jù)增強(qiáng),對(duì)比模塊學(xué)習(xí)視圖不變特征以進(jìn)行生成。在這種情況下,提出一個(gè)基于網(wǎng)格的視圖生成器和一種視圖不變損失,以促進(jìn)原始視圖和生成視圖之間的對(duì)比學(xué)習(xí)。實(shí)驗(yàn)結(jié)果表明,方法在幾個(gè)大規(guī)模 ReID 數(shù)據(jù)集上的無監(jiān)督和無監(jiān)督域自適應(yīng)設(shè)置下均優(yōu)于最先進(jìn)的方法。源代碼和模型:https://github.com/chenhao2345/GCL
51、 Single-Shot Freestyle Dance Reenactment


- 源舞者和目標(biāo)人之間的運(yùn)動(dòng)遷移任務(wù)是姿勢(shì)遷移問題的一個(gè)特例,其中目標(biāo)人根據(jù)舞者的動(dòng)作改變他們的姿勢(shì)。這項(xiàng)工作提出一種新方法,可通過任意視頻序列重新激活單個(gè)圖像。該方法結(jié)合了三個(gè)網(wǎng)絡(luò):分割映射網(wǎng)絡(luò)、幀渲染網(wǎng)絡(luò)、人臉細(xì)化網(wǎng)絡(luò)。通過將此任務(wù)分為三個(gè)階段,能獲得逼真幀序列,捕捉自然運(yùn)動(dòng)和外觀。
52、 Scene-aware Generative Network for Human Motion Synthesis

- 人體運(yùn)動(dòng)合成通常在兩個(gè)方面受到限制:1) 專注于姿勢(shì),而將位置運(yùn)動(dòng)拋在腦后,2) 忽略環(huán)境對(duì)人體運(yùn)動(dòng)的影響。本文考慮場(chǎng)景和人體運(yùn)動(dòng)之間的相互作用??紤]到人體運(yùn)動(dòng)的不確定性,將此任務(wù)制定為生成任務(wù),其目標(biāo)是生成以場(chǎng)景和人體初始位置為條件的合理人體運(yùn)動(dòng)。
53、DG-Font: Deformable Generative Networks for Unsupervised Font Generation

字體生成是一個(gè)具有挑戰(zhàn)性的問題,然而現(xiàn)有的字體生成方法通常是在監(jiān)督學(xué)習(xí)中。它們需要大量成對(duì)的數(shù)據(jù),這是勞動(dòng)密集型的,收集起來很昂貴。此外,常見的圖像到圖像轉(zhuǎn)換模型通常將風(fēng)格定義為紋理和顏色的集合,不能直接應(yīng)用于字體生成。
本文提出用于無監(jiān)督字體生成(DGFont)的新型可變形生成網(wǎng)絡(luò)。源代碼:https://github.com/ecnuycxie/DG-Font
二十四、仿真54、DriveGAN: Towards a Controllable High-Quality Neural Simulation

- 仿真對(duì)訓(xùn)練和驗(yàn)證機(jī)器人系統(tǒng)至關(guān)重要。這項(xiàng)工作目標(biāo)是通過觀察無標(biāo)簽的幀序列及其相關(guān)動(dòng)作,學(xué)習(xí)直接在像素空間中模擬動(dòng)態(tài)環(huán)境。
二十五、醫(yī)學(xué)圖像55、GAN-Based Data Augmentation and Anonymization for Skin-Lesion Analysis: A Critical Review

- 缺乏訓(xùn)練樣本仍是皮膚病變分析的主要挑戰(zhàn)之一。通過合成與真實(shí)圖像無法區(qū)分的樣本,生成對(duì)抗網(wǎng)絡(luò) (GAN) 似乎是緩解該問題的誘人替代方案。但本文作者更偏向于一種質(zhì)疑批判的態(tài)度,認(rèn)為由于與 GAN 使用相關(guān)的成本和風(fēng)險(xiǎn),這些結(jié)果表明在將其用于醫(yī)療應(yīng)用時(shí)要謹(jǐn)慎。
56,Directional GAN: A Novel Conditioning Strategy for Generative Networks

圖像是營銷活動(dòng)、網(wǎng)站和橫幅的主要形式之一。這可能需要設(shè)計(jì)師花費(fèi)大量時(shí)間來生成此類專業(yè)的內(nèi)容。提出一種簡(jiǎn)單而新穎的調(diào)節(jié)策略,針對(duì)無條件圖像生成任務(wù)訓(xùn)練的生成器生成給定語義屬性的圖像。
方法基于修改潛在向量,使用潛在空間中相關(guān)語義屬性的方向向量,處理離散(二類、多類)的和連續(xù)的圖像屬性。

57,Image Generators with Conditionally-Independent Pixel Synthesis

現(xiàn)有的生成器網(wǎng)絡(luò)一般都依賴空間卷積、或者自注意力模塊,然后以由粗到細(xì)的方式逐漸合成圖像。
本文提出一種新的生成器架構(gòu),其中每個(gè)像素的顏色值是根據(jù)隨機(jī)潛在向量的值和該像素的坐標(biāo)獨(dú)立計(jì)算的,在合成過程中不涉及跨像素傳播信息的空間卷積或類似操作。
58,Efficient Feature Transformations for Discriminative and Generative Continual Learning

隨神經(jīng)網(wǎng)絡(luò)越來越多地應(yīng)用于實(shí)際中,解決數(shù)據(jù)分布差異、偏移和序列任務(wù)學(xué)習(xí)等問題、不會(huì)“遺忘”至關(guān)重要。通過增加模型容量來學(xué)習(xí)新任務(wù),同時(shí)避免災(zāi)難性遺忘,但可能很耗算力。
基于連續(xù)學(xué)習(xí)提出一種特征圖轉(zhuǎn)換策略,為學(xué)習(xí)新任務(wù)提供了更好的靈活性,而這只需在基礎(chǔ)架構(gòu)中添加最少的參數(shù)即可實(shí)現(xiàn)。
59,A Sliced Wasserstein Loss for Neural Texture Synthesis
在風(fēng)格遷移或者GAN里,經(jīng)常通過以目標(biāo)分類識(shí)別任務(wù)而優(yōu)化好的網(wǎng)絡(luò)(例如 VGG-19),利用其提取特征激活,從而獲取統(tǒng)計(jì)數(shù)據(jù)來計(jì)算紋理損失;其本質(zhì)數(shù)學(xué)問題是測(cè)量特征空間中兩個(gè)分布之間的距離。Gram-matrix loss 是這個(gè)問題的普遍近似,但它有一些缺點(diǎn)。
本文推廣Sliced Wasserstein Distance,實(shí)現(xiàn)簡(jiǎn)單,效果更好。

60,Regularizing Generative Adversarial Networks under Limited Data

- GAN模型依賴大量的訓(xùn)練數(shù)據(jù),這項(xiàng)工作提出一種在有限數(shù)據(jù)上訓(xùn)練魯棒 GAN 模型的正則化方法。在理論上展示了正則化損失和稱為 LeCam-divergence 的 f-divergence 之間的聯(lián)系,它在有限的訓(xùn)練數(shù)據(jù)下更加穩(wěn)健。https://github.com/google/lecam-gan
61,Training Generative Adversarial Networks in One Stage
生成對(duì)抗網(wǎng)絡(luò) (GAN) 有著繁瑣的訓(xùn)練過程,生成器和判別器交替更新。本文研究僅在一個(gè)階段就可以有效地訓(xùn)練 GAN。
基于生成器和判別器的對(duì)抗性損失,將 GAN 分為兩類,對(duì)稱 GAN 和非對(duì)稱 GAN,并引入了一種新的梯度分解方法來統(tǒng)一這兩者,能夠在一個(gè)階段訓(xùn)練這兩個(gè)類,減輕訓(xùn)練難度。

62,Posterior Promoted GAN with Distribution Discriminator for Unsupervised Image Synthesis

- 本文研究者認(rèn)為生成器中需要有足夠的關(guān)于真實(shí)數(shù)據(jù)分布的信息,這是GAN生成能力的關(guān)鍵點(diǎn)。但目前GAN及其變體缺乏這一點(diǎn),導(dǎo)致訓(xùn)練過程脆弱。

- 本文提出了一種新的 GAN 變體,即Posterior Promoted GAN(P2GAN),它使用判別器產(chǎn)生的后驗(yàn)分布中的真實(shí)信息來提升生成器。與 GAN 的其他變體不同,判別器將圖像映射到多元高斯分布并提取真實(shí)信息;生成器使用 AdaIN 后的真實(shí)信息和潛碼。實(shí)驗(yàn)結(jié)果表明,P2GAN 在無監(jiān)督圖像合成方面取得了與GAN最先進(jìn)的變體相當(dāng)?shù)慕Y(jié)果。
63、Adversarial Generation of Continuous Images

在大多數(shù)現(xiàn)有的學(xué)習(xí)系統(tǒng)中,圖像通常被視為二維像素陣列。然而,在另一種越來越流行的范式中,2D 圖像被表示為隱式神經(jīng)表示 ( implicit neural representation,INR):一種根據(jù)其 (x, y) 坐標(biāo)預(yù)測(cè) RGB 像素值的MLP。本文提出兩種基于INR的圖像解碼器技術(shù):分解乘法調(diào)制和多尺度INR,并用它們構(gòu)建最先進(jìn)的連續(xù)圖像GAN。
提出的INR-GAN架構(gòu)將連續(xù)圖像生成器的性能提高了數(shù)倍,大大縮小了連續(xù)圖像 GAN 與基于像素的 GAN 之間的差距。除此之外,探索了基于INR的解碼器的幾個(gè)令人興奮特性,如開箱即用的超分辨率、有意義的圖像空間插值、低分辨率圖像的加速推理、圖像邊界外推能力等
https://universome.github.io/inr-gan
64,Partition-Guided GANs

盡管生成對(duì)抗網(wǎng)絡(luò) (GAN) 取得了成功,但它們的訓(xùn)練仍存在幾個(gè)眾所周知的問題,包括模式坍塌等困難。
本文將學(xué)習(xí)復(fù)雜高維分布的任務(wù)分解為更簡(jiǎn)單的子任務(wù),支持更多樣化的樣本生成。方案設(shè)計(jì)了一個(gè)分區(qū)器,將生成空間分成更小的區(qū)域,每個(gè)區(qū)域都有更簡(jiǎn)單的分布,并為每個(gè)分區(qū)訓(xùn)練不同的生成器。這是以無監(jiān)督的方式完成的,不需要任何標(biāo)簽。
為此,為空間分區(qū)器制定了兩個(gè)所需的損失標(biāo)準(zhǔn),以幫助訓(xùn)練混合生成器:1) 生成連接的分區(qū);2) 提供分區(qū)和數(shù)據(jù)樣本之間距離的代理,以及減少該距離的方向。這也是為了避免從不存在數(shù)據(jù)密度的地方生成樣本,并且還通過為生成器提供額外的方向來促進(jìn)訓(xùn)練。
65,Positional Encoding as Spatial Inductive Bias in GANs

盡管有效的感受野有限,但SinGAN在學(xué)習(xí)內(nèi)部結(jié)構(gòu)分布方面表現(xiàn)出令人印象深刻的能力。這項(xiàng)工作以 SinGAN 和 StyleGAN2 為例,表明這種生成能力在很大程度上是由在生成器中使用零填充(zero padding)時(shí)隱式位置編碼帶來的。這種位置編碼對(duì)于生成高保真圖像是必不可少的。在其他生成式架構(gòu)(例如 DCGAN 和 PGGAN)中也觀察到了相同的現(xiàn)象。
本文進(jìn)一步表明,零填充會(huì)導(dǎo)致不平衡的空間偏差、位置間關(guān)系模糊。為提供更好的空間歸納偏差,研究了替代位置編碼并分析了它們影響。
二十七、結(jié)合VAE66,Dual Contradistinctive Generative Autoencoder

提出一種具有雙重對(duì)比損失的生成自動(dòng)編碼器,本文將模型命名為“雙對(duì)比生成自編碼器 (DC-VAE)”,融合了實(shí)例級(jí)判別性損失(為重建/合成維持實(shí)例級(jí)保真度)與集合級(jí)對(duì)抗性損失。
DC-VAE在不同分辨率(包括 32×32、64×64、128×128 和 512×512)上的廣泛實(shí)驗(yàn)結(jié)果表明,顯著提高基線 VAE 的定性和定量性能。DC-VAE 是一種通用的 VAE 模型,適用于視覺和機(jī)器學(xué)習(xí)中各種下游任務(wù)。
67,Soft-IntroVAE: Analyzing and Improving the Introspective Variational Autoencoder

- 最近推出的變分自動(dòng)編碼器IntroVAE展示了出色的圖像生成能力,IntroVAE 的主要思想是對(duì)抗性地訓(xùn)練 VAE,使用 VAE 編碼器來區(qū)分生成的數(shù)據(jù)樣本和真實(shí)的數(shù)據(jù)樣本。這項(xiàng)工作提出SoftIntroVAE,一種改進(jìn)的 IntroVAE,它在生成的樣本上用平滑的指數(shù)損失替換了鉸鏈損失項(xiàng)。這一變化顯著提高了訓(xùn)練的穩(wěn)定性,也使得對(duì)完整算法的理論分析成為可能。
- 代碼:https://taldatech.github.io/soft-introvae-web

68,Taming Transformers for High-Resolution Image Synthesis

transformers在學(xué)習(xí)序列數(shù)據(jù)上的遠(yuǎn)程交互是有優(yōu)越性的,在各種任務(wù)上顯示出最先進(jìn)的效果。與 CNN 相比,它們可能不會(huì)優(yōu)先考慮局部交互的歸納偏差。本文展示了如何將 CNN 的歸納偏置有效性與 Transformer 的表達(dá)能力相結(jié)合,建模高分辨率圖像。
https://git.io/JLlvY
二十九、模型壓縮69,Anycost GANs for Interactive Image Synthesis and Editing

- 大型生成器(例如 StyleGAN2)的計(jì)算成本很高,在邊緣設(shè)備上運(yùn)行一次常需幾秒鐘時(shí)間,阻礙交互式體驗(yàn)。本文提出Anycost GAN 用于交互式自然圖像編輯。Anycost GAN支持彈性分辨率和通道以多種速度更快地生成圖像。
- https://github.com/mit-han-lab/anycost-gan

70,Content-Aware GAN Compression

- 直接應(yīng)用通用常見的壓縮方法在 GAN 上,結(jié)果往往不佳。本文提出無條件 GAN 壓縮的新方法,首先介紹專門用于無條件 GAN 的有效通道修剪和知識(shí)蒸餾方案。然后,提出內(nèi)容感知方法來指導(dǎo)修剪和蒸餾的過程。與全尺寸模型StyleGAN2相比,F(xiàn)LOP減少了11倍,圖像質(zhì)量損失在視覺上可以忽略不計(jì)。
三十、散焦模糊檢測(cè)71,Self-generated Defocus Blur Detection via Dual Adversarial Discriminators

- 全監(jiān)督離焦模糊檢測(cè) (defocus blur detection,DBD) 模型顯著提高了性能,但訓(xùn)練這種深度模型需大量的像素級(jí)手動(dòng)標(biāo)注,非常耗時(shí)、易錯(cuò)。針對(duì)這個(gè)問題,本文致力于在不使用任何像素級(jí)標(biāo)注的情況下訓(xùn)練深度 DBD 模型。

在不影響全模糊圖像/全清晰圖像的判斷的情況下,可以任意粘貼散焦模糊區(qū)域/對(duì)焦清晰區(qū)域到給定的真實(shí)全模糊圖像/全清晰圖像。具體來說,以對(duì)抗雙重判別器 Dc 和 Db 的對(duì)抗方式訓(xùn)練生成器 G。G 學(xué)習(xí)生成 DBD 掩碼,通過將聚焦區(qū)域和未聚焦區(qū)域從相應(yīng)的源圖像復(fù)制到另一個(gè)完整清晰圖像和完整模糊圖像,從而生成復(fù)合清晰圖像和復(fù)合模糊圖像。
https://github.com/shangcai1/SG
72,GLEAN: Generative Latent Bank for Large-Factor Image Super-Resolution

- 預(yù)訓(xùn)練的生成對(duì)抗網(wǎng)絡(luò) (GAN),例如StyleGAN,可以用作潛碼庫來提高圖像超分辨率 (SR) 的恢復(fù)質(zhì)量。雖然大多數(shù)現(xiàn)有的 SR 方法都試圖通過對(duì)抗性損失的學(xué)習(xí)來生成逼真的紋理,但本文方法Generative LatEnt bANk (GLEAN) 通過直接利用封裝在預(yù)訓(xùn)練 GAN 中的豐富多樣的先驗(yàn)超越了現(xiàn)有方法。與流行的 GAN 逆映射方法需要在運(yùn)行時(shí)進(jìn)行昂貴的圖像特定優(yōu)化不同,方法只需一次前向即可生成放大圖像。

73,GAN Prior Embedded Network for Blind Face Restoration in the Wild

嚴(yán)重退化的人臉圖像中恢復(fù)清晰(Blind face restoration ,BFR)極具挑戰(zhàn)?,F(xiàn)有的基于生成對(duì)抗網(wǎng)絡(luò) (GAN) 的方法往往會(huì)過度平滑。
這項(xiàng)工作首先學(xué)習(xí)用于生成高質(zhì)量人臉圖像的GAN,并將其嵌入到U形DNN 作為先驗(yàn)解碼器,然后用一組合成的低質(zhì)量人臉圖像微調(diào)。所提出的GAN先驗(yàn)嵌入網(wǎng)絡(luò) (GPEN) 易于實(shí)現(xiàn),并且可以生成視覺上逼真的結(jié)果。源代碼和模型https://github.com/yangxy/GPEN

74,Progressive Semantic-Aware Style Transformation for Blind Face Restoration

人臉恢復(fù)在人臉圖像處理中很重要,通常很難將低質(zhì)量 (LQ) 人臉圖像轉(zhuǎn)換生成高質(zhì)量 (HQ) 結(jié)果。本文提出一種漸進(jìn)式語義感知風(fēng)格轉(zhuǎn)換框架PSFR-GAN,用于人臉恢復(fù)。
與以前的方法使用編碼器解碼器不同,本文基于一種多尺度漸進(jìn)、語義感知的風(fēng)格轉(zhuǎn)換過程。給定一對(duì)LQ人臉圖像及其對(duì)應(yīng)的解析圖,首先生成輸入的多尺度金字塔,然后從粗到細(xì)逐步調(diào)制不同尺度的特征。與之前的網(wǎng)絡(luò)相比,PSFR-GAN 充分利用了來自不同尺度輸入對(duì)的語義(解析圖)和像素(LQ 圖像)空間信息。
三十二、圖像去雨75,Closing the Loop: Joint Rain Generation and Removal via Disentangled Image Translation

基于深度學(xué)習(xí)的圖像去雨方法通常依賴于成對(duì)的清晰圖像和模擬的雨天圖像。然而,由于簡(jiǎn)化合成雨與復(fù)雜真實(shí)雨之間的巨大差距,這些方法在面對(duì)真實(shí)雨時(shí)會(huì)出現(xiàn)性能下降。
這項(xiàng)工作認(rèn)為雨水的產(chǎn)生和去除是同一枚硬幣的兩個(gè)方面,應(yīng)該緊密耦合。提出在統(tǒng)一的、解耦的圖像轉(zhuǎn)換框架內(nèi)共同學(xué)習(xí)真實(shí)的雨生成和去除過程。具體來說,提出一個(gè)雙向解耦轉(zhuǎn)換網(wǎng)絡(luò),其中每個(gè)單向網(wǎng)絡(luò)包含兩個(gè)循環(huán),分別用于真實(shí)和合成雨圖像的生成和去除。

76,F(xiàn)rom Rain Generation to Rain Removal

對(duì)于單圖像去雨 (single image rain removal,SIRR) 任務(wù),基于深度學(xué)習(xí) (DL) 的方法的性能受去雨模型和訓(xùn)練數(shù)據(jù)集的影響。本文探索一種有效的合成雨天圖像的方法,從訓(xùn)練數(shù)據(jù)集的角度處理 SIRR 任務(wù)。
具體來說,為雨天圖像構(gòu)建了一個(gè)完整的貝葉斯生成模型,采用變分推理以數(shù)據(jù)驅(qū)動(dòng)的方式近似預(yù)測(cè)雨天圖像的統(tǒng)計(jì)分布。通過學(xué)習(xí)生成器,自動(dòng)充分生成多樣化的訓(xùn)練對(duì),有效豐富現(xiàn)有基準(zhǔn)數(shù)據(jù)集。用戶研究定性和定量評(píng)估生成的雨天圖像真實(shí)性。綜合實(shí)驗(yàn)證明,所提出模型可提取復(fù)雜的降雨分布,有助于提高當(dāng)前單幅圖像去雨性能,且在很大程度上放寬SIRR任務(wù)對(duì)大訓(xùn)練樣本預(yù)收集的要求。代碼https://github.com/hongwang01/VRGNet
三十三、圖像修復(fù)77,Generating Diverse Structure for Image Inpainting With Hierarchical VQ-VAE

給定沒有額外約束、不完整的圖像,圖像修復(fù)可能有多種修復(fù)方案。但這些方法難以確保質(zhì)量,例如可能有扭曲的結(jié)構(gòu)或模糊的紋理。
提出一個(gè)兩階段模型,第一階段生成多個(gè)粗略結(jié)果,每個(gè)結(jié)果具有不同的結(jié)構(gòu);第二階段通過增加紋理分別細(xì)化每個(gè)粗略結(jié)果。所提出的模型受變分自動(dòng)編碼器 (VQ-VAE) 啟發(fā),其分層架構(gòu)將結(jié)構(gòu)和紋理信息分開。
代碼:https://github.com/USTC- JialunPeng/ Diverse-Structure-Inpainting

78,Image Inpainting with External-internal Learning and Monochromic Bottleneck

提出了一種所謂的兩階段、外部-內(nèi)部修復(fù)方案。外部學(xué)習(xí),重建單色空間中缺失的結(jié)構(gòu)和細(xì)節(jié);內(nèi)部學(xué)習(xí),針對(duì)單圖像內(nèi)部的顏色恢復(fù),采用漸進(jìn)式學(xué)習(xí)策略。
源代碼 https://github.com/Tengfei-Wang/external-internal-inpainting

79,Image Inpainting Guided by Coherence Priors of Semantics and Textures

- 本文引入語義和紋理一致性先驗(yàn),采用多尺度聯(lián)合優(yōu)化對(duì)相關(guān)性先驗(yàn)進(jìn)行建模,然后以粗到細(xì)的方式交錯(cuò)優(yōu)化圖像修復(fù)和語義分割。設(shè)計(jì)了語義注意力傳播 (Semantic-Wise Attention Propagation,SWAP) 模塊,探索非局部語義連貫性來優(yōu)化跨尺度的圖像紋理,有效減輕紋理混淆。還提出了兩個(gè)損失來限制語義和修復(fù)圖像在整體結(jié)構(gòu)和詳細(xì)紋理方面的一致性。

80,PD-GAN: Probabilistic Diverse GAN for Image Inpainting

提出PD-GAN,一種用于圖像多樣化修復(fù)的GAN。給定有任意空洞區(qū)域的輸入圖像,PD-GAN會(huì)產(chǎn)生具有多樣化、視覺逼真的多個(gè)修復(fù)結(jié)果。
PD-GAN基于隨機(jī)噪聲生成圖像的GAN,在生成過程中,從粗到細(xì)調(diào)制輸入到深層的特征。在修復(fù)時(shí),缺失邊界附近的像素相較于缺失區(qū)域中間,更具確定性。而對(duì)于缺失較內(nèi)部區(qū)域,有更多自由發(fā)揮空間。提出空間概率多樣性歸一化(SPDNorm),以模擬生成以上下文信息為條件的像素的概率。
代碼可在 https://github.com/KumapowerLIU/PD-GAN
三十四、圖像拼接融合81,Bridging the Visual Gap: Wide-Range Image Blending

本文提出圖像處理中的一個(gè)新應(yīng)用,即“寬度上的圖像融合”(wide-range image blending),旨在通過為它們之間的中間區(qū)域生成新的圖像內(nèi)容,將兩張不同的輸入照片平滑地合并成一張全景圖。
盡管此類問題與圖像修復(fù)、圖像修復(fù)和圖像混合等主題密切相關(guān),但類似的方法無法解決。為此,提出了一種雙向內(nèi)容傳輸模塊,通過循環(huán)神經(jīng)網(wǎng)絡(luò)對(duì)中間區(qū)域的特征表示進(jìn)行條件預(yù)測(cè)。除了在混合過程中確??臻g和語義的一致性外,還在提出的方法中采用了上下文注意機(jī)制以及對(duì)抗性學(xué)習(xí)方案來提高合成全景的視覺質(zhì)量。
三十五、圖像陰影82,Towards High Fidelity Face Relighting with Realistic Shadows

現(xiàn)有的人臉補(bǔ)光(Face Relighting)方法面臨兩個(gè)難點(diǎn):保持被攝對(duì)象的局部面部細(xì)節(jié)和準(zhǔn)確去除和合成重打光圖像中的陰影。
本文方法學(xué)習(xí)預(yù)測(cè)具有所需照明的源圖像和目標(biāo)圖像之間的比率圖像,在保持局部面部細(xì)節(jié)的同時(shí)重新進(jìn)行補(bǔ)光。訓(xùn)練期間,模型還通過用估計(jì)的陰影蒙版來強(qiáng)調(diào)高對(duì)比度陰影邊界來準(zhǔn)確修改陰影。

83,F(xiàn)rom Shadow Generation to Shadow Removal

- 陰影去除旨在恢復(fù)陰影區(qū)域中的圖像內(nèi)容。本文提出G2RShadowNet,通過僅用一組陰影圖像及其相應(yīng)的陰影掩模進(jìn)行訓(xùn)練,利用陰影生成進(jìn)行弱監(jiān)督陰影去除。

84,Intrinsic Image Harmonization

不同的圖像進(jìn)行合成時(shí),不可避免地會(huì)遇到“不協(xié)調(diào)自然”的問題,這主要是由于來自具有不同表面和光線的兩個(gè)不同圖像的前景和背景不兼容引起的。
本文尋求通過反射和照明的可分離協(xié)調(diào)來解決圖像協(xié)調(diào)任務(wù),即內(nèi)在圖像協(xié)調(diào)。方法基于自動(dòng)編碼器,將合成圖像分解為反射和照明,以進(jìn)一步單獨(dú)協(xié)調(diào)。
代碼和數(shù)據(jù)集 https://github.com/zhenglab/IntrinsicHarmony

85,Region-aware Adaptive Instance Normalization for Image Harmonization

圖像組合在照片編輯中扮演著常見、重要的角色。要獲得逼真的組合圖像,必須調(diào)整前景的外觀和視覺風(fēng)格以與背景兼容?,F(xiàn)有的用于協(xié)調(diào)合成圖像的深度學(xué)習(xí)方法直接學(xué)習(xí)從合成到真實(shí)圖像的圖像映射網(wǎng)絡(luò),而沒有明確探索背景和前景圖像之間的視覺風(fēng)格一致性。
為了確保前景和背景之間的視覺風(fēng)格一致性,本文將圖像協(xié)調(diào)視為風(fēng)格遷移問題。提出一個(gè)簡(jiǎn)單有效的區(qū)域感知自適應(yīng)實(shí)例歸一化 (RAIN) 模塊,從背景中明確地制定視覺風(fēng)格,并自適應(yīng)地將它們應(yīng)用于前景。
代碼可在 https://github.com/junleen/RainNe 獲得

86,Repurposing GANs for One-shot Semantic Part Segmentation

提出一種基于 GAN 的簡(jiǎn)單有效的語義分割方法,只需要一個(gè)標(biāo)簽示例和一個(gè)未標(biāo)記的數(shù)據(jù)集。關(guān)鍵思想是利用經(jīng)過訓(xùn)練的 GAN 從輸入圖像中提取像素級(jí)表示,并將其用作分割網(wǎng)絡(luò)的特征向量。實(shí)驗(yàn)表明,這種 GAN 衍生的表征具有極佳的區(qū)分度,可以產(chǎn)生令人驚訝的效果,與使用更多標(biāo)簽訓(xùn)練的監(jiān)督方法相媲美。
https://RepurposeGANs.github.io/

87,Semantic Segmentation with Generative Models: Semi-Supervised Learning and Strong Out-of-Domain Generalization

用有限的標(biāo)記數(shù)據(jù)訓(xùn)練深度網(wǎng)絡(luò),同時(shí)實(shí)現(xiàn)強(qiáng)大的泛化能力,是半監(jiān)督學(xué)習(xí)的目標(biāo)。針對(duì)像素標(biāo)簽預(yù)測(cè)的分割任務(wù),本文學(xué)習(xí)一個(gè)生成對(duì)抗網(wǎng)絡(luò)捕獲聯(lián)合圖像標(biāo)簽分布,它使用大量未標(biāo)記圖像進(jìn)行有效訓(xùn)練,而僅輔以少量標(biāo)記圖像。
在StyleGAN2上增加一個(gè)標(biāo)簽合成分支,測(cè)試時(shí),圖像通過編碼器和優(yōu)化,將目標(biāo)圖像嵌入到潛在空間中表示,然后推斷生成標(biāo)簽。在醫(yī)學(xué)圖像分割和人臉分割任務(wù)中表現(xiàn)良好,例如醫(yī)學(xué)成像中CT到MRI,真實(shí)人臉照片轉(zhuǎn)換到繪畫,雕塑甚至卡通和動(dòng)物的臉。
https://nvtlabs.github.io/semanticGAN/
三十八、圖像分類88,Ensembling with Deep Generative Views

最近的生成模型可以合成真實(shí)圖像,本文調(diào)查這些合成圖像是否可以應(yīng)用于真實(shí)圖像以有益于下游分析任務(wù),例如圖像分類。
使用預(yù)訓(xùn)練的生成器,首先找到與給定的真實(shí)輸入圖像對(duì)應(yīng)的潛碼,并對(duì)其做一定擾動(dòng),產(chǎn)生圖像的自然變化,然后在測(cè)試時(shí)將它們組合在一起。實(shí)驗(yàn)使用的是StyleGAN2作為生成增強(qiáng)的來源,并在涉及人臉屬性、貓臉和汽車的分類任務(wù)上研究這種設(shè)置。
本文發(fā)現(xiàn)幾個(gè)設(shè)計(jì)決策決定了這個(gè)過程的作用;擾動(dòng)、增強(qiáng)和原始圖像之間的加權(quán)以及在合成圖像上訓(xùn)練分類器都會(huì)影響結(jié)果。雖然使用基于 GAN 的增強(qiáng)在測(cè)試時(shí)集成可以提供一些小的改進(jìn),但瓶頸是 GAN 重建效率和準(zhǔn)確性,以及分類器對(duì) GAN 生成圖像中的偽影的敏感性。
三十九、圖像轉(zhuǎn)換89,Encoding in Style: a StyleGAN Encoder for Image-to-Image Translation

提出一個(gè)通用的圖像轉(zhuǎn)換框架pixel2style2pixel(pSp)。pSp框架基于編碼器網(wǎng)絡(luò),直接生成一系列風(fēng)格向量,然后將它們輸入到預(yù)訓(xùn)練的StyleGAN生成器中,從而擴(kuò)展成“W+潛在空間”。
編碼器可以直接將真實(shí)圖像嵌入到W+,而無需其它優(yōu)化。利用編碼器直接解決圖像轉(zhuǎn)換任務(wù),如此一來圖像轉(zhuǎn)換任務(wù)可定義為:從某些輸入域到潛在域的編碼問題。
此前的方法中,StyleGAN編碼器一般是“先反轉(zhuǎn)(圖像到潛碼),后編輯”。而pSp不要求輸入圖像在StyleGAN域中進(jìn)行特征表示,也可以處理各種任務(wù)。由于不需要對(duì)抗,極大地簡(jiǎn)化了訓(xùn)練過程,在沒有“圖像對(duì)(源圖像,目標(biāo)圖像)”的嚴(yán)格標(biāo)簽數(shù)據(jù)下提供更好的支持,并且通過風(fēng)格的重采樣可以支持多模式合成。
實(shí)驗(yàn)表明,pSp在各種圖像轉(zhuǎn)換任務(wù)中也表現(xiàn)出不俗的潛力。即使與專為某種任務(wù)而設(shè)計(jì)的最新解決方案相比,例如人臉轉(zhuǎn)換任務(wù),pSp也表現(xiàn)極佳。
代碼:https://github.com/eladrich/pixel2style2pixel

90,Image-to-image Translation via Hierarchical Style Disentanglement

近來,圖像轉(zhuǎn)換任務(wù)在多標(biāo)簽(不同標(biāo)簽為條件)和多風(fēng)格的生成任務(wù)上都取得了不錯(cuò)進(jìn)展。
但由于標(biāo)簽不具備獨(dú)立性、排他性,圖像轉(zhuǎn)換結(jié)果b并不能完全精準(zhǔn)可控。本文提出分層風(fēng)格分離(HiSD)來解決此問題。具體來說,將標(biāo)簽組織成分層的樹狀結(jié)構(gòu),其中獨(dú)立的標(biāo)簽,排他的屬性和解耦的風(fēng)格從上到下進(jìn)行分配。相應(yīng)地,設(shè)計(jì)一種新的轉(zhuǎn)換過程以適應(yīng)上述結(jié)構(gòu),確定可控轉(zhuǎn)換的風(fēng)格。在CelebA-HQ數(shù)據(jù)集上的定性和定量實(shí)驗(yàn)都證明HiSD的能力。
代碼:https://github.com/imlixinyang/HiSD

91,Memory-guided Unsupervised Image-to-image Translation

為實(shí)例級(jí)別的圖像轉(zhuǎn)換問題提供了一種新的無監(jiān)督框架。盡管近期一些方法通過融進(jìn)額外的物體標(biāo)簽可以取得進(jìn)一步的效果,但通常無法處理多個(gè)不同對(duì)象的的情形。主要原因是,在推理過程中,這些算法將全局整體的風(fēng)格應(yīng)用于整幅圖像,而沒有考慮實(shí)例個(gè)體與背景之間或個(gè)體內(nèi)部間的風(fēng)格差異。
為此,提出一個(gè)類別感知的內(nèi)存網(wǎng)絡(luò),可以顯示地明確說明局部風(fēng)格變化。引入一組具有讀/更新操作的鍵值存儲(chǔ)結(jié)構(gòu),以記錄類別的風(fēng)格變化,且在測(cè)試階段無需目標(biāo)檢測(cè)器就可以訪問它們。
“鍵”存儲(chǔ)的是與域無關(guān)的內(nèi)容表征,用于分配內(nèi)存,而“值”則編碼了域特定的風(fēng)格表征。還提出一種特征對(duì)比損失,以增強(qiáng)內(nèi)存的判別能力。實(shí)驗(yàn)表明,通過合并內(nèi)存,可以跨域遷移類別感知的、準(zhǔn)確的風(fēng)格表征。

92,ReMix: Towards Image-to-Image Translation with Limited Data

當(dāng)可用的訓(xùn)練數(shù)據(jù)是有限的時(shí)候,基于生成對(duì)抗網(wǎng)絡(luò)(GAN)的圖像到圖像(I2I)轉(zhuǎn)換方法通常有過擬合的現(xiàn)象發(fā)生。
這項(xiàng)工作提出一種數(shù)據(jù)增強(qiáng)方法(ReMix)來解決此問題:在特征級(jí)別上對(duì)訓(xùn)練樣本進(jìn)行插值,并根據(jù)樣本之間的感知關(guān)系提出一種新的內(nèi)容損失。生成器學(xué)習(xí)轉(zhuǎn)換中間樣本,而不是記住訓(xùn)練集,從而迫使判別器有更好的泛化能力。
只需稍作修改,即可輕松將ReMix方法合并到現(xiàn)有GAN模型中。在眾多任務(wù)上的實(shí)驗(yàn)結(jié)果表明,配備ReMix方法的GAN模型效果更佳。

93,Spatially-Adaptive Pixelwise Networks for Fast Image Translation

介紹了一種新的生成器網(wǎng)絡(luò)結(jié)構(gòu),通過將其設(shè)計(jì)為全分辨率圖像的極輕量級(jí)網(wǎng)絡(luò),以實(shí)現(xiàn)快速高效的高分辨率圖像轉(zhuǎn)換。
通過簡(jiǎn)單的仿射變換和非線性組合的操作,將每個(gè)像素都獨(dú)立于其它像素去進(jìn)行處理。主要采取三個(gè)關(guān)鍵步驟,使這種方法看似簡(jiǎn)單但極具表現(xiàn)力。
首先,逐像素網(wǎng)絡(luò)的參數(shù)在空間上是變化的,因此與簡(jiǎn)單的1×1卷積相比,它們可以表示更廣泛的函數(shù)類。其次,這些參數(shù)是由快速卷積網(wǎng)絡(luò)預(yù)測(cè)的,該網(wǎng)絡(luò)處理輸入的低分辨率表示。第三,通過拼接空間坐標(biāo)的正弦編碼來增強(qiáng)輸入圖像,為生成高質(zhì)量的圖像內(nèi)容提供了有效的歸納偏置(inductive bias)。
實(shí)驗(yàn)表明模型比此前的方法快達(dá)18倍,同時(shí)在不同的圖像分辨率和轉(zhuǎn)換中也有著極具競(jìng)爭(zhēng)力的視覺質(zhì)量。

94,The Spatially-Correlative Loss for Various Image Translation Tasks

提出一種空間相關(guān)損失,簡(jiǎn)單有效,保持場(chǎng)景結(jié)構(gòu)的一致性,同時(shí)在未配對(duì)的圖像到圖像 (I2I) 轉(zhuǎn)換任務(wù)中較好支持大幅的外觀變化。此前方法通過像素級(jí)循環(huán)一致性或特征級(jí)匹配損失,但缺陷是無法完成跨度大的域間轉(zhuǎn)換。
代碼https://github.com/lyndonzheng/F-LSeSim

95,CoCosNet v2: Full-Resolution Correspondence Learning for Image Translation

- 提出跨域圖像的全分辨率學(xué)習(xí)應(yīng)用于圖像轉(zhuǎn)換任務(wù)。采用分層策略,使用粗級(jí)的對(duì)應(yīng)關(guān)系來指導(dǎo)細(xì)級(jí)。在每個(gè)層次結(jié)構(gòu)中,可通過PatchMatch有效地計(jì)算對(duì)應(yīng)關(guān)系,在每次迭代中,ConvGRU模塊用于細(xì)化當(dāng)前,考慮更大的上下文和歷史估計(jì)。它是可微且高效的,當(dāng)與圖像轉(zhuǎn)換聯(lián)合訓(xùn)練時(shí),以無監(jiān)督的方式建立全分辨率語義對(duì)應(yīng)關(guān)系,促進(jìn)轉(zhuǎn)換質(zhì)量。

96,BalaGAN: Cross-Modal Image Translation Between Imbalanced Domains

- 圖像轉(zhuǎn)換方法往往會(huì)面臨數(shù)據(jù)域不平衡問題,例如其中一個(gè)域缺乏豐富性和多樣性。本文提出新的無監(jiān)督BalaGAN,專門用于解決域不平衡問題。針對(duì)兩個(gè)不平衡域的圖像轉(zhuǎn)換問題,利用相對(duì)更豐富數(shù)據(jù)域的潛在模態(tài)轉(zhuǎn)化為多類域的轉(zhuǎn)換問題。在沒有任何監(jiān)督的情況下分析源域并學(xué)習(xí)將其分解為一組潛在模式或類。

97,Model-Aware Gesture-to-Gesture Translation

- 手勢(shì)到手勢(shì)的轉(zhuǎn)換是一個(gè)重要、有趣的問題,在許多應(yīng)用中發(fā)揮著關(guān)鍵作用,例如手語制作。此任務(wù)涉及對(duì)源和目標(biāo)手勢(shì)之間映射的細(xì)粒度結(jié)構(gòu)理解。本文提出一種新的模型感知手勢(shì)轉(zhuǎn)換方法。

98,Saliency-Guided Image Translation

- 本文提出一種新的顯著性引導(dǎo)的圖像轉(zhuǎn)換任務(wù),其目標(biāo)是基于用戶指定的顯著性圖進(jìn)行圖像到圖像的轉(zhuǎn)換。為此,給定原始圖像和目標(biāo)顯著性圖,提出SalG-GAN,一種解耦的表示框架。
- 引入了基于顯著性圖的注意力模塊作為一種特殊的注意力機(jī)制。此外,構(gòu)建了一個(gè)合成數(shù)據(jù)集和一個(gè)帶有標(biāo)記視覺注意力的真實(shí)數(shù)據(jù)集,用于訓(xùn)練和評(píng)估SalG-GAN。

99,Teachers Do More Than Teach: Compressing Image-to-Image Models

生成對(duì)抗網(wǎng)絡(luò) (GAN) 在生成高保真圖像方面取得巨大成功,但需要巨大的計(jì)算成本和內(nèi)存使用。這項(xiàng)工作引入一個(gè)教師網(wǎng)絡(luò),提供一個(gè)搜索空間,除知識(shí)蒸餾外,還可以在其中找到有效的網(wǎng)絡(luò)架構(gòu)。壓縮網(wǎng)絡(luò)實(shí)現(xiàn)了與原始模型相似甚至更好的圖像保真度(FID,mIoU),且大大降低計(jì)算成本
https://github.com/snap-research/CAT

100,Not just Compete, but Collaborate: Local Image-to-Image Translation via Cooperative Mask Prediction

- 人臉屬性編輯任務(wù)方面,生成對(duì)抗網(wǎng)絡(luò)以及編碼器-解碼器架構(gòu)已被廣泛使用。然而因缺少標(biāo)注圖像,現(xiàn)有未配對(duì)數(shù)據(jù)集方法仍不能正確保留與屬性無關(guān)的細(xì)節(jié)。
- 這項(xiàng)工作提出一種新穎直觀的CAM一致性損失,提高了圖像轉(zhuǎn)換中的一致性。相比循環(huán)一致性損失,本文方法通過使用從判別器計(jì)算的Grad-CAM輸出,使模型進(jìn)一步保留與屬性無關(guān)的區(qū)域。

101,Smoothing the Disentangled Latent Style Space for Unsupervised Image-to-Image Translation

對(duì)圖像到圖像 (I2I) 多域轉(zhuǎn)換模型,通常也使用其語義插值結(jié)果的質(zhì)量進(jìn)行評(píng)估。然而,最先進(jìn)的模型經(jīng)常在插值過程中顯示圖像外觀的突然變化,并且在跨域插值時(shí)通常表現(xiàn)不佳。
本文提出基于三個(gè)特定損失的新訓(xùn)練方法,有助于學(xué)習(xí)平滑且解耦開的潛在風(fēng)格空間,其中:1)域內(nèi)和域間插值對(duì)應(yīng)于生成圖像的逐漸變化2)在轉(zhuǎn)換過程中更好地保留源圖像的內(nèi)容。
提出一種評(píng)估指標(biāo)來正確衡量 I2I 轉(zhuǎn)換模型的潛在風(fēng)格空間的平滑度。方法可以插入現(xiàn)有的轉(zhuǎn)換方法中,在不同數(shù)據(jù)集上大量實(shí)驗(yàn)表明,可以顯著提高生成圖像的質(zhì)量和插值的自然漸變。

102,CoMoGAN: continuous model-guided image-to-image translation

- 提出CoMoGAN,一個(gè)使用無監(jiān)督目標(biāo)數(shù)據(jù)學(xué)習(xí)非線性連續(xù)轉(zhuǎn)換的圖像轉(zhuǎn)換算法,CoMoGAN 可以與任何 GAN backbone一起使用,代碼 https://github.com/cv-rits/CoMoGAN

103,Unbalanced Feature Transport for Exemplar-based Image Translation

盡管 GAN 在具有不同條件輸入(例如語義分割和邊緣圖)的圖像轉(zhuǎn)換方面取得巨大成功,但生成具有參考風(fēng)格的高保真圖像方面,仍是巨大挑戰(zhàn)。
本文提出一個(gè)通用的圖像轉(zhuǎn)換框架,結(jié)合條件輸入和風(fēng)格示例之間特征對(duì)齊的最優(yōu)傳輸,顯著減輕了多對(duì)一特征匹配的約束,同時(shí)在條件輸入和樣本間建立準(zhǔn)確的語義對(duì)應(yīng)關(guān)系。

104,Unpaired Image-to-Image Translation via Latent Energy Transport

圖像到圖像的轉(zhuǎn)換任務(wù),旨在保留源內(nèi)容,同時(shí)在兩個(gè)視覺域之間轉(zhuǎn)換到目標(biāo)風(fēng)格。大多數(shù)方法應(yīng)用對(duì)抗學(xué)習(xí),在計(jì)算上可能很昂貴且訓(xùn)練具有挑戰(zhàn)性。本文提出,在預(yù)訓(xùn)練自動(dòng)編碼器的潛在空間中部署基于能量的模型 (EBM)。預(yù)訓(xùn)練自動(dòng)編碼器既可作為潛碼提取器,也可圖像重建,是第一個(gè)適用于1024×1024分辨率未配對(duì)圖像轉(zhuǎn)換的方法。
代碼https://github.com/YangNaruto/latentenergy-transport
105,DECOR-GAN: 3D Shape Detailization by Conditional Refinement

- 介紹用于 3D 形狀細(xì)節(jié)化的生成網(wǎng)絡(luò),風(fēng)格化幾何細(xì)節(jié):條件3D細(xì)節(jié)化生成對(duì)抗網(wǎng)絡(luò)DECOR-GAN。代碼https://github.com/czq142857/DECOR-GAN

106,Inverting Generative Adversarial Renderer for Face Reconstruction

- 給定單目人臉圖像作為輸入,3D 人臉幾何重建旨在恢復(fù)相應(yīng)的 3D 人臉mesh。這項(xiàng)工作提出一種新的生成對(duì)抗渲染器 (GAR)。

107,Normalized Avatar Synthesis Using StyleGAN and Perceptual Refinement

- 引入GAN框架,用于從一張無約束的照片中數(shù)字化一個(gè)人3D 頭像。

108,A 3D GAN for Improved Large-pose Facial Recognition

基于端到端的深度卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行人臉識(shí)別,依賴于大型人臉數(shù)據(jù)集。這需要大量類別(不同人或者身份)的人臉圖像,且對(duì)每個(gè)人都需要各種各樣的圖像,如此網(wǎng)絡(luò)才能適應(yīng)類內(nèi)差異,增加魯棒性。
然而現(xiàn)實(shí)中很難獲得這樣的數(shù)據(jù)集,特別是那些包含不同姿勢(shì)變化的數(shù)據(jù)集。生成對(duì)抗網(wǎng)絡(luò)(GAN)由于具有生成逼真的合成圖像的能力,因此提供了解決此問題的潛在方法。

- 但最近的研究表明,將姿勢(shì)與個(gè)人身份特征分離的方法效果并不好。本文嘗試將3D可變形模型合并到GAN的生成器中,生成人臉,并在不影響個(gè)人身份辨識(shí)度的情況下操縱姿勢(shì)、照明和表情。所生成的數(shù)據(jù)用在CFP和CPLFW數(shù)據(jù)集上,可增強(qiáng)人臉識(shí)別模型的性能。
109,pi-GAN: Periodic Implicit Generative Adversarial Networks for 3D-Aware Image Synthesis

- 提出一種新生成模型,稱為周期隱式生成對(duì)抗網(wǎng)絡(luò)(π-GAN 或 pi-GAN),用于高質(zhì)量的 3D 感知圖像合成。

110,StylePeople: A Generative Model of Fullbody Human Avatars

- 提出一種新的全身人體數(shù)字化方法,從一張或幾張圖像中創(chuàng)建穿著打扮的數(shù)字人。項(xiàng)目代碼 saic-violet.github.io/style-people

111,Unsupervised 3D Shape Completion through GAN Inversion

- 大多數(shù) 3D 形狀補(bǔ)全方法嚴(yán)重依賴全監(jiān)督方式。本文提出ShapeInversion,首次引入生成對(duì)抗網(wǎng)絡(luò) (GAN) 的逆映射來形狀補(bǔ)全。

猜您喜歡:
等你著陸!【GAN生成對(duì)抗網(wǎng)絡(luò)】知識(shí)星球!
CVPR 2021 | GAN的說話人驅(qū)動(dòng)、3D人臉論文匯總
CVPR 2021 | 圖像轉(zhuǎn)換 今如何?幾篇GAN論文
【CVPR 2021】通過GAN提升人臉識(shí)別的遺留難題
CVPR 2021生成對(duì)抗網(wǎng)絡(luò)GAN部分論文匯總
最新最全20篇!基于 StyleGAN 改進(jìn)或應(yīng)用相關(guān)論文
附下載 | 經(jīng)典《Think Python》中文版
附下載 | 《Pytorch模型訓(xùn)練實(shí)用教程》
附下載 | 最新2020李沐《動(dòng)手學(xué)深度學(xué)習(xí)》
附下載 |?《可解釋的機(jī)器學(xué)習(xí)》中文版
附下載 |《TensorFlow 2.0 深度學(xué)習(xí)算法實(shí)戰(zhàn)》
附下載 | 超100篇!CVPR 2020最全GAN論文梳理匯總!
附下載 |《計(jì)算機(jī)視覺中的數(shù)學(xué)方法》分享

