點擊上方“機器學(xué)習(xí)與生成對抗網(wǎng)絡(luò)”,關(guān)注星標(biāo)
獲取有趣、好玩的前沿干貨!
來源:Facebook AI 編輯:LRS 侵刪
【新智元導(dǎo)讀】GAN模型好是好,但就是對訓(xùn)練數(shù)據(jù)的要求太高,并且在場景和物體的語義組合時容易出現(xiàn)不合常理的生成圖像,導(dǎo)致一眼假!最近Facebook發(fā)布了一個IC-GAN模型,遷移能力號稱史上最強,能把各種場景和物體組合起來,訓(xùn)練集中沒出現(xiàn)過的也能完美復(fù)原!甚至把雪地和駱駝放一起都毫無違和感!
生成對抗網(wǎng)絡(luò) (GAN) 在圖像生成領(lǐng)域可以說是最強大的 AI 模型,無論是逼真的圖片、抽象的拼貼畫、風(fēng)格遷移都不在話下。但GAN 也有神經(jīng)網(wǎng)絡(luò)模型所共有的致命缺點,就是具有局限性,通常只能生成與訓(xùn)練數(shù)據(jù)集密切相關(guān)的物體或場景的圖像。例如,在汽車圖像上訓(xùn)練的 GAN 在生成汽車相關(guān)圖像時可以做到特別逼真,但可能讓它生成鮮花、動物之類的模型就會一眼假,因為生成的圖像可能會違反物理常識等。Facebook AI Research 為了解決這個問題,提出了一個新模型Instance-Conditioned GAN (IC-GAN) ,可以生成逼真的、沒有見過的圖像組合。https://arxiv.org/abs/2109.05070例如雪和駱駝這種照片或者在城市中的斑馬,可以無縫銜接起來。研究人員從核密度估計(kernel density estimation, KDE)技術(shù)中得到啟發(fā),引入了一種非參數(shù)化方法來建模復(fù)雜數(shù)據(jù)集的分布。KDE是一種非參數(shù)密度估計器,以參數(shù)化核的混合形式對每個訓(xùn)練數(shù)據(jù)點周圍的密度進(jìn)行建模。IC-GAN可以看作是一種混合密度估計器,其中每個分量都是通過對訓(xùn)練實例進(jìn)行條件化得到的。然而與KDE不同的是,IC-GAN 沒有顯式地對數(shù)據(jù)概率進(jìn)行建模,而是采用了一種對抗性的方法,其中我們使用一個神經(jīng)網(wǎng)絡(luò)隱式地對局部密度進(jìn)行建模,該神經(jīng)網(wǎng)絡(luò)將條件實例和噪聲向量作為輸入。因此,IC-GAN中的內(nèi)核不再獨立于我們所處理的數(shù)據(jù)點,我們通過選擇實例的鄰域大小來控制平滑度,而不是內(nèi)核帶寬參數(shù),我們從中采樣真實樣本以饋送到鑒別器。IC-GAN 將數(shù)據(jù)流形劃分為由數(shù)據(jù)點及其最近鄰描述的重疊鄰域的混合物,IC-GAN模型能夠?qū)W習(xí)每個數(shù)據(jù)點周圍的分布。通過在條件實例周圍選擇一個足夠大的鄰域,可以避免將數(shù)據(jù)過度劃分為小的聚類簇。當(dāng)給定一個具有M個數(shù)據(jù)樣本的未標(biāo)記數(shù)據(jù)集的嵌入函數(shù)f,首先使用無監(jiān)督或自我監(jiān)督訓(xùn)練得到f來提取實例特征(instance features)。然后使用余弦相似度為每個數(shù)據(jù)樣本定義k個最近鄰的集合。使用生成器隱式地模擬條件分布p(x | hi) 時,生成器從單位高斯先驗z~ N(0, 1)變換樣本從條件分布中抽取樣本x,其中hi是從訓(xùn)練數(shù)據(jù)中抽取的實例xi的特征向量。在IC-GAN中,采用對抗式方法來訓(xùn)練生成器,因此生成器與判別器可以聯(lián)合訓(xùn)練,判別器用來區(qū)分hi的真實相鄰節(jié)點和生成的相鄰點。對于每個hi,真實鄰居都從Ai中均勻采樣。生成器 G和判別器 D都參與了一個兩人最小-最大博弈,在博弈中,二者試圖找到目標(biāo)的納什均衡的等式。在訓(xùn)練IC-GAN時,使用所有可用的訓(xùn)練數(shù)據(jù)點來微調(diào)模型。在推理時,與KDE等非參數(shù)密度估計方法一樣,IC-GAN的生成器也需要實例特征,這些特征可能來自于訓(xùn)練分布或不同的分布。并且這種方法可以擴(kuò)展到具有類條件(class condition)的生成上。通過在類標(biāo)簽y上添加一個額外的生成器和判別器,可以讓IC-GAN 用于有類條件的生成。IC-GAN 通過向生成器和判別器提供實例的表示作為額外的輸入,并通過使用實例的鄰居作為鑒別器的真實樣本,學(xué)習(xí)對數(shù)據(jù)點(也稱為實例)的鄰域的分布建模。與對離散簇索引進(jìn)行條件處理不同,對實例表示進(jìn)行條件處理自然會導(dǎo)致生成器為相似實例生成相似樣本。并且一旦訓(xùn)練完成,IC-GAN可以通過在推理時簡單地交換條件實例,輕松地遷移到訓(xùn)練期間未看到的其他數(shù)據(jù)集。實驗部分研究人員使用了ImageNet和COCO Stuff數(shù)據(jù)集,實驗結(jié)果表明,與無條件模型和無監(jiān)督數(shù)據(jù)分割基線相比,IC-GAN顯著提高了性能。非選擇性的基線模型BigGAN 是通過將訓(xùn)練集中的所有標(biāo)簽設(shè)置為零來訓(xùn)練的,IC-GAN在FID和IS分?jǐn)?shù)方面均以64×64和128×128分辨率超過了所有以前的方法,并可以在高分辨率下生成更高的質(zhì)量的圖像。在進(jìn)行遷移實驗時,首先使用ImageNet上使用BigGAN架構(gòu)訓(xùn)練IC-GAN,并在測試時使用COCO Stuff實例生成圖像,這種數(shù)據(jù)分割模式都包含未見過的對象組合方式。在ImageNet上訓(xùn)練的IC-GAN在所有分割方面都優(yōu)于在COCO Stuff上訓(xùn)練的相同模型:在128分辨率下8.5比16.8訓(xùn)練FID。為了研究ImageNet和COCO Stuff數(shù)據(jù)分布的接近程度,研究人員以128×128分辨率計算了兩個數(shù)據(jù)集的實際數(shù)據(jù)序列分割之間的FID 得分為37.2。因此,IC-GAN的顯著遷移能力不能用數(shù)據(jù)集的相似性來解釋,而可以歸因于ImageNet預(yù)先訓(xùn)練的特征提取器和生成器的有效性。將COCO Stuff中的條件實例替換為ImageNet中的條件實例時,可以得到43.5的訓(xùn)練FID分?jǐn)?shù),強調(diào)了通過改變條件實例可以實現(xiàn)的重要分布遷移。研究人員將IC-GAN擴(kuò)展到類條件情況,并在ImageNet上顯示語義可控生成和可比的量化結(jié)果。類條件IC-GAN在FID和所有分辨率方面都優(yōu)于BigGAN,除了FID在128×128分辨率下的分?jǐn)?shù)。與BigGAN不同,IC-GAN可以通過固定實例特征和交換類條件,或者通過固定類條件和交換實例特征來控制生成圖像的語義。生成的圖像保留了類標(biāo)簽和實例的語義,可以在相似的背景下生成不同的狗品種,或在雪地中生成駱駝,在ImageNet中屬于未知場景。憑借這些新功能,IC-GAN 可用于創(chuàng)建新的視覺示例,以擴(kuò)充數(shù)據(jù)集以包含不同的對象和場景;為藝術(shù)家和創(chuàng)作者提供更廣泛、更有創(chuàng)意的 AI 生成內(nèi)容;并推進(jìn)高質(zhì)量圖像生成的研究。
參考資料:
https://ai.facebook.com/blog/instance-conditioned-gans/
猜您喜歡:
等你著陸!【GAN生成對抗網(wǎng)絡(luò)】知識星球!
CVPR 2021專題1:GAN的改進(jìn)
CVPR 2021 | GAN的說話人驅(qū)動、3D人臉論文匯總
CVPR 2021 | 圖像轉(zhuǎn)換 今如何?幾篇GAN論文
【CVPR 2021】通過GAN提升人臉識別的遺留難題
CVPR 2021生成對抗網(wǎng)絡(luò)GAN部分論文匯總
經(jīng)典GAN不得不讀:StyleGAN
最新最全20篇!基于 StyleGAN 改進(jìn)或應(yīng)用相關(guān)論文
超100篇!CVPR 2020最全GAN論文梳理匯總!
附下載 | 《Python進(jìn)階》中文版
附下載 | 經(jīng)典《Think Python》中文版
附下載 | 《Pytorch模型訓(xùn)練實用教程》
附下載 | 最新2020李沐《動手學(xué)深度學(xué)習(xí)》
附下載 | 《可解釋的機器學(xué)習(xí)》中文版
附下載 |《TensorFlow 2.0 深度學(xué)習(xí)算法實戰(zhàn)》
附下載 | 超100篇!CVPR 2020最全GAN論文梳理匯總!
附下載 |《計算機視覺中的數(shù)學(xué)方法》分享