這個GAN沒見過豬,卻能把狗變成豬
點擊上方“視學算法”,選擇加"星標"或“置頂”
重磅干貨,第一時間送達
豐色 發(fā)自 凹非寺
量子位 報道 | 公眾號 QbitAI
不用成千上萬張目標圖片訓練,就能讓GAN生成你想要的圖片,有可能嗎?
還真有可能!
來自特拉維夫大學和英偉達的研究人員成功地盲訓出領域自適應的圖像生成模型——StyleGAN-NADA。
也就是只需用簡單地一個或幾個字描述,一張目標領域的圖像也不需要,StyleGAN-NADA就能在幾分鐘內訓練出你想要的圖片:
比如現(xiàn)在在幾張狗狗的基礎圖片上輸入“Sketch”,不到1分鐘,一張張草圖風格狗的圖片就出來了。(視頻沒有聲音可放心“食用”)
再比如在人像上給出文字“Pixar”,就能生成皮克斯風格的圖片:

各種人像風格都可以:

甚至把狗變成豬也行:

問題來了,AI不可能生成它完全沒有見過的照片,但是又不給它參考照片,那怎么滿足要求呢?
基于CLIP
答案就是借助CLIP的語義能力。
CLIP是OpenAI提出的根據文字生成圖片的DALL模型的圖像分類模塊,可以根據文字描述給圖片的匹配程度打分。
今年年初,就有人用CLIP做出了一個用“大白話”檢索圖片的功能,效果還挺驚艷的。
△輸入“The word love written on the wall”的搜索結果
總的來說,StyleGAN-NADA的訓練機制包含兩個緊密相連的生成器Gfrozen和Gtrain,它倆都使用了StyleGAN2的體系結構,并共享同一個映射網絡,因此也具有同一個隱空間(latent space)和隱碼(latent code),所以它們在最開始生成的圖像是一樣的。

首先使用在單個源域(例如人臉、狗、教堂或汽車數據集)上預訓練的模型權重初始化這兩個生成器。
由于最終目標是生成一個風格不一樣的圖像,那就要更改其中一個成對生成器的域,同時保持另一個作為參考域。
具體的話就是Gfrozen的權重保持不變,而Gtrain的權重通過優(yōu)化和迭代層凍結(iterative layer-freezing)方案進行修改。
而Gtrain的域在通過用戶提供的文本方向進行更改(shift)的同時,會保持共享隱空間(latent space)。
具體怎么“更改”呢?
這就用到了一組基于CLIP的損失(loss)和“分層凍結”(layer-freezing)方案。
該方案可以自適應地確定在每次迭代訓練中最相關的子層、并“凍結”其余層來提高訓練穩(wěn)定性保證效果。下面就詳細介紹一下這兩個方法。
基于CLIP的損失(loss)
StyleGAN-NADA依靠預先訓練的CLIP作目標域的唯一監(jiān)督來源。為了有效地從CLIP中提取“知識”,一共用了三種損失算法:
(1)負責確定在每次迭代中訓練哪個子集層的全局目標損失 (Global CLIP loss);
(2)旨在保持多樣性的局部定向損失 (Directional CLIP loss);
(3)以及防止圖像生成不必要的語義偽影的嵌入范數損失 (Embedding-norm Loss)。
△ 局部定向損失要求源/目標圖像/文字的CLIP-space方向一致
“分層凍結”(layer-freezing)
此機制分為兩階段:
(1)選層階段,保持所有網絡權重不變并對一組隱碼進行優(yōu)化,然后選擇變化最顯著的一層(優(yōu)化使用目標域文本描述驅動的全局CLIP損失進行);
(2)優(yōu)化階段,“解凍”選定層的權重,然后使用定向CLIP損失進行優(yōu)化和更改。

大多數訓練只需幾分鐘就可完成
首先,該模型可以實現(xiàn)范圍廣泛的域外自適應,從紋理變化到大的形狀修改,從現(xiàn)實到魔幻風格……甚至包括一些收集高質量數據成本很高的目標域。
其次,所有的這些圖片的生成都只需給一個簡單的文字描述,除了極端情況,大多數訓練只需幾分鐘就能完成。
對于基于紋理的修改目標,該模型通常需要300次迭代,batch size為2,在一個NVIDIA V100 GPU上訓練大約3分鐘。在某些情況下(比如從“照片”到“草圖”),訓練只需不到一分鐘的時間。
然后,所有的實驗用的就是這個完整當然模型,沒有添加任何latent mapper。研究人員發(fā)現(xiàn),對于純粹是基于樣式的圖像生成,模型需要跨所有層進行訓練,比如下面這種:

而對于較小的形狀修改,則只需訓練大約2/3數量的層數就能折中保持訓練時間和效果:

最后,將該模型與StyleCLIP(結合了StyleGAN和CLIP的域內圖像編輯模型)、以及只用了Gfrozen生成器的模型對比發(fā)現(xiàn),只有StyleGAN-NADA可以實現(xiàn)目標。

再將零樣本的StyleGAN-NADA與一些少樣本的圖像生成模型對比發(fā)現(xiàn),別的都要么過擬合要么崩潰(MineGAN更是只記住了訓練集圖像),只有StyleGAN-NADA在保持多樣性的情況下成功生成(但它也有偽影出現(xiàn))。

下面是消融實驗:
△ 通過訓練latent mapper可以進一步提高生成質量
ps.在論文的最后,研究人員表示:
由于這項技術,也許在不久的將來,這類圖像生成的工作將不再受到訓練數據的約束,而只取決于我們的創(chuàng)造力。
論文地址:
https://arxiv.org/abs/2108.00946
GitHub地址:
https://github.com/rinongal/StyleGAN-nada
參考鏈接:
https://stylegan-nada.github.io/
— 完 —
本文系網易新聞?網易號特色內容激勵計劃簽約賬號【量子位】原創(chuàng)內容,未經賬號授權,禁止隨意轉載。

點個在看 paper不斷!

