作者:Chitwan Saharia等
文章來源 機器之心 編譯
OpenAI:DALL?E 2 就是最好的。谷歌:看下我們 Imagen 生成的柴犬?
多模態(tài)學習近來受到重視,特別是文本 - 圖像合成和圖像 - 文本對比學習兩個方向。一些模型因在創(chuàng)意圖像生成、編輯方面的應(yīng)用引起了公眾的廣泛關(guān)注,例如 OpenAI 的文本轉(zhuǎn)圖像模型 DALL?E、英偉達的 GauGAN?,F(xiàn)在,來自谷歌的研究者也在這一方向做出了探索,提出了一種文本到圖像的擴散模型 Imagen。
Imagen 結(jié)合了 Transformer 語言模型和高保真擴散模型的強大功能,在文本到圖像的合成中提供前所未有的逼真度和語言理解能力。與僅使用圖像 - 文本數(shù)據(jù)進行模型訓練的先前工作相比,Imagen 的關(guān)鍵突破在于:谷歌的研究者發(fā)現(xiàn)在純文本語料庫上預訓練的大型 LM 的文本嵌入對文本到圖像的合成顯著有效。Imagen 的文本到圖像生成可謂天馬行空,能生成多種奇幻卻逼真的有趣圖像。



如果你覺得這些圖片過于魔幻,那下面這張小鳥生氣的圖就非常真實了,隔著屏幕都能感覺到它的憤怒:
我們發(fā)現(xiàn)這些圖片的分辨率都很高,像是人工精心 PS 過的。然而這些模型都出自 Imagen 這個 AI 模型之手。Imagen 模型中包含一個 frozen T5-XXL 編碼器,用于將輸入文本映射到一系列嵌入和一個 64×64 的圖像擴散模型中,并帶有兩個超分辨率擴散模型,用于生成 256×256 和 1024×1024 的圖像。
其中,所有擴散模型都以文本嵌入序列為條件,并使用無分類器指導。借助新型采樣技術(shù),Imagen 允許使用較大的指導權(quán)重,而不會發(fā)生樣本質(zhì)量下降,使得生成的圖像具有更高的保真度、圖像與文本更加吻合。雖然架構(gòu)簡單且易于訓練,但 Imagen 產(chǎn)生了令人驚訝的強大結(jié)果。Imagen 在 COCO 上的零樣本 FID-30K 分數(shù)為 7.27,性能顯著優(yōu)于之前的方法(GLIDE、DALL-E 2 等),并超越了當前的 SOTA 模型 Make-A-Scene(7.27 VS 7.55)。從人工評估看,Imagen 生成的樣本在圖像文本對齊方面與 COCO captions 的參考圖像相當。



此外,研究者還提出了一種用于文本到圖像評估的文本 prompt 結(jié)構(gòu)化新套件 DrawBench。DrawBench 對文本到圖像模型進行多維評估,文本 prompt 旨在探索模型的不同語義屬性。這些 prompt 包括組合性、基數(shù)、空間關(guān)系、處理復雜文本 prompt 或帶有稀有單詞的 prompt 的能力,它們包括創(chuàng)造性 prompt,這些 prompt 將模型生成高度難以置信的場景的能力擴展到訓練數(shù)據(jù)范圍之外。借助 DrawBench,研究者進行了廣泛的人工評估,結(jié)果表明,Imagen 的性能明顯優(yōu)于其他方法。研究者進一步展示了相對于多模態(tài)嵌入(例如 CLIP), 使用大型預訓練語言模型作為 Imagen 的文本編碼器具有明顯的優(yōu)勢。
論文地址:https://gweb-research-imagen.appspot.com/paper.pdf不過,和前段時間大火的 DALL?E 2 一樣,我們很難指望谷歌將這個模型開源。對此,有網(wǎng)友建議說,可以去 GitHub 上找一些「野生」復現(xiàn)來玩一玩,比如已經(jīng)放出一段時間的「DALL-E 2-Pytorch」項目:
項目地址:https://github.com/lucidrains/DALLE2-pytorchImagen 由一個文本編碼器和一系列條件擴散模型組成,前者將文本映射為一系列嵌入,后者將這些嵌入映射為分辨率不斷提高的圖像,如圖 Fig. A.4 所示。在構(gòu)建 Imagen 的過程中,研究者探索了幾個預訓練文本編碼器:BERT、T5 和 CLIP。為了簡單起見,他們凍結(jié)了這些文本編碼器的權(quán)重。凍結(jié)有幾個優(yōu)點,例如嵌入的離線計算,這使得文本 - 圖像模型訓練期間的計算或內(nèi)存占用可以忽略。在這項工作中,研究者發(fā)現(xiàn),擴展文本編碼器的大小可以提高文本到圖像生成的質(zhì)量。他們還發(fā)現(xiàn),雖然 T5-XXL 和 CLIP 文本編碼器在 MS-COCO 等簡單基準上性能相似,但在 DrawBench 上的圖像 - 文本對齊和圖像保真度方面,人類評估員更喜歡 T5-XXL 編碼器而不是 CLIP 文本編碼器。擴散模型是一類生成模型,通過迭代去噪過程,將高斯噪聲從已知的數(shù)據(jù)分布轉(zhuǎn)換為樣本。這類模型可以是有條件的,例如類標簽、文本或低分辨率圖像。分類器指導是一種在采樣期間使用來自預訓練模型 p (c|z_t) 的梯度來提高樣本質(zhì)量,同時減少條件擴散模型多樣性的技術(shù)。無分類器指導是一種替代技術(shù),通過在訓練期間隨機丟棄 c(例如 10% 的概率),在有條件和無條件目標上聯(lián)合訓練單個擴散模型,從而避開上述預訓練模型。研究者證實了最近的文本指導擴散工作的結(jié)果,并發(fā)現(xiàn)增加無分類器指導權(quán)重可以改善圖像 - 文本對齊,但也會損害圖像保真度,產(chǎn)生高度飽和、不自然的圖像。他們發(fā)現(xiàn)這是由于高指導權(quán)重引起的訓練 - 測試不匹配所造成的。并且由于擴散模型在整個采樣過程中迭代地應(yīng)用于其自身的輸出,采樣過程就產(chǎn)生了不自然的圖像。為了解決這個問題,他們研究了靜態(tài)閾值(static thresholding)和動態(tài)閾值(dynamic thresholding)。他們發(fā)現(xiàn),動態(tài)閾值對于提升圖像真實感和圖像 - 文本對齊能力要有效得多,特別是在使用非常大的指導權(quán)重的時候。Imagen 利用一個 64 × 64 基本模型、兩個文本條件超分辨率擴散模型將生成的 64 × 64 圖像上采樣為 256 × 256 圖像,然后再上采樣為 1024 × 1024 圖像。具有噪聲調(diào)節(jié)增強的擴散模型組在逐步生成高保真圖像方面非常有效。此外,研究者通過噪聲水平調(diào)節(jié)使超分辨率模型意識到添加的噪聲量,顯著提高了樣本質(zhì)量,而且有助于提高超分辨率模型處理較低分辨率模型產(chǎn)生的 artifacts 的穩(wěn)健性。Imagen 對兩個超分辨率模型都使用了噪聲調(diào)節(jié)增強。研究者發(fā)現(xiàn)這是生成高保真圖像的關(guān)鍵。給定調(diào)節(jié)低分辨率圖像和增強水平(aug_level,例如高斯噪聲或模糊的強度),研究者用增強(對應(yīng)于 aug_level)破壞低分辨率圖像,并在 aug_level 上調(diào)節(jié)擴散模型。在訓練期間,aug_level 是隨機選擇的,而在推理期間,可以掃描它的不同值以找到最佳樣本質(zhì)量。在這項研究中,研究者使用高斯噪聲作為一種增強形式,并應(yīng)用類似于擴散模型中使用的正向過程的方差來保持高斯噪聲增強。神經(jīng)網(wǎng)絡(luò)架構(gòu)研究者采用 U-Net 架構(gòu)作為基本的 64 × 64 文本到圖像擴散模型。該網(wǎng)絡(luò)通過池化嵌入向量以文本嵌入為條件,加入到擴散時間步嵌入中,類似于 [16, 29] 中使用的類嵌入條件方法。通過在多分辨率的文本嵌入上添加交叉注意力,研究者進一步對整個文本嵌入序列進行了限制。此外,他們在注意力層和池化層發(fā)現(xiàn)了用于文本嵌入、可以大大提高性能的層歸一化。對于 64 × 64→256 × 256 的超分辨率模型,研究者采用了改編自 [40,58] 的 U-Net 模型。為了提高內(nèi)存效率、推理時間和收斂速度,研究者對 U-Net 模型進行了一些修改(該變體比 [40,58] 中使用的 U-Net 模型的每秒速度快 2-3 倍),并稱這種變體為 Efficient U-Net。256 × 256→1024 × 1024 的超分辨率模型是在 1024 × 1024 圖像的 64×64 → 256×256 crop 上訓練的。他們?nèi)サ袅俗宰⒁饬?,但保留了文本交叉注意力層,這一點是很關(guān)鍵的。在推理過程中,模型接收完整 256 × 256 低分辨率圖像作為輸入,輸出上采樣的 1024 × 1024 圖像。注意,研究者在兩個超分辨率模型上都使用了文本交叉注意力。盡管 COCO 是一個很有價值的基準,但很明顯它的 prompt 范圍是有限的,不能很好地提供對模型之間差異的洞察。因此,研究者提出了 DrawBench,這是一個綜合的、具有挑戰(zhàn)性的 prompt 集,支持文本到圖像模型的評估和比較。DrawBench 包含 11 種類型的 prompt,用于測試模型的不同功能,比如顏色渲染、對象數(shù)量、空間關(guān)系、場景中的文本以及對象之間的非常規(guī)交互。類別中還包括復雜的 prompt,包括冗長復雜的文本描述、不常見詞匯以及拼寫錯誤的 prompt。此外也包含從 DALL-E、Gary Marcus et al. [38]、Reddit 收集的幾個 prompt 集。在 11 個類別中,DrawBench 共包含 200 個 prompt,且在「足夠大而全面」與「足夠小而人工評估可行」之間取得了很好的平衡。圖 2 展示了來自帶有 Imagen 樣本的 DrawBench 的示例 prompt。
第 4.1 節(jié)描述了訓練細節(jié),第 4.2 節(jié)和第 4.3 節(jié)分析了 MS-COCO 和 DrawBench 上的實驗結(jié)果,第 4.4 節(jié)總結(jié)了消融研究和主要發(fā)現(xiàn)。對于下面的所有實驗,圖像是來自 Imagen 的公平隨機樣本,沒有后期處理或重新排序。研究者使用了 FID 評分對 COCO 驗證集上的 Imagen 進行了評估,結(jié)果如表 1 所示。
Imagen 以 7.27 的得分在 COCO 上實現(xiàn)了 zero-shot FID 的 SOTA 結(jié)果,超越了 DALL-E 2 及其他同期工作,甚至超過了其他在 COCO 上訓練的模型。表 2 展示了在 COCO 驗證集上測試圖像質(zhì)量和對齊的人工評估結(jié)果,包括原始 COCO 驗證集和過濾后的版本。在這個版本中,所有與人相關(guān)的參考數(shù)據(jù)都被刪除了。在沒有人的設(shè)置下,Imagen 的偏好率提高到了 43.6% ,這表明 Imagen 生成逼真人物的能力有限。在標題相似度方面,Imagen 的得分與原始的參考圖片相當,這表明 Imagen 有能力生成與 COCO 標題相一致的圖片。使用 DrawBench,研究者將 Imagen 與 DALL-E 2 (公共版本)、 GLIDE、Latent Diffusion 和 CLIP-guided VQGAN 進行了比較。圖 3 展示了三個模型中每一個模型對 Imagen 成對比較的人類評估結(jié)果,包括偏好模型 A、模型 B,或者不受圖像保真度和圖像文本對齊影響??梢钥闯觯趫D文對齊和圖像保真度方面,人類評估者極其偏愛 Imagen 模型。讀者可以參考附錄 E,了解更詳細的類別對比和定性對比。
猜您喜歡:
拆解組新的GAN:解耦表征MixNMatch
StarGAN第2版:多域多樣性圖像生成
附下載 |?《可解釋的機器學習》中文版
附下載 |《TensorFlow 2.0 深度學習算法實戰(zhàn)》
附下載 |《計算機視覺中的數(shù)學方法》分享
《基于深度學習的表面缺陷檢測方法綜述》
《零樣本圖像分類綜述: 十年進展》
《基于深度神經(jīng)網(wǎng)絡(luò)的少樣本學習綜述》