操b视频手机观看,在线精品自偷自拍无码,国产在线黄片,精品操逼网站,91成人精品,亚洲高清三级,伊人网成人,黄色成人网址

來源：機器之心
本文約3400字，建議閱讀8分鐘
本文介紹了來自谷歌的研究者也在OpenAI做出了探索，提出了一種文本到圖像的擴散模型 Imagen。

OpenAI：DALL?E 2 就是最好的。谷歌：看下我們 Imagen 生成的柴犬？

多模態(tài)學習近來受到重視，特別是文本 - 圖像合成和圖像 - 文本對比學習兩個方向。一些模型因在創(chuàng)意圖像生成、編輯方面的應用引起了公眾的廣泛關注，例如 OpenAI 的文本轉圖像模型 DALL?E、英偉達的 GauGAN?，F(xiàn)在，來自谷歌的研究者也在這一方向做出了探索，提出了一種文本到圖像的擴散模型 Imagen。

Imagen 結合了 Transformer 語言模型和高保真擴散模型的強大功能，在文本到圖像的合成中提供前所未有的逼真度和語言理解能力。與僅使用圖像 - 文本數(shù)據(jù)進行模型訓練的先前工作相比，Imagen 的關鍵突破在于：谷歌的研究者發(fā)現(xiàn)在純文本語料庫上預訓練的大型 LM 的文本嵌入對文本到圖像的合成顯著有效。Imagen 的文本到圖像生成可謂天馬行空，能生成多種奇幻卻逼真的有趣圖像。

比如正在戶外享受騎行的柴犬：

泰迪熊的 400 米蝶泳首秀：

狗狗照鏡子發(fā)現(xiàn)自己是只貓：

火龍果成精要打空手道了：

如果你覺得這些圖片過于魔幻，那下面這張小鳥生氣的圖就非常真實了，隔著屏幕都能感覺到它的憤怒：

我們發(fā)現(xiàn)這些圖片的分辨率都很高，像是人工精心 PS 過的。然而這些模型都出自 Imagen 這個 AI 模型之手。

Imagen 模型中包含一個 frozen T5-XXL 編碼器，用于將輸入文本映射到一系列嵌入和一個 64×64 的圖像擴散模型中，并帶有兩個超分辨率擴散模型，用于生成 256×256 和 1024×1024 的圖像。

其中，所有擴散模型都以文本嵌入序列為條件，并使用無分類器指導。借助新型采樣技術，Imagen 允許使用較大的指導權重，而不會發(fā)生樣本質量下降，使得生成的圖像具有更高的保真度、圖像與文本更加吻合。

雖然架構簡單且易于訓練，但 Imagen 產生了令人驚訝的強大結果。Imagen 在 COCO 上的零樣本 FID-30K 分數(shù)為 7.27，性能顯著優(yōu)于之前的方法（GLIDE、DALL-E 2 等），并超越了當前的 SOTA 模型 Make-A-Scene（7.27 VS 7.55）。從人工評估看，Imagen 生成的樣本在圖像文本對齊方面與 COCO captions 的參考圖像相當。

此外，研究者還提出了一種用于文本到圖像評估的文本 prompt 結構化新套件 DrawBench。DrawBench 對文本到圖像模型進行多維評估，文本 prompt 旨在探索模型的不同語義屬性。這些 prompt 包括組合性、基數(shù)、空間關系、處理復雜文本 prompt 或帶有稀有單詞的 prompt 的能力，它們包括創(chuàng)造性 prompt，這些 prompt 將模型生成高度難以置信的場景的能力擴展到訓練數(shù)據(jù)范圍之外。

借助 DrawBench，研究者進行了廣泛的人工評估，結果表明，Imagen 的性能明顯優(yōu)于其他方法。研究者進一步展示了相對于多模態(tài)嵌入（例如 CLIP），使用大型預訓練語言模型作為 Imagen 的文本編碼器具有明顯的優(yōu)勢。

論文地址：

https://gweb-research-imagen.appspot.com/paper.pdf

不過，和前段時間大火的 DALL?E 2 一樣，我們很難指望谷歌將這個模型開源。對此，有網友建議說，可以去 GitHub 上找一些「野生」復現(xiàn)來玩一玩，比如已經放出一段時間的「DALL-E 2-Pytorch」項目：

項目地址：

https://github.com/lucidrains/DALLE2-pytorch

Imagen 細節(jié)

Imagen 由一個文本編碼器和一系列條件擴散模型組成，前者將文本映射為一系列嵌入，后者將這些嵌入映射為分辨率不斷提高的圖像，如圖 Fig. A.4 所示。

預訓練文本編碼器

在構建 Imagen 的過程中，研究者探索了幾個預訓練文本編碼器：BERT、T5 和 CLIP。為了簡單起見，他們凍結了這些文本編碼器的權重。凍結有幾個優(yōu)點，例如嵌入的離線計算，這使得文本 - 圖像模型訓練期間的計算或內存占用可以忽略。

在這項工作中，研究者發(fā)現(xiàn)，擴展文本編碼器的大小可以提高文本到圖像生成的質量。他們還發(fā)現(xiàn)，雖然 T5-XXL 和 CLIP 文本編碼器在 MS-COCO 等簡單基準上性能相似，但在 DrawBench 上的圖像 - 文本對齊和圖像保真度方面，人類評估員更喜歡 T5-XXL 編碼器而不是 CLIP 文本編碼器。

擴散模型和無分類器指導

擴散模型是一類生成模型，通過迭代去噪過程，將高斯噪聲從已知的數(shù)據(jù)分布轉換為樣本。這類模型可以是有條件的，例如類標簽、文本或低分辨率圖像。

分類器指導是一種在采樣期間使用來自預訓練模型 p (c|z_t) 的梯度來提高樣本質量，同時減少條件擴散模型多樣性的技術。無分類器指導是一種替代技術，通過在訓練期間隨機丟棄 c（例如 10% 的概率），在有條件和無條件目標上聯(lián)合訓練單個擴散模型，從而避開上述預訓練模型。

較大指導權重采樣器

研究者證實了最近的文本指導擴散工作的結果，并發(fā)現(xiàn)增加無分類器指導權重可以改善圖像 - 文本對齊，但也會損害圖像保真度，產生高度飽和、不自然的圖像。他們發(fā)現(xiàn)這是由于高指導權重引起的訓練 - 測試不匹配所造成的。并且由于擴散模型在整個采樣過程中迭代地應用于其自身的輸出，采樣過程就產生了不自然的圖像。

為了解決這個問題，他們研究了靜態(tài)閾值（static thresholding）和動態(tài)閾值（dynamic thresholding）。他們發(fā)現(xiàn)，動態(tài)閾值對于提升圖像真實感和圖像 - 文本對齊能力要有效得多，特別是在使用非常大的指導權重的時候。

穩(wěn)健的擴散模型組

Imagen 利用一個 64 × 64 基本模型、兩個文本條件超分辨率擴散模型將生成的 64 × 64 圖像上采樣為 256 × 256 圖像，然后再上采樣為 1024 × 1024 圖像。具有噪聲調節(jié)增強的擴散模型組在逐步生成高保真圖像方面非常有效。

此外，研究者通過噪聲水平調節(jié)使超分辨率模型意識到添加的噪聲量，顯著提高了樣本質量，而且有助于提高超分辨率模型處理較低分辨率模型產生的 artifacts 的穩(wěn)健性。Imagen 對兩個超分辨率模型都使用了噪聲調節(jié)增強。研究者發(fā)現(xiàn)這是生成高保真圖像的關鍵。

給定調節(jié)低分辨率圖像和增強水平（aug_level，例如高斯噪聲或模糊的強度），研究者用增強（對應于 aug_level）破壞低分辨率圖像，并在 aug_level 上調節(jié)擴散模型。在訓練期間，aug_level 是隨機選擇的，而在推理期間，可以掃描它的不同值以找到最佳樣本質量。在這項研究中，研究者使用高斯噪聲作為一種增強形式，并應用類似于擴散模型中使用的正向過程的方差來保持高斯噪聲增強。

神經網絡架構

基本模型

研究者采用 U-Net 架構作為基本的 64 × 64 文本到圖像擴散模型。該網絡通過池化嵌入向量以文本嵌入為條件，加入到擴散時間步嵌入中，類似于 [16, 29] 中使用的類嵌入條件方法。通過在多分辨率的文本嵌入上添加交叉注意力，研究者進一步對整個文本嵌入序列進行了限制。此外，他們在注意力層和池化層發(fā)現(xiàn)了用于文本嵌入、可以大大提高性能的層歸一化。

超分辨率模型

對于 64 × 64→256 × 256 的超分辨率模型，研究者采用了改編自 [40,58] 的 U-Net 模型。為了提高內存效率、推理時間和收斂速度，研究者對 U-Net 模型進行了一些修改（該變體比 [40,58] 中使用的 U-Net 模型的每秒速度快 2-3 倍），并稱這種變體為 Efficient U-Net。256 × 256→1024 × 1024 的超分辨率模型是在 1024 × 1024 圖像的 64×64 → 256×256 crop 上訓練的。他們去掉了自注意力層，但保留了文本交叉注意力層，這一點是很關鍵的。

在推理過程中，模型接收完整 256 × 256 低分辨率圖像作為輸入，輸出上采樣的 1024 × 1024 圖像。注意，研究者在兩個超分辨率模型上都使用了文本交叉注意力。

DrawBench

盡管 COCO 是一個很有價值的基準，但很明顯它的 prompt 范圍是有限的，不能很好地提供對模型之間差異的洞察。因此，研究者提出了 DrawBench，這是一個綜合的、具有挑戰(zhàn)性的 prompt 集，支持文本到圖像模型的評估和比較。

DrawBench 包含 11 種類型的 prompt，用于測試模型的不同功能，比如顏色渲染、對象數(shù)量、空間關系、場景中的文本以及對象之間的非常規(guī)交互。類別中還包括復雜的 prompt，包括冗長復雜的文本描述、不常見詞匯以及拼寫錯誤的 prompt。此外也包含從 DALL-E、Gary Marcus et al. [38]、Reddit 收集的幾個 prompt 集。

在 11 個類別中，DrawBench 共包含 200 個 prompt，且在「足夠大而全面」與「足夠小而人工評估可行」之間取得了很好的平衡。圖 2 展示了來自帶有 Imagen 樣本的 DrawBench 的示例 prompt。

實驗

第 4.1 節(jié)描述了訓練細節(jié)，第 4.2 節(jié)和第 4.3 節(jié)分析了 MS-COCO 和 DrawBench 上的實驗結果，第 4.4 節(jié)總結了消融研究和主要發(fā)現(xiàn)。對于下面的所有實驗，圖像是來自 Imagen 的公平隨機樣本，沒有后期處理或重新排序。

COCO 實驗結果

研究者使用了 FID 評分對 COCO 驗證集上的 Imagen 進行了評估，結果如表 1 所示。

Imagen 以 7.27 的得分在 COCO 上實現(xiàn)了 zero-shot FID 的 SOTA 結果，超越了 DALL-E 2 及其他同期工作，甚至超過了其他在 COCO 上訓練的模型。

表 2 展示了在 COCO 驗證集上測試圖像質量和對齊的人工評估結果，包括原始 COCO 驗證集和過濾后的版本。在這個版本中，所有與人相關的參考數(shù)據(jù)都被刪除了。在沒有人的設置下，Imagen 的偏好率提高到了 43.6% ，這表明 Imagen 生成逼真人物的能力有限。在標題相似度方面，Imagen 的得分與原始的參考圖片相當，這表明 Imagen 有能力生成與 COCO 標題相一致的圖片。

DrawBench 實驗結果

使用 DrawBench，研究者將 Imagen 與 DALL-E 2 (公共版本)、 GLIDE、Latent Diffusion 和 CLIP-guided VQGAN 進行了比較。

圖 3 展示了三個模型中每一個模型對 Imagen 成對比較的人類評估結果，包括偏好模型 A、模型 B，或者不受圖像保真度和圖像文本對齊影響。可以看出，在圖文對齊和圖像保真度方面，人類評估者極其偏愛 Imagen 模型。讀者可以參考附錄 E，了解更詳細的類別對比和定性對比。

更多研究細節(jié)，可參考原論文。

編輯：王菁
校對：林亦霖

叫板DALL·E 2，預訓練大模型做編碼器，谷歌把文字轉圖像模型卷上天

叫板DALL·E 2，預訓練大模型做編碼器，谷歌把文字轉圖像模型卷上天