<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          縮小規(guī)模,OpenAI文本生成圖像新模型GLIDE用35億參數(shù)媲美DALL-E

          共 2960字,需瀏覽 6分鐘

           ·

          2021-12-23 19:32

          視學(xué)算法報(bào)道
          編輯:陳萍、小舟

          模型的參數(shù)規(guī)模并不需要那么大。


          從年初 OpenAI 刷屏社區(qū)的 DALL-E 到英偉達(dá)生成逼真攝影的 GauGAN2,文本生成圖像可謂是今年大火的一個(gè)研究方向。現(xiàn)在 OpenAI 又有了新的進(jìn)展——35 億參數(shù)的新模型 GLIDE。

          如下圖 1 所示,GLIDE 通常會(huì)生成逼真的陰影和反射,以及高質(zhì)量的紋理。此外,該模型還能夠組合多個(gè)概念(例如柯基犬、領(lǐng)結(jié)和生日帽),同時(shí)將屬性(例如顏色)綁定到這些對(duì)象。


          除了從文本生成圖像,GLIDE 還有圖像編輯功能——使用文本 prompt 修改現(xiàn)有圖像,在必要時(shí)插入新對(duì)象、陰影和反射,如下圖 2 所示。例如,在草坪上添加斑馬:


          如下圖 3 所示,GLIDE 的零樣本生成和修復(fù)復(fù)雜場(chǎng)景的能力也很強(qiáng)。


          GLIDE 還能夠?qū)⒉輬D轉(zhuǎn)換為逼真的圖像編輯。例如下圖中「一只戴著領(lǐng)結(jié)和生日帽的柯基犬」從涂鴉草圖轉(zhuǎn)換成了逼真的圖像。


          上述功能是怎樣實(shí)現(xiàn)的呢?在新模型 GLIDE 中,OpenAI 將指導(dǎo)擴(kuò)散(guided diffusion)應(yīng)用于文本生成圖像的問(wèn)題。首先該研究訓(xùn)練了一個(gè) 35 億參數(shù)的擴(kuò)散模型,使用文本編碼器以自然語(yǔ)言描述為條件,然后比較了兩種指導(dǎo)擴(kuò)散模型至文本 prompt 的方法:CLIP 指導(dǎo)和無(wú)分類(lèi)器指導(dǎo)。通過(guò)人工和自動(dòng)評(píng)估,該研究發(fā)現(xiàn)無(wú)分類(lèi)器指導(dǎo)能夠產(chǎn)生更高質(zhì)量的圖像。


          • 論文地址:https://arxiv.org/pdf/2112.10741.pdf

          • 項(xiàng)目地址:https://github.com/openai/glide-text2im


          該研究發(fā)現(xiàn)使用無(wú)分類(lèi)器指導(dǎo)模型生成的樣本既逼真又反映了廣泛的現(xiàn)實(shí)知識(shí)。人類(lèi)評(píng)估的結(jié)果表明,GLIDE 的生成結(jié)果優(yōu)于 DALL-E。

          此外,值得注意的是,DALL-E 的參數(shù)量是 120 億,而 GLIDE 僅有 35 億參數(shù),卻實(shí)現(xiàn)了更優(yōu)的性能。我們來(lái)具體看一下 GLIDE 的模型細(xì)節(jié)。

          具有 35 億參數(shù)的文本條件擴(kuò)散模型:GLIDE

          OpenAI 以 64 × 64 的圖像分辨率訓(xùn)練了一個(gè)具有 35 億參數(shù)的文本條件擴(kuò)散模型(text-conditional diffusion model ),以及一個(gè)具有 15 億參數(shù)的文本條件上采樣擴(kuò)散模型(text-conditional upsampling diffusion model),該模型將圖像分辨率提高到 256 × 256。對(duì)于 CLIP 指導(dǎo)(CLIP guidance),OpenAI 還訓(xùn)練了一個(gè)噪聲感知 64 × 64 ViT-L CLIP 模型。

          文本條件擴(kuò)散模型

          OpenAI 采用 Dhariwal & Nichol (2021) 提出的 ADM 模型架構(gòu),但使用文本條件信息對(duì)其進(jìn)行了擴(kuò)充。對(duì)于每個(gè)噪聲圖像 x_t 和相應(yīng)的文本說(shuō)明(text caption),模型對(duì) p(xt?1|xt, caption) 進(jìn)行預(yù)測(cè)。為了以文本為條件,OpenAI 首先將文本編碼為 K 個(gè) token 序列,然后將這些 token 輸入到 Transformer 模型中(Vaswani 等,2017)。這個(gè) transformer 的輸出有兩種用途:

          • 首先,使用最終的 token 嵌入代替 ADM 模型中的類(lèi)嵌入;?

          • 其次,最后一層的 token 嵌入(K 個(gè)特征向量序列)分別投影到 ADM 模型中每個(gè)注意力層,然后連接到每一層的注意力上下文。


          OpenAI 采用與 DALL-E 完全相同的數(shù)據(jù)集訓(xùn)練模型,并且使用與 Dhariwal & Nichol (2021) 提出的 ImageNet 64 × 64 模型相同的模型架構(gòu),模型通道為 512 ,從而為模型的視覺(jué)部分生成大約 23 億個(gè)參數(shù)。對(duì)于文本編碼 Transformer,OpenAI 使用 24 個(gè)殘差塊,產(chǎn)生大約 12 億個(gè)參數(shù)。

          此外,OpenAI 還訓(xùn)練了一個(gè)具有 15 億參數(shù)的上采樣擴(kuò)散模型,圖像分辨率從 64 × 64 增加到 256 × 256 。該模型同樣以文本為條件,但使用寬度為 1024 較小的文本編碼器(而不是 2048 )。

          無(wú)分類(lèi)器指導(dǎo)的微調(diào)

          模型初始訓(xùn)練完成之后,可以微調(diào)基本模型以支持無(wú)條件圖像生成。訓(xùn)練過(guò)程與預(yù)訓(xùn)練完全相同,只是 20% 的文本 token 序列被替換為空序列。通過(guò)這種方式,模型保留了生成文本條件輸出的能力,同時(shí)也可以無(wú)條件地生成圖像。

          圖像修復(fù)與編輯

          以前的圖像修復(fù)工作存在一個(gè)缺點(diǎn),即模型在采樣過(guò)程中無(wú)法看到整個(gè)上下文信息。為了獲得更好的生成效果,OpenAI 對(duì)模型進(jìn)行了微調(diào):微調(diào)時(shí),隨機(jī)擦除訓(xùn)練樣本一些區(qū)域,其余部分與掩碼通道一起作為附加條件信息輸入模型。OpenAI 對(duì)模型架構(gòu)進(jìn)行了修改,增加了四個(gè)額外的輸入通道:第二組 RGB 通道和一個(gè)掩碼通道。在微調(diào)之前,OpenAI 將這些新通道的相應(yīng)輸入權(quán)重初始化為零。對(duì)于上采樣模型,OpenAI 提供了完整的低分辨率圖像,但對(duì)于未掩碼的區(qū)域提供高分辨率圖像。

          CLIP 指導(dǎo)擴(kuò)散

          鑒于分類(lèi)器指導(dǎo)和 CLIP 指導(dǎo)的相似性,應(yīng)用 CLIP 來(lái)提高文本條件擴(kuò)散模型的生成質(zhì)量似乎很自然。為了更好地匹配 Dhariwal & Nichol (2021) 的分類(lèi)器指導(dǎo)技術(shù),OpenAI 使用圖像編碼器訓(xùn)練噪聲感知 CLIP 模型,該圖像編碼器接收噪聲圖像,以 64 × 64 的分辨率訓(xùn)練模型。

          實(shí)驗(yàn)結(jié)果

          該研究將 GLIDE 與之前的 SOTA 模型進(jìn)行了定性比較,結(jié)果如下圖 5 所示。GLIDE 生成了更逼真的圖像,并且無(wú)需 CLIP 重排序或挑選。


          定量結(jié)果

          該研究首先通過(guò)查看圖像質(zhì)量保真度權(quán)衡的帕累托前沿來(lái)評(píng)估無(wú)分類(lèi)器指導(dǎo)和 CLIP 指導(dǎo)之間的差異。下圖 6 在 64 × 64 分辨率下評(píng)估了這兩種方法的零樣本 MS-COCO 生成。


          該研究設(shè)置的人類(lèi)評(píng)估實(shí)驗(yàn)如下:

          讓人們觀察兩個(gè) 256 × 256 的圖像,并按如下兩條標(biāo)準(zhǔn)選出一個(gè)更優(yōu)的圖像:要么更好地匹配給定的標(biāo)題,要么看起來(lái)更逼真。評(píng)估結(jié)果如下圖 7 所示。



          并將人類(lèi)評(píng)估的結(jié)果和下表 1 的結(jié)果進(jìn)行比較,然后該研究發(fā)現(xiàn)人類(lèi)和 CLIP 指導(dǎo)給出的分?jǐn)?shù)不一致,因此無(wú)分類(lèi)器指導(dǎo)能夠產(chǎn)生與人類(lèi)認(rèn)知一致的更高質(zhì)量生成結(jié)果。



          此外,研究者還將 GLIDE 與其他文本生成圖像模型進(jìn)行了比較,結(jié)果如下表 2 所示。GLIDE 在 MS-COCO 上獲得有競(jìng)爭(zhēng)力的 FID。


          最后,該研究使用上述人類(lèi)評(píng)估實(shí)驗(yàn)設(shè)置比較了 GLIDE 和 DALL-E ,結(jié)果如下表 3 所示。注意到 GLIDE 的訓(xùn)練使用與 DALL-E 大致相同的訓(xùn)練計(jì)算,但模型要小得多(35 億參數(shù) VS120 億參數(shù)),所需采樣延遲更少,并且不需要 CLIP 重排序。


          ??THE END?

          轉(zhuǎn)載請(qǐng)聯(lián)系原公眾號(hào)獲得授權(quán)

          投稿或?qū)で髨?bào)道:[email protected]


          點(diǎn)個(gè)在看 paper不斷!

          瀏覽 47
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  在线观看国产精品自拍 | 久久夜色AV | 欧美成人网站免费在线观看 | 色偷偷男人天堂 | 在线观看中文字幕第一页 |