新智元報(bào)道

編輯：LRS

【新智元導(dǎo)讀】大藝術(shù)家重磅升級(jí)！最近OpenAI發(fā)布升級(jí)版DALL·E 2，不僅分辨率提升了4倍，準(zhǔn)確率更高，業(yè)務(wù)也更廣了：除了生成圖像，還能二次創(chuàng)作！

2021年1月，OpenAI放了一個(gè)大招：DALL-E模型，讓自然語(yǔ)言和圖像成功牽手，輸入一段不管多離譜的文本，都能生成圖片！

比如經(jīng)典的「牛油果形狀的扶手椅」，還有新奇生物「一個(gè)長(zhǎng)頸鹿烏龜」。

當(dāng)時(shí)看著已經(jīng)夠神奇了吧？

時(shí)隔一年，OpenAI結(jié)合另一個(gè)多模態(tài)模型CLIP，發(fā)布了第二個(gè)版本DALL·E 2！

和上一代相比，DALL·E 2更神奇，簡(jiǎn)直就是直接從二次元簡(jiǎn)筆畫(huà)走向超高清大圖：分辨率提升四倍，從256x256提升到了1024 x 1024，并且生成圖像的準(zhǔn)確率也更高！

比如以「用克洛德·莫奈風(fēng)格畫(huà)一幅狐貍在日出時(shí)坐在田野里」為題目，一眼就能看出二者的差距。（a painting of a fox sitting in a field at sunrise in the style of Claude Monet）

DALL·E 2的生成的范圍也更廣，比如寫(xiě)實(shí)主義的宇航員騎馬（An astronaut + riding a horse + in a photorealistic style），安排！在山上、外太空、草地等等，各種場(chǎng)景一應(yīng)俱全。

也可以用鉛繪風(fēng)格畫(huà)出來(lái)（An astronaut + riding a horse + as a pencil drawing）

還有用針織羊毛做的、長(zhǎng)得像妖怪的一碗湯?。ˋ bowl of soup + that looks like a monster + knitted out of wool）

Dall·E 2還可以從自然語(yǔ)言的標(biāo)題中對(duì)現(xiàn)有圖像進(jìn)行編輯，并且在添加和刪除元素時(shí)還會(huì)考慮陰影、反射和紋理。

比如在畫(huà)里加一條小狗，毫無(wú)違和感。

還可以給定一幅畫(huà)作為題目，讓Dall·E 2再自己重新創(chuàng)作一幅圖。

除了官方的例子外，也有網(wǎng)友曬出了自己試玩Dall·E 2生成的圖像，比如玩滑板的熊貓靚仔。

申請(qǐng)鏈接：https://labs.openai.com/waitlist

目前Dall·E 2還處于研究狀態(tài)，還沒(méi)有正式對(duì)外提供API，但以O(shè)penAI一貫對(duì)自己的嚴(yán)標(biāo)準(zhǔn)、高道德要求，肯定也少不了在模型開(kāi)發(fā)和部署上的限制來(lái)防止模型被濫用。

盡管Dall·E 2能繪制所有你可以想象到的內(nèi)容，但OpenAI還是在功能上對(duì)模型進(jìn)行了限制，主要有三點(diǎn)：

1. 阻止生成有害內(nèi)容

OpenAI 通過(guò)從訓(xùn)練數(shù)據(jù)中刪除暴力、仇恨或少兒不宜的圖像，限制了Dall·E 2產(chǎn)生這類(lèi)內(nèi)容的能力，最小化了Dall·E 2對(duì)這些概念的認(rèn)知。并且還使用一些技術(shù)手段防止生成人臉的超寫(xiě)實(shí)照片，尤其是一些公眾人物。

2. 防止濫用

內(nèi)容政策中規(guī)定，不允許用戶(hù)生成暴力、成人或政治內(nèi)容。如果過(guò)濾器識(shí)別到可能違反策略的文本提示詞或圖像上傳，系統(tǒng)將不會(huì)返回生成圖像。系統(tǒng)中還有自動(dòng)化和人工監(jiān)測(cè)系統(tǒng)防止濫用。

3. 基于學(xué)習(xí)的分階段部署

OpenAI一直與外部專(zhuān)家合作，并對(duì)一定數(shù)量的可信賴(lài)用戶(hù)開(kāi)放預(yù)覽Dall·E 2的權(quán)限，這些用戶(hù)可以幫助開(kāi)發(fā)人員了解技術(shù)的能力和限制。開(kāi)發(fā)團(tuán)隊(duì)計(jì)劃通過(guò)學(xué)習(xí)，迭代地改善安全系統(tǒng)，隨著時(shí)間的推移邀請(qǐng)更多人參與預(yù)覽。

藝術(shù)大師是怎樣煉成的？

DALL·E 2和一代同樣基于CLIP建立，不過(guò)OpenAI 研究科學(xué)家 Prafulla Dhariwal 說(shuō)，「DALL·E 1 只是從語(yǔ)言中提取了 GPT-3 的方法并將其應(yīng)用于生成圖像：將圖像壓縮成一系列單詞，并且學(xué)會(huì)了預(yù)測(cè)接下來(lái)會(huì)發(fā)生什么?！?/span>

論文地址：https://cdn.openai.com/papers/dall-e-2.pdf

訓(xùn)練數(shù)據(jù)由一個(gè)數(shù)據(jù)對(duì)（x, y）組成，其中x是圖像，y是相應(yīng)的圖像標(biāo)題。給定一張圖像x，z_i和z_t為對(duì)應(yīng)的CLIP圖像向量和文本向量。

像CLIP這樣的對(duì)比模型（Contrastive models）已經(jīng)被證明可以學(xué)習(xí)到非常魯邦的圖像表征，能夠捕捉到語(yǔ)義和風(fēng)格。

為了利用這些表征進(jìn)行圖像生成，研究人員提出了一個(gè)兩階段的模型：一個(gè)給定文本標(biāo)題生成CLIP 圖像嵌入的先驗(yàn)，以及基于條件圖像嵌入生成圖像的解碼器。

先驗(yàn)P(z_i | y)為生成在標(biāo)題y條件下的CLIP圖像向量。

解碼器P(x |z_i, y)為在CLIP圖像向量z_i和標(biāo)題y的條件下的生成圖像x.

解碼器能夠根據(jù)CLIP圖像向量來(lái)反轉(zhuǎn)圖像，而先驗(yàn)則可以讓模型學(xué)習(xí)到一個(gè)圖像向量本身的生成模型。將這兩個(gè)部分疊加起來(lái)，可以得到一個(gè)生成模型P(x|y)

因?yàn)檫@個(gè)過(guò)程是通過(guò)顛倒CLIP圖像編碼器來(lái)生成圖像，所以新模型的圖像生成stack也稱(chēng)為unCLIP.

在unCLIP的整體架構(gòu)中，虛線(xiàn)上方描述的是CLIP的訓(xùn)練過(guò)程。通過(guò)這個(gè)過(guò)程，模型學(xué)習(xí)可以學(xué)習(xí)到一個(gè)文本和圖像的聯(lián)合表示空間。虛線(xiàn)下面則描述了文本到圖像的生成過(guò)程：CLIP的文本嵌入首先被送入一個(gè)自回歸或擴(kuò)散（diffusion）先驗(yàn)，以產(chǎn)生一個(gè)圖像向量。然后這個(gè)向量被用來(lái)作為擴(kuò)散解碼器的條件，可以產(chǎn)生一個(gè)最終的生成圖像。注意，在訓(xùn)練先驗(yàn)和解碼器的過(guò)程中，CLIP模型的參數(shù)都是凍結(jié)的。

新的解碼器模型還有一個(gè)與眾不同的功能，那就是可以直接可視化CLIP圖像編碼器所看到的東西來(lái)探索CLIP的潛空間！

比如用CLIP對(duì)一幅圖像進(jìn)行編碼，然后用擴(kuò)散解碼器對(duì)其圖像向量進(jìn)行解碼，就能得到圖像的變化，這些變化就可以告訴我們哪些信息在CLIP圖像向量中被捕獲（在不同的樣本中被保留），哪些信息丟失掉了（在不同的樣本中存在變化）。

有了這個(gè)思路作為指導(dǎo)，就可以在CLIP向量之間進(jìn)行插值來(lái)混合兩個(gè)圖像之間的信息，比如在夜空和狗這兩張圖片之間存在一個(gè)連續(xù)變化的向量空間。

這個(gè)功能也提供可以預(yù)防字體攻擊（typographic attacks），比如在一些圖片中，文字是覆蓋在物體前面的，這就會(huì)導(dǎo)致CLIP模型更傾向于預(yù)測(cè)文字描述的物體，而不是圖像中描繪的物體。例如寫(xiě)著iPod的蘋(píng)果，就會(huì)導(dǎo)致一些蘋(píng)果也被錯(cuò)誤分類(lèi)到iPod里了。

在新模型里，可以發(fā)現(xiàn)解碼器仍然以高概率生成蘋(píng)果的圖片，并且盡管這個(gè)標(biāo)題的相對(duì)預(yù)測(cè)概率非常高，但該模型從未產(chǎn)生iPod的圖片。另一種可能性是探測(cè)CLIP潛空間本身的結(jié)構(gòu)。

研究人員還嘗試采取了少數(shù)源圖像的CLIP圖像向量，并用逐漸增加的PCA維度來(lái)重建，然后用解碼器和固定種子上的DDIM來(lái)可視化重建的圖像嵌入，也使得我們能夠看到不同維度所編碼的語(yǔ)義信息。

可以觀察到，早期的PCA維度保留了粗粒度的語(yǔ)義信息，如場(chǎng)景中的物體類(lèi)型，而后期的PCA維度則編碼了更細(xì)粒度的細(xì)節(jié)，如物體的形狀和具體形式。例如，在第一個(gè)場(chǎng)景中，早期的維度似乎編碼了有食物、容器等，而后續(xù)的維度則編碼了西紅柿、瓶子等更具體的事物。

在MS-COCO上的數(shù)據(jù)集比較中，使用FID在MS-COCO的驗(yàn)證集上作為評(píng)估指標(biāo)已經(jīng)是一個(gè)標(biāo)準(zhǔn)做法。

unCLIP與GLIDE、DALL-E一樣，沒(méi)有直接在MS-COCO訓(xùn)練集上進(jìn)行訓(xùn)練，但仍然可以在MS-COCO驗(yàn)證集上的zero-shot取得一定的泛化性能。

實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn)，與其他zero-shot模型相比，unCLIP在用擴(kuò)散先驗(yàn)取樣時(shí)達(dá)到了新的最優(yōu)的FID結(jié)果，即10.39。

在MS-COCO的幾個(gè)標(biāo)題上將unCLIP與最近的各種文本條件圖像生成模型進(jìn)行了直觀的比較后可以發(fā)現(xiàn)，與其他方法一樣，unCLIP生成的現(xiàn)實(shí)場(chǎng)景都符合文本提示。

總的來(lái)說(shuō)，DALL-E 2的生成圖像表征能夠明顯提高圖像的多樣性，在逼真度和標(biāo)題相似性方面的差距也最小。

文中提出的以圖像表征為條件的解碼器還可以讓圖像產(chǎn)生變化，保留其語(yǔ)義和風(fēng)格的同時(shí)，改變圖像表征中不存在的非必要的細(xì)節(jié)。

在對(duì)自回歸和擴(kuò)散模型的對(duì)比實(shí)驗(yàn)后，可以發(fā)現(xiàn)擴(kuò)散模型在計(jì)算上更有效率，并能產(chǎn)生更高質(zhì)量的樣本。

參考資料：

https://openai.com/dall-e-2/

多模態(tài)新王登基！OpenAI發(fā)布DALL·E 2，生成圖像「指哪打哪」

新智元報(bào)道

【新智元導(dǎo)讀】大藝術(shù)家重磅升級(jí)！最近OpenAI發(fā)布升級(jí)版DALL·E 2，不僅分辨率提升了4倍，準(zhǔn)確率更高，業(yè)務(wù)也更廣了：除了生成圖像，還能二次創(chuàng)作！

藝術(shù)大師是怎樣煉成的？

多模態(tài)新王登基！OpenAI發(fā)布DALL·E 2，生成圖像「指哪打哪」

【新智元導(dǎo)讀】大藝術(shù)家重磅升級(jí)！最近OpenAI發(fā)布升級(jí)版DALL·E 2，不僅分辨率提升了4倍，準(zhǔn)確率更高，業(yè)務(wù)也更廣了：除了生成圖像，還能二次創(chuàng)作！