多模態(tài)新王登基!OpenAI發(fā)布DALL·E 2,生成圖像「指哪打哪」

新智元報(bào)道

新智元報(bào)道
編輯:LRS
【新智元導(dǎo)讀】大藝術(shù)家重磅升級(jí)!最近OpenAI發(fā)布升級(jí)版DALL·E 2,不僅分辨率提升了4倍,準(zhǔn)確率更高,業(yè)務(wù)也更廣了:除了生成圖像,還能二次創(chuàng)作!
2021年1月,OpenAI放了一個(gè)大招:DALL-E模型,讓自然語(yǔ)言和圖像成功牽手,輸入一段不管多離譜的文本,都能生成圖片!
比如經(jīng)典的「牛油果形狀的扶手椅」,還有新奇生物「一個(gè)長(zhǎng)頸鹿烏龜」。


當(dāng)時(shí)看著已經(jīng)夠神奇了吧?
時(shí)隔一年,OpenAI結(jié)合另一個(gè)多模態(tài)模型CLIP,發(fā)布了第二個(gè)版本DALL·E 2!
和上一代相比,DALL·E 2更神奇,簡(jiǎn)直就是直接從二次元簡(jiǎn)筆畫(huà)走向超高清大圖:分辨率提升四倍,從256x256提升到了1024 x 1024,并且生成圖像的準(zhǔn)確率也更高!
比如以「用克洛德·莫奈風(fēng)格畫(huà)一幅狐貍在日出時(shí)坐在田野里」為題目,一眼就能看出二者的差距。(a painting of a fox sitting in a field at sunrise in the style of Claude Monet)

DALL·E 2的生成的范圍也更廣,比如寫(xiě)實(shí)主義的宇航員騎馬(An astronaut + riding a horse + in a photorealistic style),安排!在山上、外太空、草地等等,各種場(chǎng)景一應(yīng)俱全。

也可以用鉛繪風(fēng)格畫(huà)出來(lái)(An astronaut + riding a horse + as a pencil drawing)

還有用針織羊毛做的、長(zhǎng)得像妖怪的一碗湯?。ˋ bowl of soup + that looks like a monster + knitted out of wool)

Dall·E 2還可以從自然語(yǔ)言的標(biāo)題中對(duì)現(xiàn)有圖像進(jìn)行編輯,并且在添加和刪除元素時(shí)還會(huì)考慮陰影、反射和紋理。
比如在畫(huà)里加一條小狗,毫無(wú)違和感。

還可以給定一幅畫(huà)作為題目,讓Dall·E 2再自己重新創(chuàng)作一幅圖。

除了官方的例子外,也有網(wǎng)友曬出了自己試玩Dall·E 2生成的圖像,比如玩滑板的熊貓靚仔。

申請(qǐng)鏈接:https://labs.openai.com/waitlist
目前Dall·E 2還處于研究狀態(tài),還沒(méi)有正式對(duì)外提供API,但以O(shè)penAI一貫對(duì)自己的嚴(yán)標(biāo)準(zhǔn)、高道德要求,肯定也少不了在模型開(kāi)發(fā)和部署上的限制來(lái)防止模型被濫用。
盡管Dall·E 2能繪制所有你可以想象到的內(nèi)容,但OpenAI還是在功能上對(duì)模型進(jìn)行了限制,主要有三點(diǎn):
1. 阻止生成有害內(nèi)容
OpenAI 通過(guò)從訓(xùn)練數(shù)據(jù)中刪除暴力、仇恨或少兒不宜的圖像,限制了Dall·E 2產(chǎn)生這類(lèi)內(nèi)容的能力,最小化了Dall·E 2對(duì)這些概念的認(rèn)知。并且還使用一些技術(shù)手段防止生成人臉的超寫(xiě)實(shí)照片,尤其是一些公眾人物。

2. 防止濫用
內(nèi)容政策中規(guī)定,不允許用戶(hù)生成暴力、成人或政治內(nèi)容。如果過(guò)濾器識(shí)別到可能違反策略的文本提示詞或圖像上傳,系統(tǒng)將不會(huì)返回生成圖像。系統(tǒng)中還有自動(dòng)化和人工監(jiān)測(cè)系統(tǒng)防止濫用。
3. 基于學(xué)習(xí)的分階段部署
OpenAI一直與外部專(zhuān)家合作,并對(duì)一定數(shù)量的可信賴(lài)用戶(hù)開(kāi)放預(yù)覽Dall·E 2的權(quán)限,這些用戶(hù)可以幫助開(kāi)發(fā)人員了解技術(shù)的能力和限制。開(kāi)發(fā)團(tuán)隊(duì)計(jì)劃通過(guò)學(xué)習(xí),迭代地改善安全系統(tǒng),隨著時(shí)間的推移邀請(qǐng)更多人參與預(yù)覽。
藝術(shù)大師是怎樣煉成的?
藝術(shù)大師是怎樣煉成的?
DALL·E 2和一代同樣基于CLIP建立,不過(guò)OpenAI 研究科學(xué)家 Prafulla Dhariwal 說(shuō),「DALL·E 1 只是從語(yǔ)言中提取了 GPT-3 的方法并將其應(yīng)用于生成圖像:將圖像壓縮成一系列單詞,并且學(xué)會(huì)了預(yù)測(cè)接下來(lái)會(huì)發(fā)生什么?!?/span>

論文地址:https://cdn.openai.com/papers/dall-e-2.pdf
訓(xùn)練數(shù)據(jù)由一個(gè)數(shù)據(jù)對(duì)(x, y)組成,其中x是圖像,y是相應(yīng)的圖像標(biāo)題。給定一張圖像x,z_i和z_t為對(duì)應(yīng)的CLIP圖像向量和文本向量。
像CLIP這樣的對(duì)比模型(Contrastive models)已經(jīng)被證明可以學(xué)習(xí)到非常魯邦的圖像表征,能夠捕捉到語(yǔ)義和風(fēng)格。

為了利用這些表征進(jìn)行圖像生成,研究人員提出了一個(gè)兩階段的模型:一個(gè)給定文本標(biāo)題生成CLIP 圖像嵌入的先驗(yàn),以及基于條件圖像嵌入生成圖像的解碼器。
先驗(yàn)P(z_i | y)為生成在標(biāo)題y條件下的CLIP圖像向量。
解碼器P(x |z_i, y)為在CLIP圖像向量z_i和標(biāo)題y的條件下的生成圖像x.
解碼器能夠根據(jù)CLIP圖像向量來(lái)反轉(zhuǎn)圖像,而先驗(yàn)則可以讓模型學(xué)習(xí)到一個(gè)圖像向量本身的生成模型。將這兩個(gè)部分疊加起來(lái),可以得到一個(gè)生成模型P(x|y)

因?yàn)檫@個(gè)過(guò)程是通過(guò)顛倒CLIP圖像編碼器來(lái)生成圖像,所以新模型的圖像生成stack也稱(chēng)為unCLIP.
在unCLIP的整體架構(gòu)中,虛線(xiàn)上方描述的是CLIP的訓(xùn)練過(guò)程。通過(guò)這個(gè)過(guò)程,模型學(xué)習(xí)可以學(xué)習(xí)到一個(gè)文本和圖像的聯(lián)合表示空間。虛線(xiàn)下面則描述了文本到圖像的生成過(guò)程:CLIP的文本嵌入首先被送入一個(gè)自回歸或擴(kuò)散(diffusion)先驗(yàn),以產(chǎn)生一個(gè)圖像向量。然后這個(gè)向量被用來(lái)作為擴(kuò)散解碼器的條件,可以產(chǎn)生一個(gè)最終的生成圖像。注意,在訓(xùn)練先驗(yàn)和解碼器的過(guò)程中,CLIP模型的參數(shù)都是凍結(jié)的。

新的解碼器模型還有一個(gè)與眾不同的功能,那就是可以直接可視化CLIP圖像編碼器所看到的東西來(lái)探索CLIP的潛空間!
比如用CLIP對(duì)一幅圖像進(jìn)行編碼,然后用擴(kuò)散解碼器對(duì)其圖像向量進(jìn)行解碼,就能得到圖像的變化,這些變化就可以告訴我們哪些信息在CLIP圖像向量中被捕獲(在不同的樣本中被保留),哪些信息丟失掉了(在不同的樣本中存在變化)。

有了這個(gè)思路作為指導(dǎo),就可以在CLIP向量之間進(jìn)行插值來(lái)混合兩個(gè)圖像之間的信息,比如在夜空和狗這兩張圖片之間存在一個(gè)連續(xù)變化的向量空間。

這個(gè)功能也提供可以預(yù)防字體攻擊(typographic attacks),比如在一些圖片中,文字是覆蓋在物體前面的,這就會(huì)導(dǎo)致CLIP模型更傾向于預(yù)測(cè)文字描述的物體,而不是圖像中描繪的物體。例如寫(xiě)著iPod的蘋(píng)果,就會(huì)導(dǎo)致一些蘋(píng)果也被錯(cuò)誤分類(lèi)到iPod里了。

在新模型里,可以發(fā)現(xiàn)解碼器仍然以高概率生成蘋(píng)果的圖片,并且盡管這個(gè)標(biāo)題的相對(duì)預(yù)測(cè)概率非常高,但該模型從未產(chǎn)生iPod的圖片。另一種可能性是探測(cè)CLIP潛空間本身的結(jié)構(gòu)。
研究人員還嘗試采取了少數(shù)源圖像的CLIP圖像向量,并用逐漸增加的PCA維度來(lái)重建,然后用解碼器和固定種子上的DDIM來(lái)可視化重建的圖像嵌入,也使得我們能夠看到不同維度所編碼的語(yǔ)義信息。

可以觀察到,早期的PCA維度保留了粗粒度的語(yǔ)義信息,如場(chǎng)景中的物體類(lèi)型,而后期的PCA維度則編碼了更細(xì)粒度的細(xì)節(jié),如物體的形狀和具體形式。例如,在第一個(gè)場(chǎng)景中,早期的維度似乎編碼了有食物、容器等,而后續(xù)的維度則編碼了西紅柿、瓶子等更具體的事物。
在MS-COCO上的數(shù)據(jù)集比較中,使用FID在MS-COCO的驗(yàn)證集上作為評(píng)估指標(biāo)已經(jīng)是一個(gè)標(biāo)準(zhǔn)做法。
unCLIP與GLIDE、DALL-E一樣,沒(méi)有直接在MS-COCO訓(xùn)練集上進(jìn)行訓(xùn)練,但仍然可以在MS-COCO驗(yàn)證集上的zero-shot取得一定的泛化性能。
實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn),與其他zero-shot模型相比,unCLIP在用擴(kuò)散先驗(yàn)取樣時(shí)達(dá)到了新的最優(yōu)的FID結(jié)果,即10.39。

在MS-COCO的幾個(gè)標(biāo)題上將unCLIP與最近的各種文本條件圖像生成模型進(jìn)行了直觀的比較后可以發(fā)現(xiàn),與其他方法一樣,unCLIP生成的現(xiàn)實(shí)場(chǎng)景都符合文本提示。

總的來(lái)說(shuō),DALL-E 2的生成圖像表征能夠明顯提高圖像的多樣性,在逼真度和標(biāo)題相似性方面的差距也最小。
文中提出的以圖像表征為條件的解碼器還可以讓圖像產(chǎn)生變化,保留其語(yǔ)義和風(fēng)格的同時(shí),改變圖像表征中不存在的非必要的細(xì)節(jié)。
在對(duì)自回歸和擴(kuò)散模型的對(duì)比實(shí)驗(yàn)后,可以發(fā)現(xiàn)擴(kuò)散模型在計(jì)算上更有效率,并能產(chǎn)生更高質(zhì)量的樣本。
參考資料:
https://openai.com/dall-e-2/

