<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          多模態(tài)新王登基!OpenAI發(fā)布DALL·E 2,生成圖像「指哪打哪」

          共 3686字,需瀏覽 8分鐘

           ·

          2022-04-11 08:05



            新智元報(bào)道  

          編輯:LRS

          【新智元導(dǎo)讀】大藝術(shù)家重磅升級(jí)!最近OpenAI發(fā)布升級(jí)版DALL·E 2,不僅分辨率提升了4倍,準(zhǔn)確率更高,業(yè)務(wù)也更廣了:除了生成圖像,還能二次創(chuàng)作!


          2021年1月,OpenAI放了一個(gè)大招:DALL-E模型,讓自然語(yǔ)言和圖像成功牽手,輸入一段不管多離譜的文本,都能生成圖片!

           

          比如經(jīng)典的「牛油果形狀的扶手椅」,還有新奇生物「一個(gè)長(zhǎng)頸鹿烏龜」。

           

           

          當(dāng)時(shí)看著已經(jīng)夠神奇了吧?

           

          時(shí)隔一年,OpenAI結(jié)合另一個(gè)多模態(tài)模型CLIP,發(fā)布了第二個(gè)版本DALL·E 2!

           

          和上一代相比,DALL·E 2更神奇,簡(jiǎn)直就是直接從二次元簡(jiǎn)筆畫(huà)走向超高清大圖:分辨率提升四倍,從256x256提升到了1024 x 1024,并且生成圖像的準(zhǔn)確率也更高!

           

          比如以「用克洛德·莫奈風(fēng)格畫(huà)一幅狐貍在日出時(shí)坐在田野里」為題目,一眼就能看出二者的差距。(a painting of a fox sitting in a field at sunrise in the style of Claude Monet)

           

           

          DALL·E 2的生成的范圍也更廣,比如寫(xiě)實(shí)主義的宇航員騎馬(An astronaut + riding a horse + in a photorealistic style),安排!在山上、外太空、草地等等,各種場(chǎng)景一應(yīng)俱全。

           

           

          也可以用鉛繪風(fēng)格畫(huà)出來(lái)(An astronaut + riding a horse + as a pencil drawing)

           

           

          還有用針織羊毛做的、長(zhǎng)得像妖怪的一碗湯?。ˋ bowl of soup + that looks like a monster + knitted out of wool)

           

           

          Dall·E 2還可以從自然語(yǔ)言的標(biāo)題中對(duì)現(xiàn)有圖像進(jìn)行編輯,并且在添加和刪除元素時(shí)還會(huì)考慮陰影、反射和紋理。

           

          比如在畫(huà)里加一條小狗,毫無(wú)違和感。

           

           

          還可以給定一幅畫(huà)作為題目,讓Dall·E 2再自己重新創(chuàng)作一幅圖。

           

           

          除了官方的例子外,也有網(wǎng)友曬出了自己試玩Dall·E 2生成的圖像,比如玩滑板的熊貓靚仔。

           

          申請(qǐng)鏈接:https://labs.openai.com/waitlist

           

          目前Dall·E 2還處于研究狀態(tài),還沒(méi)有正式對(duì)外提供API,但以O(shè)penAI一貫對(duì)自己的嚴(yán)標(biāo)準(zhǔn)、高道德要求,肯定也少不了在模型開(kāi)發(fā)和部署上的限制來(lái)防止模型被濫用。

           

          盡管Dall·E 2能繪制所有你可以想象到的內(nèi)容,但OpenAI還是在功能上對(duì)模型進(jìn)行了限制,主要有三點(diǎn):

           

          1. 阻止生成有害內(nèi)容

           

          OpenAI 通過(guò)從訓(xùn)練數(shù)據(jù)中刪除暴力、仇恨或少兒不宜的圖像,限制了Dall·E 2產(chǎn)生這類(lèi)內(nèi)容的能力,最小化了Dall·E 2對(duì)這些概念的認(rèn)知。并且還使用一些技術(shù)手段防止生成人臉的超寫(xiě)實(shí)照片,尤其是一些公眾人物。

           

           

          2. 防止濫用

           

          內(nèi)容政策中規(guī)定,不允許用戶(hù)生成暴力、成人或政治內(nèi)容。如果過(guò)濾器識(shí)別到可能違反策略的文本提示詞或圖像上傳,系統(tǒng)將不會(huì)返回生成圖像。系統(tǒng)中還有自動(dòng)化和人工監(jiān)測(cè)系統(tǒng)防止濫用。

           

          3. 基于學(xué)習(xí)的分階段部署

           

          OpenAI一直與外部專(zhuān)家合作,并對(duì)一定數(shù)量的可信賴(lài)用戶(hù)開(kāi)放預(yù)覽Dall·E 2的權(quán)限,這些用戶(hù)可以幫助開(kāi)發(fā)人員了解技術(shù)的能力和限制。開(kāi)發(fā)團(tuán)隊(duì)計(jì)劃通過(guò)學(xué)習(xí),迭代地改善安全系統(tǒng),隨著時(shí)間的推移邀請(qǐng)更多人參與預(yù)覽。

           

          藝術(shù)大師是怎樣煉成的?


          DALL·E 2和一代同樣基于CLIP建立,不過(guò)OpenAI 研究科學(xué)家 Prafulla Dhariwal 說(shuō),「DALL·E 1 只是從語(yǔ)言中提取了 GPT-3 的方法并將其應(yīng)用于生成圖像:將圖像壓縮成一系列單詞,并且學(xué)會(huì)了預(yù)測(cè)接下來(lái)會(huì)發(fā)生什么?!?/span>

           

          論文地址:https://cdn.openai.com/papers/dall-e-2.pdf

           

          訓(xùn)練數(shù)據(jù)由一個(gè)數(shù)據(jù)對(duì)(x, y)組成,其中x是圖像,y是相應(yīng)的圖像標(biāo)題。給定一張圖像x,z_i和z_t為對(duì)應(yīng)的CLIP圖像向量和文本向量。

           

          像CLIP這樣的對(duì)比模型(Contrastive models)已經(jīng)被證明可以學(xué)習(xí)到非常魯邦的圖像表征,能夠捕捉到語(yǔ)義和風(fēng)格。

           

           

          為了利用這些表征進(jìn)行圖像生成,研究人員提出了一個(gè)兩階段的模型:一個(gè)給定文本標(biāo)題生成CLIP 圖像嵌入的先驗(yàn),以及基于條件圖像嵌入生成圖像的解碼器。

           

          先驗(yàn)P(z_i | y)為生成在標(biāo)題y條件下的CLIP圖像向量。

           

          解碼器P(x |z_i, y)為在CLIP圖像向量z_i和標(biāo)題y的條件下的生成圖像x.

           

          解碼器能夠根據(jù)CLIP圖像向量來(lái)反轉(zhuǎn)圖像,而先驗(yàn)則可以讓模型學(xué)習(xí)到一個(gè)圖像向量本身的生成模型。將這兩個(gè)部分疊加起來(lái),可以得到一個(gè)生成模型P(x|y)

           

           

          因?yàn)檫@個(gè)過(guò)程是通過(guò)顛倒CLIP圖像編碼器來(lái)生成圖像,所以新模型的圖像生成stack也稱(chēng)為unCLIP.

           

          在unCLIP的整體架構(gòu)中,虛線(xiàn)上方描述的是CLIP的訓(xùn)練過(guò)程。通過(guò)這個(gè)過(guò)程,模型學(xué)習(xí)可以學(xué)習(xí)到一個(gè)文本和圖像的聯(lián)合表示空間。虛線(xiàn)下面則描述了文本到圖像的生成過(guò)程:CLIP的文本嵌入首先被送入一個(gè)自回歸或擴(kuò)散(diffusion)先驗(yàn),以產(chǎn)生一個(gè)圖像向量。然后這個(gè)向量被用來(lái)作為擴(kuò)散解碼器的條件,可以產(chǎn)生一個(gè)最終的生成圖像。注意,在訓(xùn)練先驗(yàn)和解碼器的過(guò)程中,CLIP模型的參數(shù)都是凍結(jié)的。

           

           

          新的解碼器模型還有一個(gè)與眾不同的功能,那就是可以直接可視化CLIP圖像編碼器所看到的東西來(lái)探索CLIP的潛空間!

           

          比如用CLIP對(duì)一幅圖像進(jìn)行編碼,然后用擴(kuò)散解碼器對(duì)其圖像向量進(jìn)行解碼,就能得到圖像的變化,這些變化就可以告訴我們哪些信息在CLIP圖像向量中被捕獲(在不同的樣本中被保留),哪些信息丟失掉了(在不同的樣本中存在變化)。

           

           

          有了這個(gè)思路作為指導(dǎo),就可以在CLIP向量之間進(jìn)行插值來(lái)混合兩個(gè)圖像之間的信息,比如在夜空和狗這兩張圖片之間存在一個(gè)連續(xù)變化的向量空間。

           

           

          這個(gè)功能也提供可以預(yù)防字體攻擊(typographic attacks),比如在一些圖片中,文字是覆蓋在物體前面的,這就會(huì)導(dǎo)致CLIP模型更傾向于預(yù)測(cè)文字描述的物體,而不是圖像中描繪的物體。例如寫(xiě)著iPod的蘋(píng)果,就會(huì)導(dǎo)致一些蘋(píng)果也被錯(cuò)誤分類(lèi)到iPod里了。

           

           

          在新模型里,可以發(fā)現(xiàn)解碼器仍然以高概率生成蘋(píng)果的圖片,并且盡管這個(gè)標(biāo)題的相對(duì)預(yù)測(cè)概率非常高,但該模型從未產(chǎn)生iPod的圖片。另一種可能性是探測(cè)CLIP潛空間本身的結(jié)構(gòu)。

           

          研究人員還嘗試采取了少數(shù)源圖像的CLIP圖像向量,并用逐漸增加的PCA維度來(lái)重建,然后用解碼器和固定種子上的DDIM來(lái)可視化重建的圖像嵌入,也使得我們能夠看到不同維度所編碼的語(yǔ)義信息。

           

           

          可以觀察到,早期的PCA維度保留了粗粒度的語(yǔ)義信息,如場(chǎng)景中的物體類(lèi)型,而后期的PCA維度則編碼了更細(xì)粒度的細(xì)節(jié),如物體的形狀和具體形式。例如,在第一個(gè)場(chǎng)景中,早期的維度似乎編碼了有食物、容器等,而后續(xù)的維度則編碼了西紅柿、瓶子等更具體的事物。

           

          在MS-COCO上的數(shù)據(jù)集比較中,使用FID在MS-COCO的驗(yàn)證集上作為評(píng)估指標(biāo)已經(jīng)是一個(gè)標(biāo)準(zhǔn)做法。

           

          unCLIP與GLIDE、DALL-E一樣,沒(méi)有直接在MS-COCO訓(xùn)練集上進(jìn)行訓(xùn)練,但仍然可以在MS-COCO驗(yàn)證集上的zero-shot取得一定的泛化性能。

           

          實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn),與其他zero-shot模型相比,unCLIP在用擴(kuò)散先驗(yàn)取樣時(shí)達(dá)到了新的最優(yōu)的FID結(jié)果,即10.39。

           

           

          在MS-COCO的幾個(gè)標(biāo)題上將unCLIP與最近的各種文本條件圖像生成模型進(jìn)行了直觀的比較后可以發(fā)現(xiàn),與其他方法一樣,unCLIP生成的現(xiàn)實(shí)場(chǎng)景都符合文本提示。

           

           

          總的來(lái)說(shuō),DALL-E 2的生成圖像表征能夠明顯提高圖像的多樣性,在逼真度和標(biāo)題相似性方面的差距也最小。

           

          文中提出的以圖像表征為條件的解碼器還可以讓圖像產(chǎn)生變化,保留其語(yǔ)義和風(fēng)格的同時(shí),改變圖像表征中不存在的非必要的細(xì)節(jié)。

           

          在對(duì)自回歸和擴(kuò)散模型的對(duì)比實(shí)驗(yàn)后,可以發(fā)現(xiàn)擴(kuò)散模型在計(jì)算上更有效率,并能產(chǎn)生更高質(zhì)量的樣本。


          參考資料:

          https://openai.com/dall-e-2/



          瀏覽 57
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  久草久草视频 | 豆花传剧高清在线看 | 欧美成人在线三级免费 | 熟女一区二区三区视频 | 亚洲优优色在线 |