<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          圖文模態(tài)交互 | CLIP + GAN = ?

          共 3589字,需瀏覽 8分鐘

           ·

          2021-08-09 15:12

          點(diǎn)擊上方機(jī)器學(xué)習(xí)與生成對(duì)抗網(wǎng)絡(luò)”,關(guān)注星標(biāo)

          獲取有趣、好玩的前沿干貨!





          新智元  來源:berkeley  編輯:好困


          最近幾個(gè)月,AI生成藝術(shù)領(lǐng)域的發(fā)展如同雨后春筍一般。
           
          自從OpenAI開源了CLIP模型的權(quán)重和代碼之后,網(wǎng)友們就開始利用它去創(chuàng)造各種有趣的視覺藝術(shù)。
           
          CLIP模型創(chuàng)造力是如此之強(qiáng),僅根據(jù)這些短短的文字,就能以不可思議的抽象風(fēng)格將它們呈現(xiàn)出來。

          而你,并不會(huì)知道出現(xiàn)的會(huì)是什么:可能是迷幻的偽現(xiàn)實(shí)場景,或者是更加抽象的東西。
           
          例如,輸入 「夜晚的城市景觀」,就會(huì)生成這種很酷、很抽象的畫面。
           
           
          亦或是生成「吉卜力畫風(fēng)的場景」。
           
           
          CLIP也可以用來生成短的動(dòng)畫,例如這個(gè)「星空」。
           
           
          自然語言輸入是一個(gè)完全開放的沙盒,如果能按照模型的喜好使用文字,你幾乎可以創(chuàng)造任何東西。
           
          在概念上,這種從文本描述生成圖像的想法與OpenAI的DALL-E模型驚人地相似。但實(shí)際上卻完全不同。
           
          DALL-E是直接從語言中產(chǎn)生高質(zhì)量的圖像而進(jìn)行的端到端訓(xùn)練,而CLIP則是使用語言來引導(dǎo)現(xiàn)有的無條件圖像生成模型。
           
          DALL-E文本到圖像的端到端生成
           
          CLIP是如何生成藝術(shù)作品的
            
          不過,這些基于CLIP的方法要相對(duì)拙略一些,所以輸出的結(jié)果并不像DALL-E那樣具有很高質(zhì)量和精確度。相反,這些生成的圖像是怪異、迷幻和抽象的。
           
          正是這種怪異使這些基于CLIP的作品如此獨(dú)特,讓人在熟悉的事物上看到完全不同的結(jié)果。
           
          「牛油果形狀的扶手椅」:上圖由DALL-E生成,下圖由CLIP生成的
           

          CLIP:一個(gè)意想不到的故事

           
          2021年1月5日,OpenAI開源了CLIP:一個(gè)用來給圖像進(jìn)行標(biāo)注的模型。
           
          在數(shù)以億計(jì)的圖像中學(xué)習(xí)之后,CLIP不僅在給圖像挑選最佳的標(biāo)注方面變得相當(dāng)熟練,而且在分類方面還展示出了比以往任何模型都更強(qiáng)大的魯棒性。
           
          除此以外,CLIP還學(xué)會(huì)了抽象的視覺表征,在某種程度上這還是第一次。
           
          但很顯然,沒有任何跡象表明CLIP還能在生成藝術(shù)方面帶來任何幫助。
           
          然而,網(wǎng)友們只花了一天時(shí)間就發(fā)現(xiàn),通過一個(gè)簡單的技巧,CLIP就可以用來指導(dǎo)現(xiàn)有的圖像生成模型(如GANs、Autoencoders或像SIREN這樣的隱式神經(jīng)表征),輸出基于給定文字描述的圖像。
           
          其中,CLIP在生成模型的潛在空間進(jìn)行搜索,從而找到與給定的文字描述相匹配的潛在圖像。
           
          然而,這種方法在早期生成的圖像可以說十分詭異。
           
           

          Big Sleep:一切的開始


          不過,在短短的幾周之后就有了突破性進(jìn)展,advadnoun發(fā)布并開源了Big Sleep的代碼:一種基于CLIP并使用Big GAN作為生成模型的文本到圖像技術(shù)。
           
          有趣的是,模型的名字起源于一部超現(xiàn)實(shí)主義的黑色電影The Big Sleep。
           
           
          The Big Sleep以其獨(dú)特的方式,幾乎可以呈現(xiàn)任何能用文字表達(dá)的東西。
           
          日落——The Big Sleep
           
          起風(fēng)了——The Big Sleep
           
          在一切的盡頭,搖搖欲墜的建筑和刺破天空的武器——The Big Sleep
           
          看到這些作品,也就不難想象為何網(wǎng)友給出一個(gè)富有「哲學(xué)」的觀點(diǎn)了:
           

          你可以把CLIP的輸出看作是單純的統(tǒng)計(jì)平均數(shù)的產(chǎn)物:計(jì)算語言和視覺之間的相關(guān)性的結(jié)果,因?yàn)樗鼈兇嬖谟诨ヂ?lián)網(wǎng)上。因此,從這個(gè)角度來看,CLIP的輸出更像是在窺視時(shí)代潮流,并把事情看成是類似于 「互聯(lián)網(wǎng)的統(tǒng)計(jì)平均值」。

           

          VQ-GAN:一個(gè)新的超級(jí)生成模型


          2020年12月17日,海德堡大學(xué)的研究人員發(fā)表了他們的論文「Taming Transformers for High-Resolution Image Synthesis」,提出了一種新的GAN架構(gòu):VQ-GAN。
           
          VQ-GAN將conv-nets和transformers結(jié)合在一起,并充分地利用了conv-nets在局部感應(yīng)偏差和transformers在全局注意力上的優(yōu)勢。
           
          在四月初,advadnoun和RiversHaveWings開始把VQ-GAN和CLIP結(jié)合到一起,嘗試從文本提示中生成圖像。
           
          新的方法與The Big Sleep基本相同,只不過原本的生成模型Big-GAN,變成了VQ-GAN。
           
          結(jié)果就是,生成的圖像在風(fēng)格上發(fā)生了巨大的轉(zhuǎn)變。
           
          一系列的管道——VQ-GAN+CLIP
           
          在月光下跳舞——VQ-GAN+CLIP
           
          以武器作為枝條的樹——VQ-GAN+CLIP
           
          VQ-GAN+CLIP的輸出看起來不像是The Big Sleep那樣的繪畫,而更像一個(gè)雕塑。
           
          這個(gè)結(jié)果有些出乎意料,只是把生成模型從Big-Gan換成VQ-Gan,就能獲得一個(gè)全新風(fēng)格的「藝術(shù)家」。
           
          當(dāng)然,這也從側(cè)面說明了CLIP的通用性:可以插入任何一個(gè)生成模型,并在之后產(chǎn)生具有全新風(fēng)格和形式的藝術(shù)。
           

          虛幻引擎(Unreal Engine )技巧


          除了可以切換生成模型來改變輸出的風(fēng)格以外,還有一個(gè)更簡單的技巧可以做到這一點(diǎn)。
           
          只需要添加一些特定的關(guān)鍵詞到文字提示中,CLIP就能對(duì)輸出的圖像做出相應(yīng)地修改——以它所「理解」的方式。
           
          這其中最有吸引力的一個(gè)技巧就是:「虛幻引擎技巧」。其中,虛幻引擎是一個(gè)由Epic Games開發(fā)的3D創(chuàng)作渲染工具。
           
           
          網(wǎng)友jbustter發(fā)現(xiàn),如果在文字提示中加入 「在虛幻引擎中渲染」,輸出結(jié)果看起來會(huì)更真實(shí)。
           
           
          CLIP似乎學(xué)習(xí)了很多被標(biāo)記為「用虛幻引擎渲染」的電腦游戲圖片,因此,通過在文字提示中加入這一點(diǎn),就能有效地激勵(lì)了模型去「復(fù)現(xiàn)」那些由虛幻引擎渲染的圖像。
           
          一個(gè)神奇的童話屋,虛幻引擎——VQ-GAN+CLIP
           
          在某種程度上,虛幻引擎的技巧是一種突破。它使人們認(rèn)識(shí)到在提示中添加關(guān)鍵詞可以有多大的效果。
           
          于是,有越來越多復(fù)雜的提示被使用,用來盡可能地提取最高質(zhì)量的輸出。
           
          「山頂附近暴風(fēng)雪中的小木屋,黃昏時(shí)分打開一盞燈 | artstation | 虛幻引擎」——VQ-GAN+CLIP
           
          「山頂上的房子在午夜時(shí)分的啞光畫,小螢火蟲在周圍飛來飛去,是吉卜力工作室的風(fēng)格 | artstation | 虛幻引擎」——VQ-GAN+CLIP
           
          這些看起來與之前VQ-GAN+CLIP生成的圖像完全不同。它們看起來更像是經(jīng)過編輯的照片或視頻游戲的場景。
           
          根據(jù)這些關(guān)鍵詞,模型將會(huì)輸出風(fēng)格各異的藝術(shù)作品,同時(shí),隨著生成模型的發(fā)展,也將會(huì)有更多更出色的作品產(chǎn)生。

          而這僅僅是個(gè)開始。



          參考資料:

          https://ml.berkeley.edu/blog/posts/clip-art/?continueFlag=ae8c92b06679c71e74349cb040d81f29



          猜您喜歡:


          等你著陸!【GAN生成對(duì)抗網(wǎng)絡(luò)】知識(shí)星球!  

          CVPR 2021 | GAN的說話人驅(qū)動(dòng)、3D人臉論文匯總

          CVPR 2021 | 圖像轉(zhuǎn)換 今如何?幾篇GAN論文

          【CVPR 2021】通過GAN提升人臉識(shí)別的遺留難題

          CVPR 2021生成對(duì)抗網(wǎng)絡(luò)GAN部分論文匯總

          經(jīng)典GAN不得不讀:StyleGAN

          最新最全20篇!基于 StyleGAN 改進(jìn)或應(yīng)用相關(guān)論文

          超100篇!CVPR 2020最全GAN論文梳理匯總!

          附下載 | 《Python進(jìn)階》中文版

          附下載 | 經(jīng)典《Think Python》中文版

          附下載 | 《Pytorch模型訓(xùn)練實(shí)用教程》

          附下載 | 最新2020李沐《動(dòng)手學(xué)深度學(xué)習(xí)》

          附下載 | 《可解釋的機(jī)器學(xué)習(xí)》中文版

          附下載 |《TensorFlow 2.0 深度學(xué)習(xí)算法實(shí)戰(zhàn)》

          附下載 | 超100篇!CVPR 2020最全GAN論文梳理匯總!

          附下載 |《計(jì)算機(jī)視覺中的數(shù)學(xué)方法》分享

          瀏覽 135
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  日韩操B视频 | 免费亚洲在线观看 | 中文字幕精品久久久 | 91亚洲国产成人久久精品网站 | 国产精品肏屄视频 |