天天综合网天天综合7799,日韩午夜在线观看,国产精品传媒,五月天婷亚州天综合网,日本黄色片在线播放,懂色av一区二区,天堂网在线视频,亚洲欧洲免费观看

點(diǎn)擊上方“機(jī)器學(xué)習(xí)與生成對(duì)抗網(wǎng)絡(luò)”，關(guān)注星標(biāo)
獲取有趣、好玩的前沿干貨！

新智元來源：berkeley 編輯：好困

最近幾個(gè)月，AI生成藝術(shù)領(lǐng)域的發(fā)展如同雨后春筍一般。

自從OpenAI開源了CLIP模型的權(quán)重和代碼之后，網(wǎng)友們就開始利用它去創(chuàng)造各種有趣的視覺藝術(shù)。

而CLIP模型創(chuàng)造力是如此之強(qiáng)，僅根據(jù)這些短短的文字，就能以不可思議的抽象風(fēng)格將它們呈現(xiàn)出來。

而你，并不會(huì)知道出現(xiàn)的會(huì)是什么：可能是迷幻的偽現(xiàn)實(shí)場景，或者是更加抽象的東西。

例如，輸入「夜晚的城市景觀」，就會(huì)生成這種很酷、很抽象的畫面。

亦或是生成「吉卜力畫風(fēng)的場景」。

CLIP也可以用來生成短的動(dòng)畫，例如這個(gè)「星空」。

自然語言輸入是一個(gè)完全開放的沙盒，如果能按照模型的喜好使用文字，你幾乎可以創(chuàng)造任何東西。

在概念上，這種從文本描述生成圖像的想法與OpenAI的DALL-E模型驚人地相似。但實(shí)際上卻完全不同。

DALL-E是直接從語言中產(chǎn)生高質(zhì)量的圖像而進(jìn)行的端到端訓(xùn)練，而CLIP則是使用語言來引導(dǎo)現(xiàn)有的無條件圖像生成模型。

DALL-E文本到圖像的端到端生成

CLIP是如何生成藝術(shù)作品的

不過，這些基于CLIP的方法要相對(duì)拙略一些，所以輸出的結(jié)果并不像DALL-E那樣具有很高質(zhì)量和精確度。相反，這些生成的圖像是怪異、迷幻和抽象的。

正是這種怪異使這些基于CLIP的作品如此獨(dú)特，讓人在熟悉的事物上看到完全不同的結(jié)果。

「牛油果形狀的扶手椅」：上圖由DALL-E生成，下圖由CLIP生成的

CLIP：一個(gè)意想不到的故事

2021年1月5日，OpenAI開源了CLIP：一個(gè)用來給圖像進(jìn)行標(biāo)注的模型。

在數(shù)以億計(jì)的圖像中學(xué)習(xí)之后，CLIP不僅在給圖像挑選最佳的標(biāo)注方面變得相當(dāng)熟練，而且在分類方面還展示出了比以往任何模型都更強(qiáng)大的魯棒性。

除此以外，CLIP還學(xué)會(huì)了抽象的視覺表征，在某種程度上這還是第一次。

但很顯然，沒有任何跡象表明CLIP還能在生成藝術(shù)方面帶來任何幫助。

然而，網(wǎng)友們只花了一天時(shí)間就發(fā)現(xiàn)，通過一個(gè)簡單的技巧，CLIP就可以用來指導(dǎo)現(xiàn)有的圖像生成模型（如GANs、Autoencoders或像SIREN這樣的隱式神經(jīng)表征），輸出基于給定文字描述的圖像。

其中，CLIP在生成模型的潛在空間進(jìn)行搜索，從而找到與給定的文字描述相匹配的潛在圖像。

然而，這種方法在早期生成的圖像可以說十分詭異。

Big Sleep：一切的開始

不過，在短短的幾周之后就有了突破性進(jìn)展，advadnoun發(fā)布并開源了Big Sleep的代碼：一種基于CLIP并使用Big GAN作為生成模型的文本到圖像技術(shù)。

有趣的是，模型的名字起源于一部超現(xiàn)實(shí)主義的黑色電影The Big Sleep。

The Big Sleep以其獨(dú)特的方式，幾乎可以呈現(xiàn)任何能用文字表達(dá)的東西。

日落——The Big Sleep

起風(fēng)了——The Big Sleep

在一切的盡頭，搖搖欲墜的建筑和刺破天空的武器——The Big Sleep

看到這些作品，也就不難想象為何網(wǎng)友給出一個(gè)富有「哲學(xué)」的觀點(diǎn)了：

你可以把CLIP的輸出看作是單純的統(tǒng)計(jì)平均數(shù)的產(chǎn)物：計(jì)算語言和視覺之間的相關(guān)性的結(jié)果，因?yàn)樗鼈兇嬖谟诨ヂ?lián)網(wǎng)上。因此，從這個(gè)角度來看，CLIP的輸出更像是在窺視時(shí)代潮流，并把事情看成是類似于「互聯(lián)網(wǎng)的統(tǒng)計(jì)平均值」。

VQ-GAN：一個(gè)新的超級(jí)生成模型

2020年12月17日，海德堡大學(xué)的研究人員發(fā)表了他們的論文「Taming Transformers for High-Resolution Image Synthesis」，提出了一種新的GAN架構(gòu)：VQ-GAN。

VQ-GAN將conv-nets和transformers結(jié)合在一起，并充分地利用了conv-nets在局部感應(yīng)偏差和transformers在全局注意力上的優(yōu)勢。

在四月初，advadnoun和RiversHaveWings開始把VQ-GAN和CLIP結(jié)合到一起，嘗試從文本提示中生成圖像。

新的方法與The Big Sleep基本相同，只不過原本的生成模型Big-GAN，變成了VQ-GAN。

結(jié)果就是，生成的圖像在風(fēng)格上發(fā)生了巨大的轉(zhuǎn)變。