Meta最新圖像生成工具!支持文字+草圖,效果更加可控

來(lái)源: 新智元
【導(dǎo)讀】在AI畫畫上,國(guó)外大廠已經(jīng)卷上了新高度。這不,Meta也整了一個(gè)AI「畫家」——Make-A-Scene。|還在糾結(jié)會(huì)不會(huì)錯(cuò)過(guò)元宇宙和web3浪潮?清華大學(xué)科學(xué)史系副教授胡翌霖,這次給你講個(gè)透!
近日,Meta也整了一個(gè)AI「畫家」——Make-A-Scene。

還以為只是用文字生成畫作就這么簡(jiǎn)單嗎?
要知道,僅是靠文字描述還有時(shí)候會(huì)「翻車」,就比如谷歌前段時(shí)間推出的「藝術(shù)家」Parti。
「一個(gè)沒(méi)有香蕉的盤子,旁邊有一個(gè)沒(méi)有橙汁的玻璃杯。」

這次,Make-A-Scene可以通過(guò)文本描述,再加上一張草圖,就能生成你想要的樣子。
構(gòu)圖上下、左右、大小、形狀等各種元素都由你說(shuō)了算。

就連LeCun也出來(lái)力推自家的產(chǎn)品了,創(chuàng)意就不用說(shuō)了,關(guān)鍵還「可控」!

Make-A-Scene有多厲害,不如一起來(lái)看看。
Meta的神筆馬良
光說(shuō)不練,假把式!
我們這就看看,人們究竟會(huì)怎么用Make-A-Scene,來(lái)實(shí)現(xiàn)他們的想象力。
研究團(tuán)隊(duì)將和知名的人工智能藝術(shù)家一起來(lái)進(jìn)行Make-A-Scene的演示環(huán)節(jié)。

藝術(shù)家團(tuán)隊(duì)可謂陣容強(qiáng)大,包括Sofia Crespo、Scott Eaton、Alexander Reben和Refik Anadol等等,這些大師都有第一手的應(yīng)用生成性人工智能的使用經(jīng)驗(yàn)。
研發(fā)團(tuán)隊(duì)讓這些藝術(shù)家們用Make-A-Scene作為創(chuàng)作過(guò)程的一部分,邊使用邊反饋。
接下來(lái),我們就來(lái)欣賞一下大師們用Make-A-Scene創(chuàng)作出的作品吧。
例如,Sofia Crespo是一位專注于自然和技術(shù)交融的藝術(shù)家。她很愛想象從來(lái)沒(méi)存在過(guò)的人造生命形式感,所以她使用Make-A-Scene的素描和文本提示功能,創(chuàng)造了全新的「混合生物」。

比如,花形的水母。
Crespo利用它的自由繪畫功能,可以快速迭代新的想法。她表示,Make-A-Scene將有助于藝術(shù)家更好地發(fā)揮創(chuàng)造力,能讓藝術(shù)家使用更直觀的界面作畫。

(花型的水母)
Scott Eaton是一位藝術(shù)家、教育家和創(chuàng)意技術(shù)專家,他的工作是調(diào)研究當(dāng)代現(xiàn)狀和技術(shù)之間的關(guān)系。
他用Make-A-Scene作為一種構(gòu)成場(chǎng)景的方式,通過(guò)不同的提示來(lái)探索場(chǎng)景的變化,比如用類似「沙漠中沉沒(méi)和腐爛的摩天大樓」這種主題來(lái)強(qiáng)調(diào)氣候危機(jī)。

(沙漠中的摩天大樓)
Alexander Reben是一位藝術(shù)家、研究人員和機(jī)器人專家。
他認(rèn)為,如果能對(duì)輸出有更多的掌控,確實(shí)有助于表達(dá)自己的藝術(shù)意圖。他將這些工具融入了他正在進(jìn)行的系列作品之中。

而對(duì)于媒體藝術(shù)家和導(dǎo)演Refik Anadol來(lái)說(shuō),這個(gè)工具是一種促進(jìn)想象力發(fā)展、更好地探索未知領(lǐng)域的方式。

其實(shí),這個(gè)原型工具不僅僅是為對(duì)藝術(shù)有興趣的人準(zhǔn)備的。
研究團(tuán)隊(duì)相信,Make-A-Scene可以幫助任何人更好地表達(dá)自己,包括那些沒(méi)什么藝術(shù)細(xì)胞的人。
作為開始,研究團(tuán)隊(duì)向美達(dá)公司的員工提供了一部分使用權(quán)。他們正在測(cè)試并提供關(guān)于他們使用Make-A-Scene經(jīng)驗(yàn)的反饋。
美達(dá)公司的項(xiàng)目經(jīng)理Andy Boyatzis使用Make-A-Scene與他兩歲和四歲的孩子一起創(chuàng)造藝術(shù)。他們用俏皮的圖畫把他們的想法和想象力變成了現(xiàn)實(shí)。
以下就是他們的作品~

一只五彩斑斕的雕塑貓~是不是很可愛。但是這個(gè)色調(diào)其實(shí)有點(diǎn)不忍直視,像小孩把一大坨橡皮泥瞎揉到一起。

一只乘坐火車的怪獸熊。說(shuō)真的,密恐患者抓緊繞行。小編看完這張圖密恐直接竄到頂了。看看這詭異的胳膊,像臉一樣的身子,像眼珠子一樣的輪子...

一座山峰。講道理,這張圖蠻有意境的。但有沒(méi)有感覺(jué),遠(yuǎn)處的山和近處的小火車壓根不是一個(gè)畫風(fēng)?

背后技術(shù)
雖然目前的方法提供了文本和圖像域之間還算不錯(cuò)的轉(zhuǎn)換,但它們?nèi)匀挥袔讉€(gè)關(guān)鍵問(wèn)題沒(méi)有很好地解決:可控性、人類感知、圖像質(zhì)量。
該模型的方法一定程度提高了結(jié)構(gòu)一致性和圖像質(zhì)量。
整個(gè)場(chǎng)景由三個(gè)互補(bǔ)的語(yǔ)義分割組(全景、人類和人臉)組成。
通過(guò)組合三個(gè)提取的語(yǔ)義分割組,網(wǎng)絡(luò)學(xué)習(xí)生成語(yǔ)義的布局和條件,生成最終圖像。
為了創(chuàng)建場(chǎng)景的token空間,作者們采用了「VQ-SEG」,這是一項(xiàng)對(duì)「VQ-VAE」的改進(jìn)。
在該實(shí)現(xiàn)中,「VQ-SEG」的輸入和輸出都是m個(gè)通道。附加通道是分隔不同類和實(shí)例的邊的映射。邊緣通道為同一類的相鄰實(shí)例提供分離,并強(qiáng)調(diào)具有高度重要性的稀缺類。
在訓(xùn)練「VQ-SEG」網(wǎng)絡(luò)時(shí),由于每個(gè)人臉部分在場(chǎng)景空間中所占的像素?cái)?shù)量相對(duì)較少,因此導(dǎo)致了重建場(chǎng)景中代表人臉部分(如眼睛、鼻子、嘴唇、眉毛)的語(yǔ)義分割頻繁減少。
對(duì)此,作者們嘗試在分割人臉部分類的基礎(chǔ)上采用加權(quán)二元交叉熵人臉損失,更加突出人臉部分的重要性。此外,還將人臉部分的邊緣作為上述語(yǔ)義分割邊緣圖的一部分。
作者們采用了在ImageNet數(shù)據(jù)集上訓(xùn)練的預(yù)訓(xùn)練VGG網(wǎng)絡(luò),而不是專門的人臉嵌入網(wǎng)絡(luò),并引入了表示重建圖像和真實(shí)圖像之間感知差異的特征匹配損失。
通過(guò)使用特征匹配,給VQ-IMG中的encoder和decoder分別添加額外的上采樣層和下采樣層,便可以將輸出圖像的分辨率從256×256進(jìn)行提高。
想必大家對(duì)Transformer并不陌生,那么基于場(chǎng)景的Transformer又是什么呢?
它依賴于一個(gè)具有三個(gè)獨(dú)立連續(xù)的token空間的自回歸Transformer,即文本、場(chǎng)景和圖像。

token序列由BPE編碼器編碼的文本token、VQ-SEG編碼的場(chǎng)景token以及VQ-IMG編碼或者解碼的圖像token組成。
在訓(xùn)練基于場(chǎng)景的Transformer之前,每個(gè)編碼好的token序列都對(duì)應(yīng)一個(gè)[文本,場(chǎng)景,圖像]元組,使用相應(yīng)的encoder提取。
此外,作者們還采用了無(wú)分類器引導(dǎo),即將無(wú)條件樣本引導(dǎo)到條件樣本的過(guò)程。
該模型實(shí)現(xiàn)了SOTA結(jié)果。具體看一下和之前方法的效果對(duì)比


現(xiàn)在,研究人員還將Make-A-Scene整合了一個(gè)超分辨率網(wǎng)絡(luò),就可以生成2048x2048、4倍分辨率的圖像。
如下:

其實(shí),與其他生成AI模型一樣,Make-A-Scene通過(guò)對(duì)數(shù)百萬(wàn)個(gè)示例圖像進(jìn)行訓(xùn)練來(lái)學(xué)習(xí)視覺(jué)和文本之間的關(guān)系。
不可否認(rèn)的是,訓(xùn)練數(shù)據(jù)中反映的偏差會(huì)影響這些模型的輸出。
正如研究者所指出的那樣,Make-A-Scene還有很多地方有待提高。
