更高清!谷歌推出生成文本到圖像的新框架 TReCS,效果超過AttGAN

??新智元報(bào)道??
【新智元導(dǎo)讀】谷歌研究人員推出新框架 TRECS,生成的圖像更逼真,更符合文字的描述。
?
近年來,基于生成對抗性網(wǎng)絡(luò)(GAN)的深層神經(jīng)網(wǎng)絡(luò)已經(jīng)大幅提高了端到端可訓(xùn)練的照片式文本到圖像的生成結(jié)果。許多方法也使用中間場景圖(intermediate scene graph)表示來改進(jìn)圖像合成的效果。
?
通過基于對話交互的方法允許用戶提供指令來逐步改進(jìn)和調(diào)整生成的場景:通過指定背景中對象的相對位置,為用戶提供了更大的控制權(quán)。然而,這種方法所使用的語言是有限制的,所產(chǎn)生的圖像僅限于3D合成可視化或者卡通。
?
本月初,OpenAI官宣了一個(gè)基于Transformer的語言模型DALL-E,使用了GPT-3的120億參數(shù)版本,引起了不小的轟動(dòng)。
?
根據(jù)文字提示,DALL-E生成的圖像可以像在現(xiàn)實(shí)世界中拍攝的一樣。
?

?
DALL-E同時(shí)接收文本和圖像作為單一數(shù)據(jù)流,包含多達(dá)1280個(gè)token,并使用最大似然估計(jì)來進(jìn)行訓(xùn)練,以一個(gè)接一個(gè)地生成所有的token。這個(gè)訓(xùn)練過程不僅允許DALL-E可以從頭開始生成圖像,而且還可以重新生成現(xiàn)有圖像的任何矩形區(qū)域,與文本提示內(nèi)容基本一致。
?
谷歌當(dāng)然不甘落后。
?
最近,谷歌研究院的成員們發(fā)表了一篇新論文:以細(xì)粒度用戶注意力為基礎(chǔ)的文本到圖像生成.
?

?
作者在論文中提出了一個(gè)新的框架:Tag-Retrieve-Compose Synthesize system (TReCS)。該方法通過改進(jìn)語言對圖像元素的喚醒方式和痕跡對圖像元素位置的告知方式,顯著提高了圖像生成過程。該系統(tǒng)使用了超過250億個(gè)樣本來進(jìn)行訓(xùn)練,并有可能處理103種語言。
?
這篇論文的主要貢獻(xiàn)在于:
?
1.第一次展示了在非常困難的文本到圖像合成任務(wù)中的能力(與之前關(guān)于更短的文本任務(wù)相比)。
?
2.提出了TRECS,這是一種序列生成模型,它使用最先進(jìn)的語言和視覺技術(shù)生成與語言和空間鼠標(biāo)軌跡一致的高質(zhì)量圖像。
?
3.進(jìn)行了自動(dòng)和人工評(píng)估,以證明TRECS生成的圖像質(zhì)量比現(xiàn)有技術(shù)有所提高。通過廣泛的研究,確定了TRECS管道的關(guān)鍵組成部分,這對于基于用戶注意力的文本到圖像生成任務(wù)至關(guān)重要。
?
具體效果如下:
?

?
或是這樣:
?

?
TRECS的亮點(diǎn)在于可以同時(shí)利用文本和鼠標(biāo)痕跡。相比對于其他策略,尤其是那些需要場景圖的策略,說話時(shí)用鼠標(biāo)指著是一種更自然的方式,供用戶在圖像合成過程中指示其意圖。
?

?
大致流程如下:
?
1.新的框架利用可控的鼠標(biāo)軌跡作為細(xì)粒度的視覺基礎(chǔ)來生成給定用戶敘述的高質(zhì)量圖像,標(biāo)記器用于預(yù)測短語中每個(gè)單詞的對象標(biāo)記。
?
2. 文本到圖像的雙重編碼器用語義相關(guān)的mask掩碼來檢索圖像。對于每個(gè)跟蹤序列,選擇一個(gè)mask來最大化空間重疊,克服了真實(shí)文本到對象的信息和更好的描述。
?
3. 選定的mask按照跟蹤順序組合,并為背景和前景對象分別繪制畫布。前景掩碼被置于背景掩碼之上,以創(chuàng)建一個(gè)完整的場景分割。
?
4. 最后,將整個(gè)分割過程輸入到掩碼到圖像的轉(zhuǎn)換模型中,合成出真實(shí)感圖像。
?
在評(píng)價(jià)方面,無論是自動(dòng)判斷還是人工評(píng)估,該系統(tǒng)都優(yōu)于目前 SOTA 的文本圖像生成技術(shù)。從日常語言中翻譯出來的雜亂的敘事文本中生成真實(shí)可控的照片,顯示了這種方法的可行性。同時(shí)TReCS 系統(tǒng)也解釋了冗長而復(fù)雜的文本描述來進(jìn)行文本-圖像生成的復(fù)雜性。實(shí)驗(yàn)結(jié)果表明,該方法可以有效地生成真實(shí)感強(qiáng)的文本圖像。
?
目前該方法還存在一定的限制,即:缺乏合適的評(píng)價(jià)指標(biāo)來定量測量生成的圖像的質(zhì)量?,F(xiàn)有的度量方法不能合理地反映基本真實(shí)圖像和機(jī)器生成的真實(shí)圖像之間的語義相似性。
?
不過,在未來的幾年里,這個(gè)想法或許可以用來支持各種應(yīng)用程序,并提供一個(gè)友好的人機(jī)界面。例如,可以幫助藝術(shù)家創(chuàng)建原型,從機(jī)器生成的照片中獲得洞察力,并生成逼真的圖像。此外,它可以用來設(shè)計(jì) human-in-the-loop 的評(píng)價(jià)系統(tǒng),以優(yōu)化網(wǎng)絡(luò)。
?
論文原文鏈接:
https://arxiv.org/pdf/2011.03775.pdf

