??新智元報(bào)道??

編輯：好困小咸魚(yú) LRS

【新智元導(dǎo)讀】微軟亞洲研究院、北京大學(xué)強(qiáng)強(qiáng)聯(lián)合提出了一個(gè)可以同時(shí)覆蓋語(yǔ)言、圖像和視頻的統(tǒng)一多模態(tài)預(yù)訓(xùn)練模型——NüWA（女?huà)z），直接包攬8項(xiàng)SOTA。其中，NüWA更是在文本到圖像生成中完虐OpenAI DALL-E。

太卷了，太卷了！

在幾年前，要說(shuō)AI能直接用一段文字描述生成清晰的圖像，那可真是天方夜譚。

結(jié)果現(xiàn)在，Transformer的出現(xiàn)徹底帶火了「多模態(tài)」這一領(lǐng)域。

照著文字「腦補(bǔ)」圖像居然都不稀奇了！

更夸張的是，竟然有AI已經(jīng)可以用文字描述去生成一段視頻了，看上去還挺像模像樣的。

這個(gè)AI不僅看文字描述可以生成視頻，給它幾幅草圖，一樣能「腦補(bǔ)」出視頻來(lái)！

這么秀的AI出自何方神圣啊？

答案是微軟亞洲研究院+北京大學(xué)強(qiáng)強(qiáng)聯(lián)合的研究團(tuán)隊(duì)！

最近，微軟可謂是跟OpenAI「干」上了。

前腳剛推出取得了40多個(gè)新SOTA的Florence「佛羅倫薩」吊打CLIP，橫掃40多個(gè)SOTA。

后腳就跟著放出NüWA「女?huà)z」對(duì)標(biāo)DALL-E。

今年1月，OpenAI官宣了120億參數(shù)的GPT-3變體DALL-E。

論文地址：https://arxiv.org/pdf/2102.12092.pdf

DALL-E會(huì)同時(shí)接收文本和圖像作為單一數(shù)據(jù)流，其中包含多達(dá)1280個(gè)token，并使用最大似然估計(jì)來(lái)進(jìn)行訓(xùn)練，以一個(gè)接一個(gè)地生成所有的token。

這個(gè)訓(xùn)練過(guò)程讓DALL-E不僅可以從頭開(kāi)始生成圖像，而且還可以重新生成現(xiàn)有圖像的任何矩形區(qū)域，與文本提示內(nèi)容基本一致。

從文本「一個(gè)穿著芭蕾舞裙遛狗的蘿卜寶寶」生成的圖像示例

同時(shí)，DALL-E也有能力對(duì)生成的圖像中的物體進(jìn)行操作和重新排列，從而創(chuàng)造出一些根本不存在的東西，比如一個(gè)「一個(gè)長(zhǎng)頸鹿烏龜」：

這次，MSRA和北大聯(lián)合團(tuán)隊(duì)提出的統(tǒng)一多模態(tài)預(yù)訓(xùn)練模型——NüWA（女?huà)z），則可以為各種視覺(jué)合成任務(wù)生成新的或編輯現(xiàn)有的圖像和視頻數(shù)據(jù)。

論文地址：https://arxiv.org/pdf/2111.12417.pdf

GitHub地址：https://github.com/microsoft/NUWA

為了在不同場(chǎng)景下同時(shí)覆蓋語(yǔ)言、圖像和視頻，團(tuán)隊(duì)設(shè)計(jì)了一個(gè)三維變換器編碼器-解碼器框架，它不僅可以處理作為三維數(shù)據(jù)的視頻，還可以適應(yīng)分別作為一維和二維數(shù)據(jù)的文本和圖像。

此外，論文還提出了一個(gè)3D鄰近注意（3DNA）機(jī)制，以考慮視覺(jué)數(shù)據(jù)的性質(zhì)并降低計(jì)算的復(fù)雜性。

在8個(gè)下游任務(wù)中，NüWA在文本到圖像生成、文本到視頻生成、視頻預(yù)測(cè)等方面取得了新的SOTA。其中，在文本到圖像生成中的表現(xiàn)直接超越DALL-E。

同時(shí)，NüWA在文本引導(dǎo)的圖像和視頻編輯任務(wù)中顯示出優(yōu)秀的zero-shot能力。

NüWA模型支持的8種典型視覺(jué)生成任務(wù)

8大SOTA效果搶先看

文字轉(zhuǎn)圖像（Text-To-Image，T2I）

草圖轉(zhuǎn)圖像（SKetch-to-Image，S2I）

圖像補(bǔ)全（Image Completion，I2I）

用文字指示修改圖像（Text-Guided Image Manipulation，TI2I）

文字轉(zhuǎn)視頻（Text-to-Video，T2V）

視頻預(yù)測(cè)（Video Prediction，V2V）

草圖轉(zhuǎn)視頻（Sketch-to-Video，S2V）

用文字指示修改視頻（Text-Guided Video Manipulation，TV2V）

NüWA為啥這么牛？

NüWA模型的整體架構(gòu)包含一個(gè)支持多種條件的adaptive編碼器和一個(gè)預(yù)訓(xùn)練的解碼器，能夠同時(shí)使圖像和視頻的信息。

對(duì)于圖像補(bǔ)全、視頻預(yù)測(cè)、圖像處理和視頻處理任務(wù)，將輸入的部分圖像或視頻直接送入解碼器即可。

NüWA的結(jié)構(gòu)概述

模型支持所有文本、圖像、視頻輸入，并將他們統(tǒng)一視作token輸入，所以可以定義一個(gè)統(tǒng)一的向量表示X，維度包括高度h、寬度w，時(shí)間軸上的token數(shù)量s，每個(gè)token的維度d。

文本天然就是離散的，所以使用小寫(xiě)后的byte pair encoding （BPE）來(lái)分詞，最終的維度為1×1×s×d中。因?yàn)槲谋緵](méi)有空間維度，所以高度和寬度都為1。

圖像輸入是連續(xù)的像素。每個(gè)圖像輸入的高度為h、寬度為w和通道數(shù)為c。使用VQ-VAE訓(xùn)練一個(gè)編碼把原始連續(xù)像素轉(zhuǎn)換為離散的token，訓(xùn)練后B[z]的維度為h×w×1×d作為圖像的表示，其中1 代表圖像沒(méi)有時(shí)序維度。

視頻可以被視為圖像的一種時(shí)序展開(kāi)，最近一些研究如VideoGPT和VideoGen將VQ-VAE編碼器中的卷積從2D擴(kuò)展到3D，并能夠訓(xùn)練一種針對(duì)視頻輸入的特殊表征。?

但這種方法無(wú)法使圖像和視頻的表示統(tǒng)一起來(lái)。研究人員證明了僅使用2D VQ-GAN 就能夠編碼視頻中的每一幀，并且能生成時(shí)序一致的視頻，結(jié)果表示維度為h×w×s×d，其中s代表視頻的幀數(shù)。

對(duì)于圖像素描（image sketch）來(lái)說(shuō)，可以將其視為具有特殊通道的圖像。

H×W的圖像分割矩陣中每個(gè)值代表像素的類(lèi)別，如果以one-hot編碼后維度為H×W×C，其中c是分割類(lèi)別的數(shù)目。通過(guò)對(duì)圖像素描進(jìn)行額外的VQ-GAN訓(xùn)練，最終得到圖像embedding表示維度為 h×w×1×d。同樣地，對(duì)于視頻草圖的embedding維度為h×w×s×d。

基于統(tǒng)一的3D表示，文中還提出一種新的注意力機(jī)制3D Nearby Self-Attention （3DNA）?，能夠同時(shí)支持self-attention 和cross-attention。

3DNA考慮了完整的鄰近信息，并為每個(gè)token動(dòng)態(tài)生成三維鄰近注意塊。注意力矩陣還顯示出3DNA的關(guān)注部分（藍(lán)色）比三維塊稀疏注意力和三維軸稀疏注意力更平滑。

不同的三維稀疏注意力機(jī)制的比較

基于3DNA，文中還引入了3D encoder-decoder，能夠在條件矩陣Y 為h'×w'×s'×d^{in}的情況下，生成h×w×s×d^{out} 的目標(biāo)矩陣C，其中Y和C由三個(gè)不同的詞典分別考慮高度，寬度和時(shí)序維度。

然后將條件C和一個(gè)堆疊的3DNA層輸入到編碼器中來(lái)建模自注意力的交互。

解碼器也是由3DNA層堆疊得到，能夠同時(shí)計(jì)算生成結(jié)果的self-attention和生成結(jié)果與條件之間的cross-attention。

最終的訓(xùn)練包含了三個(gè)目標(biāo)任務(wù)Text-to-Image（T2I）, Video Prediction （V2V）?和Text-to-Video（T2V），所以目標(biāo)函數(shù)包含三部分。

對(duì)于T2I和T2V任務(wù)，C^text表示文本條件。對(duì)于V2V任務(wù)，由于沒(méi)有文本輸入，所以c為一個(gè)常量，單詞None的3D表示，θ表示模型參數(shù)。

實(shí)驗(yàn)結(jié)果

文本轉(zhuǎn)圖像（T2I）

作者使用FID-k和Inception Score（IS）來(lái)分別評(píng)估質(zhì)量和種類(lèi)，并使用結(jié)合了CLIP模型來(lái)計(jì)算語(yǔ)義相似度的CLIPSIM指標(biāo)。

公平起見(jiàn)，所有的模型都使用256×256的分辨率，每個(gè)文本會(huì)生成60張圖像，并通過(guò)CLIP選擇最好的一張。

可以看到，NüWA以12.9的FID-0和0.3429的CLIPSIM成績(jī)，明顯地優(yōu)于CogView。

在MSCOCO（256×256）數(shù)據(jù)集上與SOTA的定量比較

盡管XMC-GAN的FID分?jǐn)?shù)為9.3，但與XMC-GAN的論文中完全相同的樣本相比，NüWA生成的圖像更加真實(shí)。特別是在右下角的那個(gè)例子中，男孩的臉更清晰，氣球也是正確的。

在MSCOCO（256×256）數(shù)據(jù)集上與SOTA的定性比較

文本轉(zhuǎn)視頻（T2V）

作者在Kinetics數(shù)據(jù)集上與現(xiàn)有的SOTA進(jìn)行了比較，其中，在FID-img和FID-vid指標(biāo)上評(píng)估視覺(jué)質(zhì)量，在生成視頻的標(biāo)簽準(zhǔn)確性上評(píng)估語(yǔ)義一致性。

顯然，NüWA在上述所有指標(biāo)上都取得了SOTA。

在Kinetics數(shù)據(jù)集上與SOTA的定量比較

此外，對(duì)于生成未見(jiàn)過(guò)的文本來(lái)說(shuō)，NüWA在定性比較中顯示出了強(qiáng)大的zero-shot能力，如「在游泳池打高爾夫球」以及「在海上跑步」。

在Kinetics數(shù)據(jù)集上與SOTA的定性比較

圖像補(bǔ)全（I2I）

作者定性地比較了NüWA的zero-shot圖像補(bǔ)全能力。

在只有塔的上半部分的情況下，與Taming Transformers相比，NüWA在對(duì)塔的下半部分進(jìn)行補(bǔ)全時(shí)，展現(xiàn)出更豐富的想象力，自主添加了建筑、湖泊、鮮花、草地、樹(shù)木、山脈等等。

以zero-shot方式與現(xiàn)有SOTA進(jìn)行定性比較

視頻預(yù)測(cè)（V2V）

作者在BAIR數(shù)據(jù)集上進(jìn)行了定量比較，其中，Cond.表示預(yù)測(cè)未來(lái)幀的幀數(shù)。

為了進(jìn)行公平的比較，所有的模型都使用64×64的分辨率。盡管只給了一幀作為條件（Cond.），NüWA仍將FVD的SOTA得分從94±2推至86.9。

在BAIR（64×64）數(shù)據(jù)集上與SOTA的定量比較

草圖轉(zhuǎn)圖像（S2I）

通過(guò)定性比較在MSCOCO上的表現(xiàn)可以看到，與Taming-Transformers和SPADE相比，NüWA生成的圖像種類(lèi)更多，有的甚至連窗戶(hù)上的反射也清晰可見(jiàn)。

在MSCOCO數(shù)據(jù)集上與SOTA的定性比較

用文本引導(dǎo)圖像修改（TI2I）

作者以zero-shot的方式對(duì)NüWA和現(xiàn)有SOTA進(jìn)行了定性的比較。

與Paint By Word相比，NüWA表現(xiàn)出了很強(qiáng)的編輯能力，在不改變圖像其他部分的情況下，產(chǎn)生了高質(zhì)量的結(jié)果。這得益于通過(guò)對(duì)各種視覺(jué)任務(wù)進(jìn)行多任務(wù)預(yù)訓(xùn)練而學(xué)到的真實(shí)世界的視覺(jué)模式。

比如在第三個(gè)例子中，由NüWA生成的藍(lán)色卡車(chē)更加逼真，而且后方的建筑物也沒(méi)有產(chǎn)生奇怪的變化。

另一個(gè)優(yōu)點(diǎn)是NüWA的推理速度，只需要50秒就能生成一幅圖像，而Paint By Words在推理過(guò)程中需要額外的訓(xùn)練，并需要大約300秒才能收斂。

以zero-shot方式與現(xiàn)有SOTA進(jìn)行定性比較

結(jié)論

文章提出了一種統(tǒng)一的預(yù)訓(xùn)練模型NüWA，這個(gè)女?huà)z不光能補(bǔ)天，也能造圖，可以為8個(gè)視覺(jué)合成任務(wù)生成新的或操作現(xiàn)有的圖像和視頻。

還提出了一個(gè)通用的3D encoder-decoder框架，能夠同時(shí)覆蓋文本、圖像和視頻。能同時(shí)考慮空間和時(shí)序維度的3D nearby-sparse attention機(jī)制。

這也是邁向人工智能平臺(tái)的重要一步，能夠讓計(jì)算機(jī)擁有視覺(jué)，并輔助內(nèi)容創(chuàng)作者生成一些人類(lèi)想象力以外的事。

P.S. 本文截圖由ReadPaper自動(dòng)截取生成（還挺好用，狗頭）。

參考資料：

https://arxiv.org/abs/2111.12417

https://github.com/microsoft/NUWA

AI能讀懂40種語(yǔ)言，15個(gè)語(yǔ)種拿下22項(xiàng)第一，背后是中國(guó)團(tuán)隊(duì)22年堅(jiān)守

圖像、視頻生成大一統(tǒng)！MSRA+北大全華班「女?huà)z」模型怒刷8項(xiàng)SOTA，完虐OpenAI DALL-E