微軟亞洲研究院最新研究成果:文字生成視頻,只需一步
編者按:隨著網(wǎng)絡(luò)性能的不斷提升,視頻已經(jīng)成為越來越多人獲取信息、娛樂休閑的主要方式,與此同時也涌現(xiàn)出了不少視頻的創(chuàng)作人員,他們將喜歡的人、事、物,以具有創(chuàng)意的視頻形式呈現(xiàn)出來,這讓和小編一樣毫無視頻創(chuàng)作細(xì)胞的小白羨慕不已。不過,這樣的能力你很快就可以借助技術(shù)實(shí)現(xiàn)了,微軟亞洲研究院提出的開放領(lǐng)域視頻生成預(yù)訓(xùn)練模型 GODIVA,基于 3D 注意力機(jī)制,克服了視頻幀連續(xù)性建模的挑戰(zhàn),可秒級實(shí)現(xiàn)基于文字腳本生成視頻。
提問:將大象放進(jìn)冰箱……?(bushi)再來一遍。
提問:從文字腳本到生成創(chuàng)意視頻一共分幾步?
回答:那步驟是相當(dāng)繁多,需要畫面構(gòu)思、分鏡設(shè)計(jì)、色彩搭配、場景篩選、元素點(diǎn)綴、實(shí)地拍攝、動畫制作等等… 可以說是跋山涉水、上天入地……
然而隨著人工智能技術(shù)的不斷發(fā)展,今后我們只需要輸入文字腳本便可直接生成視頻,一步即可完成。
近日,微軟亞洲研究院自然語言計(jì)算組發(fā)布了一項(xiàng)創(chuàng)新的研究成果——開放領(lǐng)域視頻生成預(yù)訓(xùn)練模型 GODIVA(論文鏈接:https://arxiv.org/abs/2104.14806),實(shí)現(xiàn)了文字到視頻的秒級生成,在視頻日漸成為主流傳播介質(zhì)的今天,未來每個人都有機(jī)會成為視頻制作達(dá)人。

是的,你沒有看錯,這是自然語言處理(NLP)領(lǐng)域研究員們的成果。為什么研究 NLP 的科學(xué)家們開始研究視頻了?他們又是如何實(shí)現(xiàn)這項(xiàng)技術(shù)的?接下來讓我們一探究竟。

事實(shí)上,通過文字閱讀、語言對話獲取信息,只是人類成長學(xué)習(xí)過程中的一部分,還有一部分信息來自于視覺方面的輸入,比如我們看到馬會在地上跑,不會在天上飛;鳥會在天上飛,不會在水里游,等等。由于這類信息被人們認(rèn)為是理所當(dāng)然的常識,基本不會頻繁體現(xiàn)在文字和語言中,所以研究員們在基于大規(guī)模文本訓(xùn)練 NLP 模型時,愈發(fā)感受到現(xiàn)有模型中常識類知識的缺乏,因?yàn)檫@些知識通常更多出現(xiàn)在圖片、視頻中。
此前受限于計(jì)算能力和 AI 跨領(lǐng)域處理方法的差異,跨領(lǐng)域、多模態(tài)的內(nèi)容學(xué)習(xí)很難。而近年來 NLP 技術(shù)快速發(fā)展,一些新的底層模型不斷涌現(xiàn),并且已經(jīng)開始被應(yīng)用于計(jì)算機(jī)視覺(CV)等其他領(lǐng)域的模型訓(xùn)練中,如 Transformer。
隨著自然語言處理與計(jì)算機(jī)視覺兩個領(lǐng)域之間底層模型共性的增多,兩個領(lǐng)域的研究人員也正在越來越多地嘗試對方領(lǐng)域的算法,以提升模型的表示能力、推理能力。在 NLP 領(lǐng)域的全球頂會 ACL 上,這些年出現(xiàn)了不少多模態(tài)問答、多模態(tài)摘要生成、多模態(tài)內(nèi)容檢索相關(guān)的論文;而在 CVPR 等計(jì)算機(jī)視覺領(lǐng)域的頂會上同樣也出現(xiàn)了很多融合了 NLP 任務(wù)的跨模態(tài)方法??珙I(lǐng)域、多模態(tài)的機(jī)器學(xué)習(xí)初見成效。
“從 NLP 領(lǐng)域的研究角度看,我們希望能夠從視頻或圖片的信號中學(xué)習(xí)到在文本中不太會做出描述的常識信息,以補(bǔ)充現(xiàn)有 NLP 模型所缺乏的常識或物理知識,最終讓 NLP 模型取得更好的效果。同時,這也可以讓 NLP 與圖片和視頻任務(wù)建立起內(nèi)在聯(lián)系,”微軟亞洲研究院自然語言計(jì)算組高級研究員段楠表示,“這是我們進(jìn)行視頻生成研究的初衷所在。”

目前常見的視頻生成技術(shù)主要基于生成式對抗網(wǎng)絡(luò)(GAN)進(jìn)行,而微軟亞洲研究院此次的視頻生成則是基于 VQ-VAE 技術(shù)。對 NLP 領(lǐng)域的研究人員來說,后者的技術(shù)路線與 NLP 領(lǐng)域的研究思路更加接近,它可以將視頻/圖片信息映射為文本,再通過序列化生成符號的角度進(jìn)行處理。
視頻和圖片在這里并沒有本質(zhì)區(qū)別,因?yàn)橐曨l可以被切分成很多個視頻幀,即圖片。利用 VQ-VAE 算法模型可以將每一個視頻幀編碼成離散向量表示,這樣圖片信息就可以對應(yīng)到相應(yīng)的文本,從而序列化為 NLP 最擅長處理的 token,充分利用現(xiàn)有的 NLP 模型和算法。在大規(guī)模數(shù)據(jù)預(yù)訓(xùn)練之后,再基于 VQ-VAE 模型將離散序列反向還原成視頻幀,并將所有幀連在一起,就形成了可視化的視頻。
該方法的好處是,所生成的每個視頻幀與文本的關(guān)聯(lián)性都很高,但如何確保生成視頻幀之間的流暢性以及如何解決生成視頻時遇到的長序列建模問題,則成為研究員們必須攻克的技術(shù)難點(diǎn)。針對上述兩個挑戰(zhàn),研究員們在幀與幀之間引入了一個 3D 稀疏注意力機(jī)制,在生成當(dāng)前幀的某一區(qū)域時,同時考慮該區(qū)域的行(Row)、列(Column)、時(Temporal)三個維度的視覺信息(如圖1所示)。

圖1:3D 稀疏注意力的掩碼矩陣
圖1給出了輸入文本長度為3個 token、輸出視頻為2幀、每幀由4個 token 組成時的 3D 稀疏注意力掩碼矩陣。其中,行表示模型需要生成的8個視覺 token (v_1, v_2,…, v_8),列表示生成該視覺 token 需要關(guān)注哪些 token。紅色、藍(lán)色、紫色分別表示行、列、時三種稀疏關(guān)注機(jī)制的獨(dú)有的關(guān)注,綠色表示三種關(guān)注機(jī)制共享的關(guān)注,黑色則表示不關(guān)注。例如,第一行前三列為綠色,表示在生成 v_1 的時候,三種關(guān)注機(jī)制都關(guān)注了所有的語言 token t_1, t_2, t_3。第二行表示前三列為綠色,第四列為藍(lán)色,表示在生成 v_2 的時候,除了三種關(guān)注機(jī)制都關(guān)注了 t_1, t_2, t_3 外,列關(guān)注機(jī)制還專門關(guān)注了 v_1。這是由于當(dāng)視頻的一幀由4個 token 組成時,v_1 是 v_2 的先前列 token(如圖2,對于 Column 軸而言,1在2之前)。再例如第4行就表示在生成 v_4 時,模型除了關(guān)注 t_1, t_2, t_3 外,行關(guān)注專門關(guān)注了 v_2,列關(guān)注專門關(guān)注了 v_4。從圖2可以看出,這是由于 v_2 是 v_4 的先前行 token,v_3 是 v_4 的先前列 token。值得一提的是,為了減少計(jì)算,模型不再關(guān)注與 v_4 間隔比較遠(yuǎn)的 v_1。

圖2:每幀視頻由4個 token 組成時的 token 排列
這樣有三個好處:其一,通過稀疏的注意力建模,模型省去了大量的運(yùn)算(可以從圖1看出,大量的位置都是黑色的),從而可以進(jìn)行長序列的建模。其二,行、列、時三個維度的關(guān)注使得模型在生成某一視覺區(qū)域時,同時考慮空間和時間的依賴性,從而能夠生成幀內(nèi)更平滑、幀間更流暢的視頻。其三,由于在生成每個視覺 token 的時候都會關(guān)注全部文本信息(圖1前3列都是綠色的),則生成的視頻和文本的一致性會比較好。

圖3:GODIVA 模型圖
圖3給出了 GODIVA 的整個模型圖??梢钥吹剑ㄟ^上述的行、列、時稀疏注意力的循環(huán)堆疊,模型可以迭代地生成視覺 token 序列。這些 token 組裝之后,通過 VQ-VAE 的解碼器就可以一幀一幀地輸出視頻了。
除了以上幾個技術(shù)方面的挑戰(zhàn),基于文字生成視頻的另一個難點(diǎn)是,對視頻生成效果的評價會相對主觀。同樣一段小孩與小狗在游泳池邊嬉戲的文字,對應(yīng)的視頻可能有千萬種呈現(xiàn)方式,很難通過標(biāo)注數(shù)據(jù)對生成的視頻進(jìn)行衡量,這給視頻生成研究的自動評價機(jī)制帶來了巨大挑戰(zhàn)。為了解決這個問題,微軟亞洲研究院的研究員們采用了人工審核與技術(shù)判別相結(jié)合的方式。在技術(shù)判別方面,研究員們基于 CLIP(論文鏈接:https://arxiv.org/abs/2103.00020)設(shè)計(jì)了自動評測指標(biāo) RM(Relative Matching):

其中,t 表示輸入文字描述,v^(l) 和 v ?^(l) 分別表示真實(shí)視頻 v 和生成視頻 v ? 中的第 l 幀,CLIP(t, v^(l) ) 表示基于 CLIP 模型計(jì)算的 t 和 v^(l) 之間的相似度。實(shí)驗(yàn)數(shù)據(jù)表明,該指標(biāo)能夠很好地將生成視頻所對應(yīng)的輸入文字描述從若干文字描述集合中選取出來(按照 RM 得分最大值,如圖4所示),從而證明了 GODIVA 生成的視頻內(nèi)容和輸入文字描述之間具有很好的相關(guān)性。

圖4:輸入文本和視頻標(biāo)準(zhǔn)答案之間的相似度
目前,GODIVA 在 HowTo100M 的公開數(shù)據(jù)集預(yù)訓(xùn)練,并在 MSR-VTT 公開數(shù)據(jù)集上 finetune(微調(diào)),取得了不錯的測試結(jié)果。盡管現(xiàn)有版本僅生成了十幀的視頻,但可以看出視頻有著較高的連貫性,而且與文本的相關(guān)性也很高,初步驗(yàn)證了基于文字生成視頻技術(shù)的可行性。隨著未來算法的更新和計(jì)算能力的提升,研究員們將進(jìn)一步完善視頻長度、畫質(zhì)分辨率等更多細(xì)節(jié)。
下面讓我們一起來看看目前 GODIVA 基于文字所生成的視頻效果:
輸入文本:Digit 9 is moving down then up. (數(shù)字9先向下,再向上移動)
輸出視頻:

輸入文本:Digit 7 moves right then left while digit 3 moves down then up. (數(shù)字7先向右,再向左移動;同時數(shù)字3先向下,再向上移動)
輸出視頻:

輸入文本:A baseball game is played. (正在舉行的棒球比賽)
輸出視頻:

輸入文本:A girl on the voice kids talks to the judges. (The Voice Kids 節(jié)目上,一個女孩在和評委說話)
輸出視頻:


對于視頻的生成,大家或許會有一個疑惑:AI 模型到底是根據(jù)文本去搜索、篩選了一個相符合的視頻,還是完全原創(chuàng)地生成了一個全新的視頻?這個問題有點(diǎn)哲學(xué),畢加索曾經(jīng)說過“Good artists copy, great artists steal(杰出的藝術(shù)家模仿,偉大的藝術(shù)家竊?。保囆g(shù)家的藝術(shù)創(chuàng)作都會把他們吸收到的各方精髓進(jìn)行融合、創(chuàng)新,所以 AI 也不能免俗。
通常,文字到視頻的生成可以分為三種:第一種,基于搜索,篩選出最相符的視頻(相關(guān)論文鏈接:https://arxiv.org/abs/2104.08860),這與在搜索引擎中查找圖片和視頻類似;第二種,根據(jù)文字描述搜集大量已有視頻,從不同的視頻中裁剪出與文字相符的部分,再進(jìn)行拼接,至于轉(zhuǎn)場、銜接是否絲滑,就要看模型的自身“功力”了;第三種,也是視頻生成的最高境界——從無到有地生成視頻,這就類似于我們經(jīng)過繁多的步驟去拍攝或制作一個視頻。
目前微軟亞洲研究院所做的基于文字生成視頻的技術(shù) GODIVA,大致介于第二種與第三種生成方式之間——部分是由 AI 模型截取于已有視頻,部分則是 AI 模型自身生成的。然而,分別以 VQ-VAE 和 GAN 為核心技術(shù)進(jìn)行的文字生成視頻,都存在一定的不足,但也各具優(yōu)勢。
“未來,VQ-VAE 和 GAN 兩個技術(shù)的相互融合、優(yōu)勢互補(bǔ)將會成為文字生成視頻的一個研究方向。我們也在嘗試創(chuàng)新地結(jié)合多種 AI 技術(shù),以提升生成視頻的內(nèi)容質(zhì)量和長度,并希望通過聚焦視頻理解與生成研究來促進(jìn) NLP 預(yù)訓(xùn)練模型在多模態(tài)處理和常識知識獲取等前沿領(lǐng)域的進(jìn)步,”段楠表示。
論文:GODIVA: Generating Open-DomaIn Videos from nAtural Descriptions
論文鏈接:https://arxiv.org/abs/2104.14806
論文作者:吳晨飛、黃倫(杜克大學(xué))、張虔熙、李鑌洋、紀(jì)蕾、楊凡、GuillermoSapiro(杜克大學(xué))、段楠

