<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          Google又一個(gè)狠活!首個(gè)文本視頻生成模型

          共 3388字,需瀏覽 7分鐘

           ·

          2022-10-15 08:37

          來(lái)源:新智元
          【導(dǎo)讀】剛做完畫(huà)家,普通人又能當(dāng)導(dǎo)演了?

          基于文本的圖像生成模型效果驚艷,可以說(shuō)是時(shí)下討論最火熱的AI研究領(lǐng)域了,內(nèi)行外行都能看個(gè)熱鬧。


          那要是讓照片動(dòng)起來(lái),效果是不是更賽博朋克了?


          最近Google投稿ICLR 2023的一篇論文在生成模型界又掀起波瀾,除了讓照片動(dòng)起來(lái),文中提出的Phenaki模型還可以在文本描述中添加劇情,讓視頻內(nèi)容更豐富。

          論文鏈接:https://openreview.net/forum?id=vOEXS39nOF

          比如輸入文本:

          A photorealistic teddy bear is swimming in the ocean at San Francisco.
          一只逼真的泰迪熊在舊金山的大海里游泳。
          The teddy bear goes under water.
          泰迪熊進(jìn)入水中。
          The teddy bear keeps swimming under the water with colorful fishes.
          泰迪熊在水中不斷地游動(dòng),旁邊有五顏六色的魚(yú)
          A panda bear is swimming under water.
          一只大熊貓?jiān)谒子斡?/span>



          如果說(shuō)前面還算合理,看到最后泰迪熊變身大熊貓,實(shí)在繃不住了。

          反轉(zhuǎn)放短視頻平臺(tái)上不得幾百萬(wàn)點(diǎn)贊,豆瓣評(píng)分都得9.9,扣0.1分怕你驕傲。

          再來(lái)一個(gè)例子,依然能完美還原劇本。
          Side view of an astronaut is walking through a puddle on mars
          宇航員在火星上走過(guò)水坑的側(cè)影
          The astronaut is dancing on mars
          宇航員在火星上跳舞
          The astronaut walks his dog on mars
          宇航員在火星上帶著他的狗散步
          The astronaut and his dog watch fireworks
          宇航員和他的狗觀看煙花


          一人一狗,外太空,看的有點(diǎn)感動(dòng)怎么回事。

          相比文本引導(dǎo)的圖像生成模型來(lái)說(shuō),生成視頻的計(jì)算成本更高,高質(zhì)量的文本-視頻訓(xùn)練數(shù)據(jù)也要少的多,并且輸入的視頻長(zhǎng)度參差不齊等問(wèn)題,從文本中直接生成視頻更困難。

          為了解決這些問(wèn)題,Phenaki引入了一個(gè)學(xué)習(xí)視頻表示的新模型,將視頻壓縮后用離散tokens進(jìn)行表征,tokenizer在時(shí)間維度上使用因果注意力(causal attention)來(lái)處理不同長(zhǎng)度的視頻,然后使用一個(gè)預(yù)訓(xùn)練的雙向掩碼Transformer模型對(duì)文本進(jìn)行編碼直接生成視頻。


          為了解決數(shù)據(jù)問(wèn)題,研究人員提出一種聯(lián)合訓(xùn)練方法,使用大量的文本-圖像語(yǔ)料以及少量的文本-視頻語(yǔ)料實(shí)現(xiàn)更好的泛化性能。

          與之前的視頻生成方法相比,Phenaki支持任意領(lǐng)域的文本故事,劇情可以隨時(shí)間變化且能夠生成任意長(zhǎng)度的視頻。

          這也是第一次有論文研究從時(shí)間可變的文本提示中生成視頻,并且文中提出的視頻編碼器/解碼器在空間和時(shí)間上的質(zhì)量均優(yōu)于其他模型。

          從文本到視頻


          從本質(zhì)上講,雖然視頻就是一個(gè)圖像序列,但生成一個(gè)長(zhǎng)且連貫的視頻卻并不容易。

          圖像領(lǐng)域不缺訓(xùn)練數(shù)據(jù),比如LAION-5B, FFT4B等數(shù)據(jù)集都包括數(shù)十億的文本-圖像數(shù)據(jù)對(duì),而文本-視頻數(shù)據(jù)集如WebVid則只有大約一千萬(wàn)個(gè)視頻,遠(yuǎn)遠(yuǎn)不夠支撐開(kāi)放領(lǐng)域的視頻生成。

          從計(jì)算力上來(lái)看,訓(xùn)練和推理圖像生成模型已經(jīng)快把GPU的性能榨干了,是否能擠出計(jì)算空間留給視頻生成解碼器也是一個(gè)要解決的問(wèn)題。

          文本引導(dǎo)的視頻生成任務(wù)還有一個(gè)難點(diǎn),一小段文本對(duì)于圖片生成來(lái)說(shuō)可能足夠描述細(xì)節(jié),但對(duì)于一個(gè)長(zhǎng)視頻來(lái)說(shuō)遠(yuǎn)遠(yuǎn)不夠,并且視頻包括上下文,即下一個(gè)片段的生成需要以當(dāng)前片段作為條件,隨著時(shí)間的推移,故事逐漸展開(kāi)。


          理想情況下,視頻生成模型必須能夠生成任意長(zhǎng)度的視頻,同時(shí)有能力將某一時(shí)刻的生成幀以當(dāng)前時(shí)刻的文本提示作為條件,這些文本提示會(huì)隨時(shí)間步變化。

          這種能力可以將視頻與會(huì)動(dòng)的圖像明確區(qū)分開(kāi)來(lái),并為藝術(shù)、設(shè)計(jì)和內(nèi)容創(chuàng)作等現(xiàn)實(shí)世界創(chuàng)造性應(yīng)用開(kāi)辟道路。

          在此之前,基于故事的有條件視頻生成(story based conditional video generation)是一塊從未被探索過(guò)的領(lǐng)域,這就是第一篇朝該目標(biāo)邁出的論文。

          想要用傳統(tǒng)的深度學(xué)習(xí)方法,即直接從數(shù)據(jù)中學(xué)習(xí)視頻生成是不可能的,因?yàn)闆](méi)有基于故事的數(shù)據(jù)集可以學(xué)習(xí)。

          為了實(shí)現(xiàn)這一目標(biāo),研究人員為Phenaki模型設(shè)計(jì)了兩個(gè)組件,一個(gè)編碼器-解碼器模型用來(lái)把視頻壓縮成離散的embeddings,以及一個(gè)Transformer模型,把文本embeddings翻譯成視頻tokens,其中文本向量由預(yù)訓(xùn)練模型T5X進(jìn)行編碼。


          1、編碼器-解碼器視頻模型:C-VIVIT

          這個(gè)模塊要解決的主要問(wèn)題是如何獲得視頻的壓縮表征,之前關(guān)于文本轉(zhuǎn)視頻的工作要么對(duì)每幀圖像進(jìn)行編碼,但對(duì)視頻長(zhǎng)度有限制;要么使用固定長(zhǎng)度的視頻編碼器,無(wú)法生成可變長(zhǎng)度的視頻。

          C-ViViT是ViViT的因果變體,專(zhuān)門(mén)為視頻生成任務(wù)調(diào)整了模型架構(gòu),可以在時(shí)間和空間維度上壓縮視頻,同時(shí)在時(shí)間維度上保持自回歸,從而允許自回歸地生成任意長(zhǎng)度的視頻。


          首先在空間和時(shí)間Transformer中刪除[CLS]標(biāo)記,然后對(duì)所有由空間編碼器計(jì)算的空間token使用時(shí)間Transfomrer,與ViViT中對(duì)[CLS]標(biāo)記的單一時(shí)間Transformer的運(yùn)行不同。

          最重要的是,ViViT編碼器需要一個(gè)固定長(zhǎng)度的視頻輸入,因?yàn)樗跁r(shí)間上采用的是all-to-all注意力。將其替換為因果注意力之后,C-ViViT編碼器就會(huì)變成自回歸,并允許輸入幀的數(shù)量可變。

          2、使用雙向Transformers從文本中生成視頻

          可以把文本到視頻的任務(wù)看作是sequence-to-sequence的問(wèn)題,以預(yù)測(cè)輸入的文本向量對(duì)應(yīng)的視頻tokens

          大部分的seq-to-seq模型都使用自回歸Transformer,根據(jù)編碼的文本特征按照順序預(yù)測(cè)圖像或視頻tokens,即采樣時(shí)間與序列長(zhǎng)度成線性關(guān)系,對(duì)于長(zhǎng)視頻的生成來(lái)說(shuō)是不可接受的。

          Phenaki采用掩碼雙向Transformer,通過(guò)一個(gè)小且固定的采樣步驟來(lái)減少采樣時(shí)間,而無(wú)需考慮不同的視頻序列長(zhǎng)度,雙向Transfomrer可以同時(shí)預(yù)測(cè)不同的視頻tokens


          在每個(gè)訓(xùn)練步驟,首先從0到1中隨機(jī)選擇一個(gè)掩碼比率,并根據(jù)視頻長(zhǎng)度隨機(jī)地用特殊標(biāo)記[MASK]替換一部分token

          然后根據(jù)給定的文本向量和未掩碼的視頻tokens,通過(guò)最小化掩碼token的交叉熵?fù)p失來(lái)學(xué)習(xí)模型參數(shù)。

          在推理過(guò)程中,首先將所有的視頻tokens標(biāo)記為特殊詞[MASK],然后在每個(gè)推理步驟中,根據(jù)文本向量和未掩碼的(要預(yù)測(cè)的)視頻tokens,平行地預(yù)測(cè)所有被掩碼(未知)的視頻token

          在每個(gè)采樣步驟中,選擇一個(gè)預(yù)測(cè)token的比例,其余的tokens在下一步中將被重新掩碼和重新預(yù)測(cè)。

          對(duì)于長(zhǎng)視頻的推理和自回歸生成,使用事前訓(xùn)練(classifier-free)的引導(dǎo)來(lái)控制生成和文本條件之間的一致性。


          一旦生成了第一個(gè)視頻,就可以通過(guò)使用C-ViViT對(duì)最后一個(gè)視頻中的最后K個(gè)生成的幀進(jìn)行編碼,自動(dòng)遞歸地推理出其他幀。

          用C-ViViT編碼器計(jì)算出的token初始化MaskGIT,并繼續(xù)生成以文本輸入為條件的剩余視頻標(biāo)記。

          在視頻推理過(guò)程中,文本條件可以是相同的,也可以是不同的,這也使得該模型能夠在之前和當(dāng)前文本條件的視覺(jué)內(nèi)容之間動(dòng)態(tài)地創(chuàng)建視覺(jué)過(guò)渡,有效地生成一個(gè)由輸入文本描述的視覺(jué)故事。

          最終,研究人員在1500萬(wàn)8FPS的文本-視頻對(duì),5000萬(wàn)個(gè)文本-圖像對(duì),以及4億混合語(yǔ)料庫(kù)LAION-400M上進(jìn)行訓(xùn)練,最終Phenaki模型參數(shù)量為18億。

          batch size為512的情況下訓(xùn)練了100萬(wàn)步,用時(shí)不到5天,其中80%的訓(xùn)練數(shù)據(jù)來(lái)自視頻數(shù)據(jù)集。

          在視覺(jué)的定性評(píng)價(jià)上,可以看到模型對(duì)視頻中的人物和背景動(dòng)態(tài)的控制程度都很高,并且外觀和視頻的風(fēng)格也可以通過(guò)文本提示來(lái)調(diào)整(例如,普通視頻、卡通或鉛筆畫(huà))


          在定量比較上,Phenaki在zero-shot設(shè)置下實(shí)現(xiàn)了和其他模型相當(dāng)?shù)纳少|(zhì)量。


          在考慮訓(xùn)練數(shù)據(jù)的影響時(shí),可以發(fā)現(xiàn)在只用視頻訓(xùn)練的模型和用更多的圖像數(shù)據(jù)訓(xùn)練的模型之間存在著性能上的權(quán)衡。
          參考資料:
          https://phenaki.video/

          瀏覽 31
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  人人摸人人爱 | 黄片操B| 影音先锋久久久久AV综合网成人 | 水密桃视频网站 | 色婷婷久久综合中文久久蜜桃Av |