<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          一張圖即出AI視頻!谷歌全新擴散模型,讓人物動起來

          共 3090字,需瀏覽 7分鐘

           ·

          2024-04-02 12:53



            新智元報道  

          編輯:alan
          【新智元導讀】近日,來自谷歌的研究人員發(fā)布了多模態(tài)擴散模型VLOGGER,只需一張照片,和一段音頻,就能直接生成人物說話的視頻!

          只需一張照片,和一段音頻,就能直接生成人物說話的視頻!

          近日,來自谷歌的研究人員發(fā)布了多模態(tài)擴散模型VLOGGER,讓我們朝著虛擬數(shù)字人又邁進了一步。

          論文地址:https://enriccorona.github.io/vlogger/paper.pdf

          VLOGGER接收單個輸入圖像,使用文本或者音頻驅(qū)動,生成人類說話的視頻,包括口型、表情、肢體動作等都非常自然。

          我們先來看幾個例子:

          如果感覺視頻使用別人的聲音有點違和,小編幫你關掉聲音:

          可以看出整個生成的效果是非常優(yōu)雅自然的。

          VLOGGER建立在最近生成擴散模型的成功之上,包括一個將人類轉(zhuǎn)成3D運動的模型,以及一個基于擴散的新架構,用于通過時間和空間控制,增強文本生成圖像的效果。

          VLOGGER可以生成可變長度的高質(zhì)量視頻,并且這些視頻可以通過人臉和身體的高級表示輕松控制。

          比如我們可以讓生成視頻中的人閉上嘴:

          或者閉上雙眼:

          與之前的同類模型相比,VLOGGER不需要針對個體進行訓練,不依賴于面部檢測和裁剪,而且包含了肢體動作、軀干和背景,——構成了可以交流的正常的人類表現(xiàn)。

          AI的聲音、AI的表情、AI的動作、AI的場景,人類開始的價值是提供數(shù)據(jù),再往后可能就沒什么價值了?

          在數(shù)據(jù)方面,研究人員收集了一個新的、多樣化的數(shù)據(jù)集MENTOR,比之前的同類數(shù)據(jù)集大了整整一個數(shù)量級,其中訓練集包括2200小時、800000個不同個體,測試集為120小時、4000個不同身份的人。

          研究人員在三個不同的基準上評估了VLOGGER,表明模型在圖像質(zhì)量、身份保存和時間一致性方面達到了目前的最優(yōu)。

          VLOGGER

          VLOGGER的目標是生成一個可變長度的逼真視頻,來描繪目標人說話的整個過程,包括頭部動作和手勢。

          如上圖所示,給定第1列所示的單個輸入圖像和一個示例音頻輸入,右列中展示了一系列合成圖像。

          包括生成頭部運動、凝視、眨眼、嘴唇運動,還有以前模型做不到的一點,生成上半身和手勢,這是音頻驅(qū)動合成的一大進步。

          VLOGGER采用了基于隨機擴散模型的兩階段管道,用于模擬從語音到視頻的一對多映射。

          第一個網(wǎng)絡將音頻波形作為輸入,以生成身體運動控制,負責目標視頻長度上的凝視、面部表情和姿勢。

          第二個網(wǎng)絡是一個包含時間的圖像到圖像的平移模型,它擴展了大型圖像擴散模型,采用預測的身體控制來生成相應的幀。為了使這個過程符合特定身份,網(wǎng)絡獲取了目標人的參考圖像。

          VLOGGER使用基于統(tǒng)計的3D身體模型,來調(diào)節(jié)視頻生成過程。給定輸入圖像,預測的形狀參數(shù)對目標標識的幾何屬性進行編碼。

          首先,網(wǎng)絡M獲取輸入語音,并生成一系列N幀的3D面部表情和身體姿勢。

          然后渲染移動3D身體的密集表示,以在視頻生成階段充當2D控件。這些圖像與輸入圖像一起作為時間擴散模型和超分辨率模塊的輸入。

          音頻驅(qū)動的運動生成

          管道的第一個網(wǎng)絡旨在根據(jù)輸入語音預測運動。此外還通過文本轉(zhuǎn)語音模型將輸入文本轉(zhuǎn)換為波形,并將生成的音頻表示為標準梅爾頻譜圖(Mel-Spectrograms)。

          管道基于Transformer架構,在時間維度上有四個多頭注意力層。包括幀數(shù)和擴散步長的位置編碼,以及用于輸入音頻和擴散步驟的嵌入MLP。

          在每一幀中,使用因果掩碼使模型只關注前一幀。模型使用可變長度的視頻進行訓練(比如TalkingHead-1KH數(shù)據(jù)集),以生成非常長的序列。

          研究人員采用基于統(tǒng)計的3D人體模型的估計參數(shù),來為合成視頻生成中間控制表示。

          模型同時考慮了面部表情和身體運動,以生成更好的表現(xiàn)力和動態(tài)的手勢。

          此外,以前的面部生成工作通常依賴于扭曲(warped)的圖像,但在基于擴散的架構中,這個方法被忽視了。

          作者建議使用扭曲的圖像來指導生成過程,這促進了網(wǎng)絡的任務并有助于保持人物的主體身份。

          生成會說話和移動的人類

          下一個目標是對一個人的輸入圖像進行動作處理,使其遵循先前預測的身體和面部運動。

          受ControlNet的啟發(fā),研究人員凍結了初始訓練的模型,并采用輸入時間控件,制作了編碼層的零初始化可訓練副本。

          作者在時間域中交錯一維卷積層,網(wǎng)絡通過獲取連續(xù)的N幀和控件進行訓練,并根據(jù)輸入控件生成參考人物的動作視頻。

          模型使用作者構建的MENTOR數(shù)據(jù)集進行訓練,因為在訓練過程中,網(wǎng)絡會獲取一系列連續(xù)的幀和任意的參考圖像,因此理論上可以將任何視頻幀指定為參考。

          不過在實踐中,作者選擇采樣離目標剪輯更遠的參考,因為較近的示例提供的泛化潛力較小。

          網(wǎng)絡分兩個階段進行訓練,首先在單幀上學習新的控制層,然后通過添加時間分量對視頻進行訓練。這樣就可以在第一階段使用大批量,并更快地學習頭部重演任務。

          作者采用的learning rate為5e-5,兩個階段都以400k的步長和128的批量大小訓練圖像模型。

          多樣性

          下圖展示了從一個輸入圖片生成目標視頻的多樣化分布。最右邊一列顯示了從80個生成的視頻中獲得的像素多樣性。

          在背景保持固定的情況下,人的頭部和身體顯著移動(紅色意味著像素顏色的多樣性更高),并且,盡管存在多樣性,但所有視頻看起來都很逼真。

          視頻編輯

          模型的應用之一是編輯現(xiàn)有視頻。在這種情況下,VLOGGER會拍攝視頻,并通過閉上嘴巴或眼睛等方式改變拍攝對象的表情。

          在實踐中,作者利用擴散模型的靈活性,對應該更改的圖像部分進行修復,使視頻編輯與原始未更改的像素保持一致。

          視頻翻譯

          模型的主要應用之一是視頻翻譯。在這種情況下,VLOGGER會以特定語言拍攝現(xiàn)有視頻,并編輯嘴唇和面部區(qū)域以與新音頻(例如西班牙語)保持一致。

          參考資料:
          https://enriccorona.github.io/vlogger/



          瀏覽 35
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  影音先锋AV麻豆啪啪资源网 | 国产操逼视频。 | 做爱视频在哪里可以看? | 久久久无码电影 | A A A片免费看视频 |