日韩黄色电影在线免费观看,久草男人天堂,久久久久草,欧美婷婷六月丁香综合色,国产精品久久,国产操逼视频福利,天天淫天天色天天奸,人人操人人青青草

點(diǎn)擊上方“機(jī)器學(xué)習(xí)與生成對抗網(wǎng)絡(luò)”，關(guān)注星標(biāo)

獲取有趣、好玩的前沿干貨！

文章來源商湯學(xué)術(shù)

摘要 · 看點(diǎn)

本文不使用任何人為定義的結(jié)構(gòu)信息（人臉關(guān)鍵點(diǎn)或者3D人臉模型），成功實(shí)現(xiàn)了人頭姿態(tài)可控的語音驅(qū)動(dòng)任意說話人臉生成。本文的關(guān)鍵在于，隱式地在潛空間（latent space）中定義了一個(gè)12維的姿態(tài)編碼，用于頭部運(yùn)動(dòng)控制。

本文相比于之前的方法，避免了關(guān)鍵點(diǎn)或者3D模型計(jì)算不準(zhǔn)確帶來的煩惱，又保持了自由度和魯棒性。實(shí)現(xiàn)了在語音控制準(zhǔn)確嘴型的同時(shí)，用另一段視頻控制頭部運(yùn)動(dòng)。在這一框架下，我們可以讓任何人說出馬老師經(jīng)典的“不講武德”發(fā)言，彩蛋在我們demo video的最后！

本文由香港中文-商湯聯(lián)合實(shí)驗(yàn)室，商湯科技和南洋理工大學(xué)S-Lab等合作完成。

生成圖像的嘴型由音頻控制，與音頻源視頻同步；

生成圖像頭部運(yùn)動(dòng)由姿態(tài)源控制，與下方視頻同步。

代碼一鍵能跑。我們的Demo video如下：

Part 1 任務(wù)背景

語音驅(qū)動(dòng)的說話人臉生成（Talking face, Talking head generation）這一課題本身有多種不同的實(shí)驗(yàn)設(shè)置。此方向的綜述可以參考 Lele Chen 的 What comprises a good talking-head video generation? : A Survey and Benchmark [1]。在這里本文Focus的方向?yàn)榛趩螐垐D像（One-shot），面向任意人臉，語音驅(qū)動(dòng)setting下的說話人臉生成問題。具體來說，我們希望基于一張圖片，生成與語音同步的說話人臉視頻。

這一setting下的工作包括 VGG 組的You said that? [2] ，CUHK（筆者自己）的DAVS [3]，樂樂的ATVG [4] 以及Adobe周洋和李丁博士的MakeitTalk [5]等等。整體來講，之前的工作[2][3][4]更多的關(guān)注于嘴型的準(zhǔn)確性和ID的保存上，從而忽略了頭部的自然運(yùn)動(dòng)。在本文中我們所試圖解決的，是之前說話人臉生成中人頭pose難以控制這一問題。

最近的Makeittalk[5]和樂樂的Rhythmic Head[6] 則關(guān)注于和個(gè)人ID信息有關(guān)的自然頭部運(yùn)動(dòng)。但是他們的方法都依賴于3D的結(jié)構(gòu)化信息。

想獨(dú)立控制頭部運(yùn)動(dòng)，就需要對Head pose和facial expression，identity做一個(gè)解耦。通過思考我們可以意識到，這種解耦在2D圖像和2D landmark的表征中都很難實(shí)現(xiàn)。而在我們語音驅(qū)動(dòng)的大前提下，嘴型要和audio對齊，頭部運(yùn)動(dòng)又要自然，可以說是難上加難。另一方面，3D的人臉表征中，head pose和facial expression可以天然地用不同的參數(shù)控制，可以說是最佳選擇。

因此之前的工作，Makeittalk[5]選擇了3D的人臉關(guān)鍵點(diǎn)，而Rhythmic Head[6]則直接依賴于完整地3D重建。但是基于3D的人臉建模，尤其是在極端場景下，開源方法的準(zhǔn)確度并無法保證。而基于優(yōu)化算法的3D fitting還會(huì)帶來大量的預(yù)處理負(fù)擔(dān)。所以本文不使用3D或結(jié)構(gòu)化數(shù)據(jù)，重新從2D入手解決問題。

Part 2 方法介紹

我們的方法Pose-Controllable Audio-Visual System (PC-AVS)直接在特征學(xué)習(xí)和圖像重建的框架下，實(shí)現(xiàn)了對人頭pose的自由控制。我們的核心在于隱式地在潛空間（latent space）中定義了一個(gè)12維的姿態(tài)編碼，而這一設(shè)計(jì)源于對去年CVPR利用styleGAN實(shí)現(xiàn)Face Reeanctment[7]的工作（如下圖）的參考。

但他們工作中只說明了styleGAN可以使用augmented frame進(jìn)行圖像到圖像的控制。而在語音驅(qū)動(dòng)的說話人臉問題中，condition實(shí)際來自audio的場景下，直接暴力借用這一框架將難以進(jìn)行訓(xùn)練，因?yàn)檎Z音并不能提供人臉姿態(tài)信息。

基于對說話人臉的觀察，我們在文中把a(bǔ)ugmented圖像的潛空間，定義為無ID空間（Non-Identity Space）。直觀上講，在此空間中，我們可以重新尋找嘴型與語音關(guān)聯(lián)的說話內(nèi)容空間（Speech Contant Space），和表示頭部運(yùn)動(dòng)的姿態(tài)空間（Pose Space）。

我們工作的完整pipeline如下圖所示，訓(xùn)練數(shù)據(jù)使用的是大量的含語音視頻。我們使用任意的一幀

作為ID參考輸入，變形另一幀

為

，并將與

對齊的語音的頻譜

作為condition，試圖使用網(wǎng)絡(luò)恢復(fù)

。

使用數(shù)據(jù)集的ID約束，我們可以通過ID encoder

得到Identity Space；借助之前的augmentation，我們通過encder

,得到Non-Identity Space。接下來的問題是如何發(fā)揮audio的作用，以及如何讓圖像只約束Pose而不控制嘴型。

Learning Speech Content Space. 我們希望Non-Identity Space的feature經(jīng)過一個(gè)mapping 映射至speech content space中。而這一latent space的學(xué)習(xí)，主要依賴音頻和視頻之間天然的對齊、同步信息（alignment）。在之前的工作中這已經(jīng)被證明是audio-visual領(lǐng)域用處最廣泛的自監(jiān)督之一[8]。在這里我們使用語音與人臉序列之間的對齊構(gòu)建contrastive loss進(jìn)行對齊的約束；對齊的人臉序列和語音特征是正樣本，非對齊的為負(fù)樣本。定義兩個(gè)feature之間的cos距離為，這一約束可以表達(dá)為：

Devising Pose Code. 另一方面，我們借助3D表征中的piror knowledge。一個(gè)12維度的向量其實(shí)已經(jīng)足以表達(dá)人頭的姿態(tài)，包括一個(gè)9維的旋轉(zhuǎn)矩陣，2維的平移和1維的尺度。所以我們使用一個(gè)額外的mapping，從Non-Identity Space中映射一個(gè)12維的Pose Code。這個(gè)維度上的設(shè)計(jì)非常重要，如何維度過大，這一latent code所表達(dá)的就可能超過pose信息，導(dǎo)致嘴型收到影響。

最后我們把 Identity Space，Speech Content Space 和 Pose code 結(jié)合起來，送入基于StyleGAN2[9]改造的Generator。這三者的信息在Generator中通過圖像重建訓(xùn)練進(jìn)行平衡，loss形式使用了pix2pixHD的重建訓(xùn)練loss。在訓(xùn)練中，pose code起作用的原理是，在ID和pose信息都顯式地被約束的前提下，Pose Code最容易學(xué)到的信息是改變?nèi)祟^的姿態(tài)，以減少重建的loss。在這一目標(biāo)下，因?yàn)樽藨B(tài)逐漸與我們的目標(biāo)貼合，嘴型的重建約束也會(huì)反過來幫助audio feature的學(xué)習(xí)，從而達(dá)到平衡。

Part 3 實(shí)驗(yàn)結(jié)果

我們在數(shù)值上和質(zhì)量上與之前SOTA的任意語音驅(qū)動(dòng)人臉的方法進(jìn)行了對比。在數(shù)值上，我們對比了LRW和VoxCeleb2兩個(gè)數(shù)據(jù)集，重點(diǎn)關(guān)注于生成圖像還原度（SSIM），圖像清晰度（CPDB），生成嘴型landmark的準(zhǔn)確度（LMD）和生成嘴型與音頻的同步性，使用SyncNet[8]的confidence score評價(jià)（

）。

我們與之前方法的對比圖如下所示：

更多的Ablation和結(jié)果可以參考我們的paper和demo video，這邊展示了在極端情況（大角度，低分辨率）的生成結(jié)果。展示了如果我們把pose code置0，可以實(shí)現(xiàn)轉(zhuǎn)正的說話人臉效果。

Part 4 總結(jié)

在這個(gè)工作中，我們提出了Pose-Controllable Audio-Visual System (PC-AVS)，成功在語音任意說話人的setting下，生成了姿態(tài)可控的結(jié)果。綜合來看我們的方法有以下幾個(gè)特質(zhì)值得關(guān)注：

我們的方法不借助預(yù)定義的結(jié)構(gòu)信息，僅使用一個(gè)圖像重建的pipeline，成功定義了一個(gè)對人臉pose的表征。
由style-based generator平衡的訓(xùn)練模式讓唇形生成收到更契合的重建約束，從而提升了唇形對齊的準(zhǔn)確度。
我們實(shí)現(xiàn)了任意說話人臉下的自由人頭姿態(tài)控制，使生成的結(jié)果更加真實(shí)。
我們的模型在極端情況下有很好的魯棒性，并且實(shí)現(xiàn)了轉(zhuǎn)正的說話人臉生成。

相關(guān)鏈接

Paper 地址：https://arxiv.org/abs/2104.11116

Github：https://github.com/Hangz-nju-cuhk/Talking-Face_PC-AVS

Project Page：https://hangz-nju-cuhk.github.io/projects/PC-AVS

招聘信息

商湯科技-數(shù)字人研發(fā)團(tuán)隊(duì)現(xiàn)正招聘全職AI研究員和工程師，以及研發(fā)實(shí)習(xí)生。我們的研究成果不僅在各大頂級視覺會(huì)議上發(fā)表，更在大量實(shí)際產(chǎn)品中落地。研發(fā)方向包括但不限于：圖像/視頻生成，人臉/人體重建，多模態(tài)學(xué)習(xí)，語音分析等。對我們的研究感興趣的小伙伴，可以投遞簡歷至[email protected].

References

#What comprises a good talking-head video generation?: A Survey and Benchmark https://arxiv.org/abs/2005.03201#Joon Son Chung, Amir Jamaludin, and Andrew Zisserman. You said that? In BMVC, 2017. https://arxiv.org/abs/1705.02966#Hang Zhou, Yu Liu, Ziwei Liu, Ping Luo, and Xiaogang Wang. Talking face generation by adversarially disentangled audio-visual representation. In Proceedings of the AAAI ConConference on Artificial Intelligence (AAAI), 2019. https://arxiv.org/abs/1807.07860#Lele Chen, Ross K Maddox, Zhiyao Duan, and Chenliang Xu. Hierarchical cross-modal talking face generation with dynamic pixel-wise loss. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2019. https://www.cs.rochester.edu/u/lchen63/cvpr2019.pdf#Yang Zhou, Xintong Han, Eli Shechtman, Jose Echevarria, Evangelos Kalogerakis, and Dingzeyu Li. Makeittalk: Speaker-aware talking head animation. SIGGRAPH ASIA, 2020. https://arxiv.org/abs/2004.12992#Lele Chen, Guofeng Cui, Celong Liu, Zhong Li, Ziyi Kou, Yi Xu, and Chenliang Xu. Talking-head generation with rhythmic head motion. European Conference on Computer Vision (ECCV), 2020. https://www.cs.rochester.edu/u/lchen63/eccv2020-arxiv.pdf#Egor Burkov, Igor Pasechnik, Artur Grigorev, and Victor Lem-pitsky. Neural head reenactment with latent pose descriptors. In Proceedings of the IEEE Conference on Computer Visionand Pattern Recognition (CVPR), 2020.  https://openaccess.thecvf.com/content_CVPR_2020/papers/Burkov_Neural_Head_Reenactment_with_Latent_Pose_Descriptors_CVPR_2020_paper.pdf#Joon Son Chung and Andrew Zisserman. Out of time: auto-mated lip sync in the wild. In ACCV Workshop, 2016. https://www.robots.ox.ac.uk/~vgg/publications/2016/Chung16a/chung16a.pdf#Tero Kar

猜您喜歡：

等你著陸！【GAN生成對抗網(wǎng)絡(luò)】知識星球！

超100篇！CVPR 2020最全GAN論文梳理匯總！

附下載 | 《Python進(jìn)階》中文版

附下載 | 經(jīng)典《Think Python》中文版

附下載 | 《Pytorch模型訓(xùn)練實(shí)用教程》

附下載 | 《可解釋的機(jī)器學(xué)習(xí)》中文版

附下載 |《TensorFlow 2.0 深度學(xué)習(xí)算法實(shí)戰(zhàn)》

附下載 | 超100篇！CVPR 2020最全GAN論文梳理匯總！

附下載 |《計(jì)算機(jī)視覺中的數(shù)學(xué)方法》分享

CVPR 2021 | “以音動(dòng)人”：姿態(tài)可控的語音驅(qū)動(dòng)說話人臉