CVPR 2021 | “以音動(dòng)人”:姿態(tài)可控的語音驅(qū)動(dòng)說話人臉
點(diǎn)擊上方“機(jī)器學(xué)習(xí)與生成對抗網(wǎng)絡(luò)”,關(guān)注星標(biāo)
獲取有趣、好玩的前沿干貨!
文章來源 商湯學(xué)術(shù)
摘要 · 看點(diǎn)

Part 1 任務(wù)背景

Part 2 方法介紹


作為ID參考輸入,變形另一幀
為
,并將與
對齊的語音的頻譜
作為condition,試圖使用網(wǎng)絡(luò)恢復(fù)
。
得到Identity Space;借助之前的augmentation,我們通過encder
,得到Non-Identity Space。接下來的問題是如何發(fā)揮audio的作用,以及如何讓圖像只約束Pose而不控制嘴型。Learning Speech Content Space. 我們希望Non-Identity Space的feature經(jīng)過一個(gè)mapping
映射至speech content space中。而這一latent space的學(xué)習(xí),主要依賴音頻和視頻之間天然的對齊、同步信息(alignment)。在之前的工作中這已經(jīng)被證明是audio-visual領(lǐng)域用處最廣泛的自監(jiān)督之一[8]。在這里我們使用語音與人臉序列之間的對齊構(gòu)建contrastive loss進(jìn)行對齊的約束;對齊的人臉序列和語音特征
是正樣本,非對齊的
為負(fù)樣本。定義兩個(gè)feature之間的cos距離為
,這一約束可以表達(dá)為:

Devising Pose Code. 另一方面,我們借助3D表征中的piror knowledge。一個(gè)12維度的向量其實(shí)已經(jīng)足以表達(dá)人頭的姿態(tài),包括一個(gè)9維的旋轉(zhuǎn)矩陣,2維的平移和1維的尺度。所以我們使用一個(gè)額外的mapping,從Non-Identity Space中映射一個(gè)12維的Pose Code。這個(gè)維度上的設(shè)計(jì)非常重要,如何維度過大,這一latent code所表達(dá)的就可能超過pose信息,導(dǎo)致嘴型收到影響。
Part 3 實(shí)驗(yàn)結(jié)果
)。


Part 4 總結(jié)
在這個(gè)工作中,我們提出了Pose-Controllable Audio-Visual System (PC-AVS),成功在語音任意說話人的setting下,生成了姿態(tài)可控的結(jié)果。綜合來看我們的方法有以下幾個(gè)特質(zhì)值得關(guān)注:
我們的方法不借助預(yù)定義的結(jié)構(gòu)信息,僅使用一個(gè)圖像重建的pipeline,成功定義了一個(gè)對人臉pose的表征。 由style-based generator平衡的訓(xùn)練模式讓唇形生成收到更契合的重建約束,從而提升了唇形對齊的準(zhǔn)確度。 我們實(shí)現(xiàn)了任意說話人臉下的自由人頭姿態(tài)控制,使生成的結(jié)果更加真實(shí)。 我們的模型在極端情況下有很好的魯棒性,并且實(shí)現(xiàn)了轉(zhuǎn)正的說話人臉生成。
相關(guān)鏈接
Paper 地址:https://arxiv.org/abs/2104.11116
Github:https://github.com/Hangz-nju-cuhk/Talking-Face_PC-AVS
Project Page:https://hangz-nju-cuhk.github.io/projects/PC-AVS
招聘信息
商湯科技-數(shù)字人研發(fā)團(tuán)隊(duì)現(xiàn)正招聘全職AI研究員和工程師,以及研發(fā)實(shí)習(xí)生。我們的研究成果不僅在各大頂級視覺會(huì)議上發(fā)表,更在大量實(shí)際產(chǎn)品中落地。研發(fā)方向包括但不限于:圖像/視頻生成,人臉/人體重建,多模態(tài)學(xué)習(xí),語音分析等。對我們的研究感興趣的小伙伴,可以投遞簡歷至[email protected].
References
#What comprises a good talking-head video generation?: A Survey and Benchmark https://arxiv.org/abs/2005.03201#Joon Son Chung, Amir Jamaludin, and Andrew Zisserman. You said that? In BMVC, 2017. https://arxiv.org/abs/1705.02966#Hang Zhou, Yu Liu, Ziwei Liu, Ping Luo, and Xiaogang Wang. Talking face generation by adversarially disentangled audio-visual representation. In Proceedings of the AAAI ConConference on Artificial Intelligence (AAAI), 2019. https://arxiv.org/abs/1807.07860#Lele Chen, Ross K Maddox, Zhiyao Duan, and Chenliang Xu. Hierarchical cross-modal talking face generation with dynamic pixel-wise loss. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2019. https://www.cs.rochester.edu/u/lchen63/cvpr2019.pdf#Yang Zhou, Xintong Han, Eli Shechtman, Jose Echevarria, Evangelos Kalogerakis, and Dingzeyu Li. Makeittalk: Speaker-aware talking head animation. SIGGRAPH ASIA, 2020. https://arxiv.org/abs/2004.12992#Lele Chen, Guofeng Cui, Celong Liu, Zhong Li, Ziyi Kou, Yi Xu, and Chenliang Xu. Talking-head generation with rhythmic head motion. European Conference on Computer Vision (ECCV), 2020. https://www.cs.rochester.edu/u/lchen63/eccv2020-arxiv.pdf#Egor Burkov, Igor Pasechnik, Artur Grigorev, and Victor Lem-pitsky. Neural head reenactment with latent pose descriptors. In Proceedings of the IEEE Conference on Computer Visionand Pattern Recognition (CVPR), 2020. https://openaccess.thecvf.com/content_CVPR_2020/papers/Burkov_Neural_Head_Reenactment_with_Latent_Pose_Descriptors_CVPR_2020_paper.pdf#Joon Son Chung and Andrew Zisserman. Out of time: auto-mated lip sync in the wild. In ACCV Workshop, 2016. https://www.robots.ox.ac.uk/~vgg/publications/2016/Chung16a/chung16a.pdf#Tero Kar
猜您喜歡:
等你著陸!【GAN生成對抗網(wǎng)絡(luò)】知識星球!
附下載 | 經(jīng)典《Think Python》中文版
附下載 | 《Pytorch模型訓(xùn)練實(shí)用教程》
附下載 | 最新2020李沐《動(dòng)手學(xué)深度學(xué)習(xí)》
附下載 | 《可解釋的機(jī)器學(xué)習(xí)》中文版
附下載 |《TensorFlow 2.0 深度學(xué)習(xí)算法實(shí)戰(zhàn)》
附下載 | 超100篇!CVPR 2020最全GAN論文梳理匯總!
附下載 |《計(jì)算機(jī)視覺中的數(shù)學(xué)方法》分享
