LSP,強得離譜!
大家好,我是 Jack。
LSP ,全稱是 Live Speech Portraits,實時肖像演講,簡稱 LSP。
想歪的,跟我一起面壁。
這個 LSP 可不簡單,是一個比較新的算法。
功能是,根據(jù)聲音,驅(qū)動人的頭像說話,滿足實時性要求。
我們直接看效果吧。
女生版:
男生版:
左下角是說話的人,上面是被驅(qū)動說話的畫面。
雖然畫面有時,看起來略顯生硬,不過已經(jīng)進步很多了。
再結(jié)合上兩天發(fā)過的,AI 聲音模仿算法。
聲音模仿算法 + LSP 算法。。技術(shù)再發(fā)展發(fā)展,著實需要當心了。
我能做的就是,做好科普,讓大家都了解這些新技術(shù)。
LSP
算法原理

LSP 由南京大學 Yuanxun Lu 等人發(fā)表。
LSP 算法的實現(xiàn)整體分為四個階段:
Deep Speech Eepresentation Extraction
采用深度神經(jīng)網(wǎng)絡(luò),提取音頻特征和流形投影,將這些特征投射到目標人的語音空間。
Audio to Mouth-related Motion
根據(jù)音頻特征中學習面部的運動,用的是 LSTM 和 MLP。
Probabilistic Head Motion Synthesis
根據(jù)音頻特征,預測頭部姿勢,上半身的運動。
Photorealistic Image Synthesis
根據(jù)前幾個階段的結(jié)果,生成條件特征圖,然后使用 Image to Image 算法進行驅(qū)動,生成真實的面部細節(jié),包括皺紋、牙齒等。
更詳細的算法原理,可以直接看論文:
https://yuanxunlu.github.io/projects/LiveSpeechPortraits/resources/SIGGRAPH_Asia_2021__Live_Speech_Portraits__Real_Time_Photorealistic_Talking_Head_Animation.pdf
算法測試
LSP 算法已經(jīng)開源,項目地址:
https://github.com/YuanxunLu/LiveSpeechPortraits
LSP 的開發(fā)環(huán)境配置起來也不麻煩,安裝個 ffmpeg,其它第三方庫按照 requirements.txt 安裝即可。

權(quán)重文件放在了 Google 云盤,2G 左右的文件,考慮到很多小伙伴下載不方便。
我?guī)痛蠹蚁螺d好了,公眾號后臺回復「lsp」即可獲取。
將下載好的內(nèi)容,拷貝到項目的 data 目錄下即可。
運行如下指令:
python?demo.py?--id?May?--driving_audio?./data/Input/00083.wav?--device?cuda
根據(jù)指定的音頻文件,進行驅(qū)動,我們可以替換這個音頻。
生成的結(jié)果放在 results 目錄下。
最后
感興趣的小伙伴可以試試這個算法。
哦,對了,說個題外話,最近看不少讀者在學 Python,所以出了一期視頻。
B 站視頻已發(fā),我花費了大量精力整理的 Python 學習路線,全面的知識點,包含每個階段的學習目標和學習資料,一些我看過的視頻、書籍、網(wǎng)站、文檔的推薦。
Python 學習路線一條龍,自學編程不迷茫,有需要的可以去看下:
https://www.bilibili.com/video/BV1Xf4y1j7Np
好了,就說這么多吧,我是 Jack,我們下期見!

推薦閱讀
?? ?危!我用python克隆了女朋友的聲音!?? ?好家伙,又火幾個。。????我,從高考到程序員的成長之路
