危!我用python克隆了女朋友的聲音!
大家好,歡迎來到 Crossin的編程教室 !
今天,給大家介紹一個算法。
AI 算法 5 秒鐘,就能克隆你的聲音,你信嗎?
聽聽這段音頻,猜猜看是 AI 合成音,還是真人錄音?
答案是:AI 合成。
這個人的原始聲音在這里:
你給這個 AI 克隆聲音的算法打幾分?
上述兩個音頻,算法運行起來的效果:
MockingBird
這個算法是基于比較著名的 Real Time Voice Cloning 實現(xiàn)的。
MockingBird 是最近開源的中文版。
論文的名字是:
Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis
簡單介紹下:

算法分為三個模塊:encoder模塊、systhesis模塊、vocoder模塊。
encoder模塊將說話人的聲音轉(zhuǎn)換成人聲的數(shù)字編碼(speaker embedding) synthesis 模塊將文本轉(zhuǎn)換成梅爾頻譜(mel-spectrogram) vocoder模塊將梅爾頻譜(mel-spectrogram)轉(zhuǎn)換成(波形)waveform
具體的算法原理,大家可以看論文:
https://arxiv.org/pdf/1806.04558.pdf
項目地址:https://github.com/babysor/MockingBird
有深度學習基礎(chǔ)的話,這個應(yīng)該不難。
部署環(huán)境,分四步:
Anaconda 配置 Pytorch 開發(fā)環(huán)境 根據(jù)項目 requirements.txt 安裝第三方庫依賴 下載權(quán)重文件 下載訓練集,這個幾十G,有點大
具體的配置方法,直接看這里:
https://github.com/babysor/MockingBird/blob/main/README-CN.md
都搞定了,就可以運行代碼了。
有兩種模式可以啟動,Web 模式和工具箱模式。
在項目根目錄運行:
python web.py
即可開啟 Web ,打開地址 http://localhost:8080 就能操作了。

這個界面比較簡陋,建議使用工具箱模式。
python demo_toolbox.py -d <datasets_root>
datasets_root就是下載好的數(shù)據(jù)集的地址。

剩下的,就看各位的發(fā)揮啦。Enjoy it!
如果文章對你有幫助,歡迎轉(zhuǎn)發(fā)/點贊/收藏~
作者:Jack Cui
_往期文章推薦_
