VALL-E X多語(yǔ)言文本到語(yǔ)音合成與語(yǔ)音克隆
微軟 VALL-E X 零樣本語(yǔ)音合成模型的開(kāi)源實(shí)現(xiàn)。預(yù)訓(xùn)練模型現(xiàn)已向公眾開(kāi)放,供研究或應(yīng)用使用。
VALL-E X 是一個(gè)強(qiáng)大而創(chuàng)新的多語(yǔ)言文本轉(zhuǎn)語(yǔ)音(TTS)模型,最初由微軟發(fā)布。雖然微軟最初在他們的研究論文中提出了該概念,但并未發(fā)布任何代碼或預(yù)訓(xùn)練模型。
VALL-E X 可以為單語(yǔ)使用者合成另一種語(yǔ)言的個(gè)性化語(yǔ)音。以源自源文本和目標(biāo)文本的音素序列以及源自音頻編解碼器模型的源聲學(xué)標(biāo)記作為提示,VALL-E X 能夠生成目標(biāo)語(yǔ)言的聲學(xué)標(biāo)記,然后將其解壓縮為目標(biāo)語(yǔ)言語(yǔ)音波形。得益于強(qiáng)大的上下文學(xué)習(xí)能力,VALL-E X不需要同一說(shuō)話人的跨語(yǔ)言語(yǔ)音數(shù)據(jù)進(jìn)行訓(xùn)練,可以執(zhí)行各種零樣本跨語(yǔ)言語(yǔ)音生成任務(wù),例如跨語(yǔ)言文本到-語(yǔ)音合成和語(yǔ)音到語(yǔ)音翻譯。
功能特點(diǎn)
-
多語(yǔ)言 TTS: 可使用三種語(yǔ)言 - 英語(yǔ)、中文和日語(yǔ) - 進(jìn)行自然、富有表現(xiàn)力的語(yǔ)音合成。
-
零樣本語(yǔ)音克隆: 僅需錄制任意說(shuō)話人的短短的 3~10 秒錄音,VALL-E X 就能生成個(gè)性化、高質(zhì)量的語(yǔ)音,完美還原他們的聲音。
- 語(yǔ)音情感控制: VALL-E X 可以合成與給定說(shuō)話人錄音相同情感的語(yǔ)音,為音頻增添更多表現(xiàn)力。
- 零樣本跨語(yǔ)言語(yǔ)音合成: VALL-E X 可以合成與給定說(shuō)話人母語(yǔ)不同的另一種語(yǔ)言,在不影響口音和流利度的同時(shí),保留該說(shuō)話人的音色與情感。
- 口音控制: VALL-E X 允許您控制所合成音頻的口音,比如說(shuō)中文帶英語(yǔ)口音或反之。
- 聲學(xué)環(huán)境保留: 當(dāng)給定說(shuō)話人的錄音在不同的聲學(xué)環(huán)境下錄制時(shí),VALL-E X 可以保留該聲學(xué)環(huán)境,使合成語(yǔ)音聽(tīng)起來(lái)更加自然。
查看 demo頁(yè)面來(lái)瀏覽更多示例。
