99偷拍,百万国产精品视频,国内自拍在线观看,男女日皮视频完整版在线观看,www青青草,久草新在线,影音先锋三级,久aaa

VALL-E X多語(yǔ)言文本到語(yǔ)音合成與語(yǔ)音克隆

聯(lián)合創(chuàng)作 · 2023-09-26 00:06

微軟 VALL-E X 零樣本語(yǔ)音合成模型的開(kāi)源實(shí)現(xiàn)。預(yù)訓(xùn)練模型現(xiàn)已向公眾開(kāi)放，供研究或應(yīng)用使用。

VALL-E X 是一個(gè)強(qiáng)大而創(chuàng)新的多語(yǔ)言文本轉(zhuǎn)語(yǔ)音（TTS）模型，最初由微軟發(fā)布。雖然微軟最初在他們的研究論文中提出了該概念，但并未發(fā)布任何代碼或預(yù)訓(xùn)練模型。

VALL-E X 可以為單語(yǔ)使用者合成另一種語(yǔ)言的個(gè)性化語(yǔ)音。以源自源文本和目標(biāo)文本的音素序列以及源自音頻編解碼器模型的源聲學(xué)標(biāo)記作為提示，VALL-E X 能夠生成目標(biāo)語(yǔ)言的聲學(xué)標(biāo)記，然后將其解壓縮為目標(biāo)語(yǔ)言語(yǔ)音波形。得益于強(qiáng)大的上下文學(xué)習(xí)能力，VALL-E X不需要同一說(shuō)話人的跨語(yǔ)言語(yǔ)音數(shù)據(jù)進(jìn)行訓(xùn)練，可以執(zhí)行各種零樣本跨語(yǔ)言語(yǔ)音生成任務(wù)，例如跨語(yǔ)言文本到-語(yǔ)音合成和語(yǔ)音到語(yǔ)音翻譯。

功能特點(diǎn)

多語(yǔ)言 TTS: 可使用三種語(yǔ)言 - 英語(yǔ)、中文和日語(yǔ) - 進(jìn)行自然、富有表現(xiàn)力的語(yǔ)音合成。
零樣本語(yǔ)音克隆: 僅需錄制任意說(shuō)話人的短短的 3~10 秒錄音，VALL-E X 就能生成個(gè)性化、高質(zhì)量的語(yǔ)音，完美還原他們的聲音。

語(yǔ)音情感控制: VALL-E X 可以合成與給定說(shuō)話人錄音相同情感的語(yǔ)音，為音頻增添更多表現(xiàn)力。
零樣本跨語(yǔ)言語(yǔ)音合成: VALL-E X 可以合成與給定說(shuō)話人母語(yǔ)不同的另一種語(yǔ)言，在不影響口音和流利度的同時(shí)，保留該說(shuō)話人的音色與情感。
口音控制: VALL-E X 允許您控制所合成音頻的口音，比如說(shuō)中文帶英語(yǔ)口音或反之。
聲學(xué)環(huán)境保留: 當(dāng)給定說(shuō)話人的錄音在不同的聲學(xué)環(huán)境下錄制時(shí)，VALL-E X 可以保留該聲學(xué)環(huán)境，使合成語(yǔ)音聽(tīng)起來(lái)更加自然。

查看 demo頁(yè)面來(lái)瀏覽更多示例。

點(diǎn)贊

評(píng)論

編輯分享

舉報(bào)