GitHub 3.1K,業(yè)界首個流式語音合成系統(tǒng)開源!
智能語音技術(shù)已經(jīng)在生活中隨處可見,常見的智能應(yīng)用助手、語音播報、近年來火熱的虛擬數(shù)字人,這些都有著智能語音技術(shù)的身影。智能語音是由語音識別,語音合成,自然語言處理等諸多技術(shù)組成的綜合型技術(shù),對開發(fā)者要求高,一直是企業(yè)應(yīng)用的難點。
飛槳語音模型庫 PaddleSpeech ,為開發(fā)者提供了語音識別、語音合成、聲紋識別、聲音分類等多種語音處理能力,代碼全部開源,各類服務(wù)一鍵部署,并附帶保姆級教學(xué)文檔,讓開發(fā)者輕松搞定產(chǎn)業(yè)級應(yīng)用!

全新發(fā)布 PP-TTS?:業(yè)界首個開源端到端流式語音合成系統(tǒng),支持流式聲學(xué)模型與流式聲碼器,開源一鍵式流式語音合成服務(wù)部署方案。
全新發(fā)布 PP-ASR?:開源基于上萬小時數(shù)據(jù)的流式語音識別系統(tǒng),開源一鍵式流式語音識別服務(wù)部署方案。支持 Language Model 解碼和個性化語音識別。 全新發(fā)布 PP-VPR?:開源全鏈路聲紋提取與檢索系統(tǒng),10分鐘輕松搭建產(chǎn)業(yè)級系統(tǒng)。 一鍵服務(wù)化能力:語音識別、語音合成、聲紋識別、聲音分類、標(biāo)點恢復(fù),一鍵部署五項核心語音服務(wù)。
以下為本次發(fā)布內(nèi)容詳細(xì)解讀。

流式推理結(jié)構(gòu),降低平均響應(yīng)時延

PP-TTS 的流式語音合成可以在保證合成質(zhì)量的前提下,大幅降低平均響應(yīng)時延:

測試環(huán)境:測試用例為 CSMSC 數(shù)據(jù)集后100條, CPU 為 Intel(R) Core(TM) i5-8250U CPU @ 1.60GHz
文本前端優(yōu)化
PP-TTS 提供了針對中文場景的語音合成文本前端優(yōu)化方案:針對時間、日期、電話、溫度等常見非標(biāo)準(zhǔn)詞進(jìn)行了文本正則化處理;開源了針對中文場景的輕聲變調(diào)、三聲變調(diào)和“一”“不”變調(diào)等字音轉(zhuǎn)換( G2P )解決方案。在自建的文本正則化測試集上, CER 低至0.73%;以 CSMSC 數(shù)據(jù)集的拼音標(biāo)注為 Ground Truth ,字音轉(zhuǎn)換( G2P )的 WER 低至 2.6%。

基于 PP-TTS 優(yōu)越的文本前端優(yōu)化,語音合成的輸出可以像真人一樣自然、優(yōu)雅,舉個例子大家體驗一下:



測試數(shù)據(jù)集:Conformer 模型,測試數(shù)據(jù)集為 AIShell-1 ,流式識別分塊長度為 640ms , GPU: Tesla V100-SXM2-32GB,CPU:80 Core Intel(R) Xeon(R) Gold 6271C CPU@ 2.60GHz??
個性化識別方案

全鏈路聲紋識別與音頻檢索系統(tǒng)


Demo使用及展示

此時服務(wù)已經(jīng)掛載到了配置的8090端口了,我們可以通過命令行對服務(wù)進(jìn)行調(diào)用。



直播課預(yù)告

入群福利
獲取 PaddleSpeech 團(tuán)隊整理的接近20G重磅學(xué)習(xí)大禮包

獲取5月25-27日直播課程鏈接

更多開發(fā)者應(yīng)用案例
智能語音工單報銷
(基于 PaddleSpeech 和 PaddleNLP )
虛擬數(shù)字人

