GitHub 3.1K,語(yǔ)音合成|語(yǔ)音識(shí)別|聲紋識(shí)別一次性全開源!
智能語(yǔ)音技術(shù)已經(jīng)在生活中隨處可見,常見的智能應(yīng)用助手、語(yǔ)音播報(bào)、近年來火熱的虛擬數(shù)字人,這些都有著智能語(yǔ)音技術(shù)的身影。智能語(yǔ)音是由語(yǔ)音識(shí)別,語(yǔ)音合成,自然語(yǔ)言處理等諸多技術(shù)組成的綜合型技術(shù),對(duì)開發(fā)者要求高,一直是企業(yè)應(yīng)用的難點(diǎn)。
飛槳語(yǔ)音模型庫(kù) PaddleSpeech ,為開發(fā)者提供了語(yǔ)音識(shí)別、語(yǔ)音合成、聲紋識(shí)別、聲音分類等多種語(yǔ)音處理能力,代碼全部開源,各類服務(wù)一鍵部署,并附帶保姆級(jí)教學(xué)文檔,讓開發(fā)者輕松搞定產(chǎn)業(yè)級(jí)應(yīng)用!

全新發(fā)布 PP-TTS?:業(yè)界首個(gè)開源端到端流式語(yǔ)音合成系統(tǒng),支持流式聲學(xué)模型與流式聲碼器,開源一鍵式流式語(yǔ)音合成服務(wù)部署方案。
全新發(fā)布 PP-ASR?:開源基于上萬小時(shí)數(shù)據(jù)的流式語(yǔ)音識(shí)別系統(tǒng),開源一鍵式流式語(yǔ)音識(shí)別服務(wù)部署方案。支持 Language Model 解碼和個(gè)性化語(yǔ)音識(shí)別。 全新發(fā)布 PP-VPR?:開源全鏈路聲紋提取與檢索系統(tǒng),10分鐘輕松搭建產(chǎn)業(yè)級(jí)系統(tǒng)。 一鍵服務(wù)化能力:語(yǔ)音識(shí)別、語(yǔ)音合成、聲紋識(shí)別、聲音分類、標(biāo)點(diǎn)恢復(fù),一鍵部署五項(xiàng)核心語(yǔ)音服務(wù)。
以下為本次發(fā)布內(nèi)容詳細(xì)解讀。

流式推理結(jié)構(gòu),降低平均響應(yīng)時(shí)延

PP-TTS 的流式語(yǔ)音合成可以在保證合成質(zhì)量的前提下,大幅降低平均響應(yīng)時(shí)延:

測(cè)試環(huán)境:測(cè)試用例為 CSMSC 數(shù)據(jù)集后100條, CPU 為 Intel(R) Core(TM) i5-8250U CPU @ 1.60GHz
文本前端優(yōu)化
PP-TTS 提供了針對(duì)中文場(chǎng)景的語(yǔ)音合成文本前端優(yōu)化方案:針對(duì)時(shí)間、日期、電話、溫度等常見非標(biāo)準(zhǔn)詞進(jìn)行了文本正則化處理;開源了針對(duì)中文場(chǎng)景的輕聲變調(diào)、三聲變調(diào)和“一”“不”變調(diào)等字音轉(zhuǎn)換( G2P )解決方案。在自建的文本正則化測(cè)試集上, CER 低至0.73%;以 CSMSC 數(shù)據(jù)集的拼音標(biāo)注為 Ground Truth ,字音轉(zhuǎn)換( G2P )的 WER 低至 2.6%。

基于 PP-TTS 優(yōu)越的文本前端優(yōu)化,語(yǔ)音合成的輸出可以像真人一樣自然、優(yōu)雅,舉個(gè)例子大家體驗(yàn)一下:



測(cè)試數(shù)據(jù)集:Conformer 模型,測(cè)試數(shù)據(jù)集為 AIShell-1 ,流式識(shí)別分塊長(zhǎng)度為 640ms , GPU: Tesla V100-SXM2-32GB,CPU:80 Core Intel(R) Xeon(R) Gold 6271C CPU@ 2.60GHz??
個(gè)性化識(shí)別方案

全鏈路聲紋識(shí)別與音頻檢索系統(tǒng)


Demo使用及展示

此時(shí)服務(wù)已經(jīng)掛載到了配置的8090端口了,我們可以通過命令行對(duì)服務(wù)進(jìn)行調(diào)用。



直播課預(yù)告

入群福利
獲取 PaddleSpeech 團(tuán)隊(duì)整理的接近20G重磅學(xué)習(xí)大禮包

獲取5月25-27日直播課程鏈接

更多開發(fā)者應(yīng)用案例
智能語(yǔ)音工單報(bào)銷
(基于 PaddleSpeech 和 PaddleNLP )
虛擬數(shù)字人

