激情网站五月天,午夜福利三级,天天摸天天碰成人免费视频,美国A级毛片,曰韩一级高晴,奇米影视77777,国内内射在线,亚洲第一页在线播放

智能語(yǔ)音技術(shù)已經(jīng)在生活中隨處可見，常見的智能應(yīng)用助手、語(yǔ)音播報(bào)、近年來火熱的虛擬數(shù)字人，這些都有著智能語(yǔ)音技術(shù)的身影。智能語(yǔ)音是由語(yǔ)音識(shí)別，語(yǔ)音合成，自然語(yǔ)言處理等諸多技術(shù)組成的綜合型技術(shù)，對(duì)開發(fā)者要求高，一直是企業(yè)應(yīng)用的難點(diǎn)。

飛槳語(yǔ)音模型庫(kù) PaddleSpeech ，為開發(fā)者提供了語(yǔ)音識(shí)別、語(yǔ)音合成、聲紋識(shí)別、聲音分類等多種語(yǔ)音處理能力，代碼全部開源，各類服務(wù)一鍵部署，并附帶保姆級(jí)教學(xué)文檔，讓開發(fā)者輕松搞定產(chǎn)業(yè)級(jí)應(yīng)用！

PaddleSpeech 自開源以來，就受到了開發(fā)者們的廣泛關(guān)注，關(guān)注度持續(xù)上漲。

在此過程中，我們也根據(jù)用戶的反饋不斷升級(jí)，推陳出新，優(yōu)化用戶體驗(yàn)。

本次， PaddleSpeech 1.0 版本正式發(fā)布，為開發(fā)者帶來了四項(xiàng)重要升級(jí)：

全新發(fā)布 PP-TTS?：業(yè)界首個(gè)開源端到端流式語(yǔ)音合成系統(tǒng)，支持流式聲學(xué)模型與流式聲碼器，開源一鍵式流式語(yǔ)音合成服務(wù)部署方案。
全新發(fā)布 PP-ASR?：開源基于上萬小時(shí)數(shù)據(jù)的流式語(yǔ)音識(shí)別系統(tǒng)，開源一鍵式流式語(yǔ)音識(shí)別服務(wù)部署方案。支持 Language Model 解碼和個(gè)性化語(yǔ)音識(shí)別。
全新發(fā)布 PP-VPR?：開源全鏈路聲紋提取與檢索系統(tǒng)，10分鐘輕松搭建產(chǎn)業(yè)級(jí)系統(tǒng)。
一鍵服務(wù)化能力：語(yǔ)音識(shí)別、語(yǔ)音合成、聲紋識(shí)別、聲音分類、標(biāo)點(diǎn)恢復(fù)，一鍵部署五項(xiàng)核心語(yǔ)音服務(wù)。

★? 項(xiàng)目傳送門??★

點(diǎn)擊文末閱讀原文一鍵GET！

https://github.com/PaddlePaddle/PaddleSpeech

以下為本次發(fā)布內(nèi)容詳細(xì)解讀。

PP-TTS

業(yè)界首個(gè)開源端到端流式語(yǔ)音合成系統(tǒng)

語(yǔ)音合成是機(jī)器“說話”的“嘴巴”。隨著深度學(xué)習(xí)技術(shù)的發(fā)展，采用端到端神經(jīng)網(wǎng)絡(luò)進(jìn)行語(yǔ)音合成的效果相較于傳統(tǒng)技術(shù)有了極大的提升，但是端到端語(yǔ)音合成的響應(yīng)時(shí)間長(zhǎng)，在實(shí)時(shí)性要求較高的場(chǎng)景中難以滿足業(yè)務(wù)需求。

如在實(shí)時(shí)交互的虛擬數(shù)字人應(yīng)用中，需要虛擬人對(duì)用戶指令快速做出應(yīng)答，否則會(huì)消耗用戶的耐心、降低用戶體驗(yàn)，此時(shí)就需要流式語(yǔ)音合成系統(tǒng)，在保障合成質(zhì)量的同時(shí)，提高響應(yīng)速度、提升交互體驗(yàn)。

PaddleSpeech 全新發(fā)布的 PP-TTS ，提供了一鍵式部署流式語(yǔ)音合成系統(tǒng)的方案，解決了在語(yǔ)音合成技術(shù)應(yīng)用過程中，響應(yīng)時(shí)間長(zhǎng)、落地困難的問題。

流式推理結(jié)構(gòu)，降低平均響應(yīng)時(shí)延

以聲學(xué)模型 FastSpeech2 、聲碼器 HiFi-GAN 為例， PP-TTS 對(duì) FastSpeech2 的 Decoder 模塊進(jìn)行了創(chuàng)新，替換了 FFT-Block 為卷積結(jié)構(gòu)，創(chuàng)新性地提出了基于 FastSpeech2 結(jié)合 HiFi-GAN 的流式推理結(jié)構(gòu)，以 Chunk 的方式進(jìn)行流式推理，可以使聲學(xué)模型和聲碼器的輸出與非流式推理保持一致。

PP-TTS 的流式語(yǔ)音合成可以在保證合成質(zhì)量的前提下，大幅降低平均響應(yīng)時(shí)延：

測(cè)試環(huán)境：測(cè)試用例為 CSMSC 數(shù)據(jù)集后100條， CPU 為 Intel(R) Core(TM) i5-8250U CPU @ 1.60GHz

相較于端到端非流式合成， PP-TTS 流式合成的平均響應(yīng)時(shí)延降低了97.4%，即使在普通的 CPU 筆記本上也能夠?qū)崟r(shí)響應(yīng)。

文本前端優(yōu)化

PP-TTS 提供了針對(duì)中文場(chǎng)景的語(yǔ)音合成文本前端優(yōu)化方案：針對(duì)時(shí)間、日期、電話、溫度等常見非標(biāo)準(zhǔn)詞進(jìn)行了文本正則化處理；開源了針對(duì)中文場(chǎng)景的輕聲變調(diào)、三聲變調(diào)和“一”“不”變調(diào)等字音轉(zhuǎn)換（ G2P ）解決方案。在自建的文本正則化測(cè)試集上， CER 低至0.73%；以 CSMSC 數(shù)據(jù)集的拼音標(biāo)注為 Ground Truth ，字音轉(zhuǎn)換（ G2P ）的 WER 低至 2.6%。

基于 PP-TTS 優(yōu)越的文本前端優(yōu)化，語(yǔ)音合成的輸出可以像真人一樣自然、優(yōu)雅，舉個(gè)例子大家體驗(yàn)一下：

不一會(huì)兒，我就在跑馬場(chǎng)買了1頭牛，它的編號(hào)是556。

PP-ASR

基于上萬小時(shí)數(shù)據(jù)的流式語(yǔ)音識(shí)別系統(tǒng)

如果說語(yǔ)音合成是機(jī)器的“嘴巴”，那語(yǔ)音識(shí)別就是機(jī)器的“耳朵”，擁有一個(gè)識(shí)別準(zhǔn)確的“耳朵”，才能讓機(jī)器變得更加聰明。端到端非流式語(yǔ)音識(shí)別模型的優(yōu)勢(shì)在于識(shí)別效果更好，但是劣勢(shì)是系統(tǒng)延遲大，無法滿足實(shí)時(shí)交互場(chǎng)景的需求。針對(duì)這個(gè)問題， PaddleSpeech 1.0 版本給大家?guī)砹薖P-ASR：基于 WenetSpeech 上萬小時(shí)數(shù)據(jù)的流式語(yǔ)音識(shí)別系統(tǒng)。

PP-ASR 流式語(yǔ)音識(shí)別在保障識(shí)別效果的前提下，響應(yīng)時(shí)延顯著降低，可以實(shí)時(shí)得到識(shí)別結(jié)果，提升用戶的使用體驗(yàn)。

測(cè)試數(shù)據(jù)集：Conformer 模型，測(cè)試數(shù)據(jù)集為 AIShell-1 ，流式識(shí)別分塊長(zhǎng)度為 640ms ， GPU: Tesla V100-SXM2-32GB，CPU：80 Core Intel(R) Xeon(R) Gold 6271C CPU@ 2.60GHz??

個(gè)性化識(shí)別方案

基于 WFST 的個(gè)性化識(shí)別方案，支持特定場(chǎng)景的語(yǔ)音識(shí)別任務(wù)。例如交通報(bào)銷場(chǎng)景，針對(duì)通用語(yǔ)音識(shí)別對(duì) POI 、日期、時(shí)間等實(shí)體識(shí)別效果差，通過基于 WFST 的個(gè)性化識(shí)別可以提升識(shí)別的準(zhǔn)確率。在打車報(bào)銷內(nèi)部測(cè)試集上，通用識(shí)別 CER 為5.4%，優(yōu)化后 CER 為1.32%，絕對(duì)提升4.08%。

演示效果見文末示例

PP-VPR

全鏈路聲紋識(shí)別與音頻檢索系統(tǒng)

聲紋特征作為生物特征，具有防偽性好，不易篡改和竊取等優(yōu)點(diǎn)，配合語(yǔ)音識(shí)別與動(dòng)態(tài)密碼技術(shù)，非常適合于遠(yuǎn)程身份認(rèn)證場(chǎng)景。在聲紋識(shí)別技術(shù)的基礎(chǔ)上，配合音頻檢索技術(shù)（如演講、音樂、說話人等檢索），可在海量音頻數(shù)據(jù)中快速查詢并找出相似聲音（或相同說話人）片段。

其中聲紋識(shí)別作為一個(gè)典型的模式識(shí)別問題，其基本的系統(tǒng)架構(gòu)如下：

PaddleSpeech 這次開源的 PP-VPR 聲紋識(shí)別與音頻檢索系統(tǒng)，集成了業(yè)界領(lǐng)先的聲紋識(shí)別模型，使用 ECAPA-TDNN 模型提取聲紋特征，識(shí)別等錯(cuò)誤率（ EER ， Equal error rate ）低至0.83%，并且通過串聯(lián) MySQL 和 Milvus ，可以搭建完整的音頻檢索系統(tǒng)，實(shí)現(xiàn)毫秒級(jí)聲音檢索。

一鍵部署五項(xiàng)核心語(yǔ)音服務(wù)

語(yǔ)音識(shí)別、語(yǔ)音合成、聲紋識(shí)別、聲音分類和標(biāo)點(diǎn)恢復(fù)

在產(chǎn)業(yè)應(yīng)用中，將訓(xùn)練好的模型以服務(wù)的形式提供給他人使用可以更方便。考慮到搭建一套完整的網(wǎng)絡(luò)服務(wù)應(yīng)用是一件繁瑣的工作， PaddleSpeech 為大家提供了一鍵式部署服務(wù)，命令行一行代碼即可同時(shí)啟動(dòng)語(yǔ)音識(shí)別，語(yǔ)音合成，聲紋識(shí)別，聲音分類和標(biāo)點(diǎn)恢復(fù)五大服務(wù)。

Demo使用及展示

進(jìn)入 demo/speech_server 目錄下，一鍵啟動(dòng)語(yǔ)音識(shí)別、語(yǔ)音合成、聲紋識(shí)別、聲音分類和標(biāo)點(diǎn)恢復(fù)服務(wù)。