<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          GitHub 3.1K,業(yè)界首個流式語音合成系統(tǒng)開源!

          共 3473字,需瀏覽 7分鐘

           ·

          2022-05-24 15:39


          智能語音技術(shù)已經(jīng)在生活中隨處可見,常見的智能應(yīng)用助手、語音播報、近年來火熱的虛擬數(shù)字人,這些都有著智能語音技術(shù)的身影。智能語音是由語音識別,語音合成,自然語言處理等諸多技術(shù)組成的綜合型技術(shù),對開發(fā)者要求高,一直是企業(yè)應(yīng)用的難點。


          飛槳語音模型庫 PaddleSpeech ,為開發(fā)者提供了語音識別、語音合成、聲紋識別、聲音分類等多種語音處理能力,代碼全部開源,各類服務(wù)一鍵部署,并附帶保姆級教學(xué)文檔,讓開發(fā)者輕松搞定產(chǎn)業(yè)級應(yīng)用!


          PaddleSpeech 自開源以來,就受到了開發(fā)者們的廣泛關(guān)注,關(guān)注度持續(xù)上漲。



          在此過程中,我們也根據(jù)用戶的反饋不斷升級,推陳出新,優(yōu)化用戶體驗。
          ?
          本次, PaddleSpeech 1.0 版本正式發(fā)布,為開發(fā)者帶來了四項重要升級
          • 全新發(fā)布 PP-TTS?:業(yè)界首個開源端到端流式語音合成系統(tǒng),支持流式聲學(xué)模型與流式聲碼器,開源一鍵式流式語音合成服務(wù)部署方案。

          • 全新發(fā)布 PP-ASR?:開源基于上萬小時數(shù)據(jù)的流式語音識別系統(tǒng),開源一鍵式流式語音識別服務(wù)部署方案。支持 Language Model 解碼和個性化語音識別。
          • 全新發(fā)布 PP-VPR?:開源全鏈路聲紋提取與檢索系統(tǒng),10分鐘輕松搭建產(chǎn)業(yè)級系統(tǒng)。
          • 一鍵服務(wù)化能力:語音識別、語音合成、聲紋識別、聲音分類、標(biāo)點恢復(fù),一鍵部署五項核心語音服務(wù)。

          ? 項目傳送門??
          點擊文末閱讀原文一鍵GET!
          https://github.com/PaddlePaddle/PaddleSpeech
          ?

          以下為本次發(fā)布內(nèi)容詳細(xì)解讀。


          01


          PP-TTS


          業(yè)界首個開源端到端流式語音合成系統(tǒng)






          語音合成是機(jī)器“說話”的“嘴巴”。隨著深度學(xué)習(xí)技術(shù)的發(fā)展,采用端到端神經(jīng)網(wǎng)絡(luò)進(jìn)行語音合成的效果相較于傳統(tǒng)技術(shù)有了極大的提升,但是端到端語音合成的響應(yīng)時間長,在實時性要求較高的場景中難以滿足業(yè)務(wù)需求。
          ?
          如在實時交互的虛擬數(shù)字人應(yīng)用中, 需要虛擬人對用戶指令快速做出應(yīng)答,否則會消耗用戶的耐心、降低用戶體驗,此時就需要流式語音合成系統(tǒng),在保障合成質(zhì)量的同時,提高響應(yīng)速度、提升交互體驗。



          PaddleSpeech 全新發(fā)布的 PP-TTS ,提供了一鍵式部署流式語音合成系統(tǒng)的方案,解決了在語音合成技術(shù)應(yīng)用過程中,響應(yīng)時間長、落地困難的問題。




          流式推理結(jié)構(gòu),降低平均響應(yīng)時延

          以聲學(xué)模型 FastSpeech2 、聲碼器 HiFi-GAN 為例, PP-TTS 對 FastSpeech2 的 Decoder 模塊進(jìn)行了創(chuàng)新,替換了 FFT-Block 為卷積結(jié)構(gòu),創(chuàng)新性地提出了基于 FastSpeech2 結(jié)合 HiFi-GAN 的流式推理結(jié)構(gòu), 以 Chunk 的方式進(jìn)行流式推理,可以使聲學(xué)模型和聲碼器的輸出與非流式推理保持一致。



          PP-TTS 的流式語音合成可以在保證合成質(zhì)量的前提下,大幅降低平均響應(yīng)時延:



          測試環(huán)境:測試用例為 CSMSC 數(shù)據(jù)集后100條, CPU 為 Intel(R) Core(TM) i5-8250U CPU @ 1.60GHz


          相較于端到端非流式合成, PP-TTS 流式合成的平均響應(yīng)時延降低了97.4%,即使在普通的 CPU 筆記本上也能夠?qū)崟r響應(yīng)。




          文本前端優(yōu)化

          PP-TTS 提供了針對中文場景的語音合成文本前端優(yōu)化方案:針對時間、日期、電話、溫度等常見非標(biāo)準(zhǔn)詞進(jìn)行了文本正則化處理;開源了針對中文場景的輕聲變調(diào)、三聲變調(diào)和“一”“不”變調(diào)等字音轉(zhuǎn)換( G2P )解決方案。在自建的文本正則化測試集上, CER 低至0.73%;以 CSMSC 數(shù)據(jù)集的拼音標(biāo)注為 Ground Truth ,字音轉(zhuǎn)換( G2P )的 WER 低至 2.6%。



          基于 PP-TTS 優(yōu)越的文本前端優(yōu)化,語音合成的輸出可以像真人一樣自然、優(yōu)雅,舉個例子大家體驗一下:


          不一會兒,我就在跑馬場買了1頭牛,它的編號是556。


          02


          PP-ASR


          基于上萬小時數(shù)據(jù)的流式語音識別系統(tǒng)






          如果說語音合成是機(jī)器的“嘴巴”,那語音識別就是機(jī)器的“耳朵”,擁有一個識別準(zhǔn)確的“耳朵”,才能讓機(jī)器變得更加聰明。端到端非流式語音識別模型的優(yōu)勢在于識別效果更好,但是劣勢是系統(tǒng)延遲大,無法滿足實時交互場景的需求。針對這個問題, PaddleSpeech 1.0 版本給大家?guī)砹薖P-ASR:基于 WenetSpeech 上萬小時數(shù)據(jù)的流式語音識別系統(tǒng)。



          PP-ASR 流式語音識別在保障識別效果的前提下,響應(yīng)時延顯著降低,可以實時得到識別結(jié)果,提升用戶的使用體驗。




          測試數(shù)據(jù)集:Conformer 模型,測試數(shù)據(jù)集為 AIShell-1 ,流式識別分塊長度為 640ms , GPU: Tesla V100-SXM2-32GB,CPU:80 Core Intel(R) Xeon(R) Gold 6271C CPU@ 2.60GHz??




          個性化識別方案

          基于 WFST 的個性化識別方案,支持特定場景的語音識別任務(wù)。例如交通報銷場景,針對通用語音識別對 POI 、日期、時間等實體識別效果差,通過基于 WFST 的個性化識別可以提升識別的準(zhǔn)確率。在打車報銷內(nèi)部測試集上,通用識別 CER 為5.4%,優(yōu)化后 CER 為1.32%,絕對提升4.08%。


          演示效果見文末示例
          ?
          03


          PP-VPR


          全鏈路聲紋識別與音頻檢索系統(tǒng)






          聲紋特征作為生物特征,具有防偽性好,不易篡改和竊取等優(yōu)點,配合語音識別與動態(tài)密碼技術(shù),非常適合于遠(yuǎn)程身份認(rèn)證場景。在聲紋識別技術(shù)的基礎(chǔ)上,配合音頻檢索技術(shù)(如演講、音樂、說話人等檢索),可在海量音頻數(shù)據(jù)中快速查詢并找出相似聲音(或相同說話人)片段。


          其中聲紋識別作為一個典型的模式識別問題,其基本的系統(tǒng)架構(gòu)如下:


          ?
          PaddleSpeech 這次開源的 PP-VPR 聲紋識別與音頻檢索系統(tǒng),集成了業(yè)界領(lǐng)先的聲紋識別模型,使用 ECAPA-TDNN 模型提取聲紋特征,識別等錯誤率( EER , Equal error rate )低至0.83%,并且通過串聯(lián) MySQL 和 Milvus ,可以搭建完整的音頻檢索系統(tǒng),實現(xiàn)毫秒級聲音檢索。




          04


          一鍵部署五項核心語音服務(wù)


          語音識別、語音合成、聲紋識別、聲音分類和標(biāo)點恢復(fù)






          在產(chǎn)業(yè)應(yīng)用中,將訓(xùn)練好的模型以服務(wù)的形式提供給他人使用可以更方便。考慮到搭建一套完整的網(wǎng)絡(luò)服務(wù)應(yīng)用是一件繁瑣的工作, PaddleSpeech 為大家提供了一鍵式部署服務(wù),命令行一行代碼即可同時啟動語音識別,語音合成,聲紋識別,聲音分類和標(biāo)點恢復(fù)五大服務(wù)。




          Demo使用及展示

          進(jìn)入 demo/speech_server 目錄下,一鍵啟動語音識別、語音合成、聲紋識別、聲音分類和標(biāo)點恢復(fù)服務(wù)。



          此時服務(wù)已經(jīng)掛載到了配置的8090端口了,我們可以通過命令行對服務(wù)進(jìn)行調(diào)用。


          客戶端調(diào)用,以語音識別為例:



          識別結(jié)果:



          語音合成、聲紋識別、聲音分類和標(biāo)點恢復(fù)的服務(wù)使用類似,可以參考對應(yīng)的文檔。
          ?
          這么好的項目,歡迎大家star鼓勵
          并前來體驗,送上鏈接:
          https://github.com/PaddlePaddle/PaddleSpeech


          ?歡迎更多熱愛語音技術(shù)的開發(fā)者們,一起加入 PaddleSpeech 的社區(qū)交流。



          直播課預(yù)告




          5.25-5.27日每晚20:30,百度資深算法工程師將帶來直播課程,詳解 PP-TTS 、 PP-ASR 、 PP-VPR 的設(shè)計思路和項目實戰(zhàn),歡迎大家掃碼進(jìn)群,獲取課程鏈接!


          //? 掃碼報名? //
          加入技術(shù)交流群




          入群福利

          • 獲取 PaddleSpeech 團(tuán)隊整理的接近20G重磅學(xué)習(xí)大禮包



          • 獲取5月25-27日直播課程鏈接





          更多開發(fā)者應(yīng)用案例

          PaddleSpeech 作為飛槳智能語音模型庫,可以與其它的一些基于飛槳的深度學(xué)習(xí)套件一起,搭建有趣的應(yīng)用。
          • 智能語音工單報銷

            (基于 PaddleSpeech 和 PaddleNLP )


          ?
          • 虛擬數(shù)字人
          ? ? ?(基于 PaddleSpeech 和 PaddleGAN )
          B站視頻地址:https://b23.tv/qCCZmT9

          了解更多 PaddleSpeech 信息,可以參看我們在 NAACL 2022 發(fā)表的論文:
          PaddleSpeech: An Easy-to-Use All-in-One SpeechToolkit.


          ? 論文鏈接??
          https://github.com/PaddlePaddle/PaddleSpeech/blob/develop/docs/paddlespeech.pdf



          瀏覽 36
          點贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  婷婷涩嫩草鲁丝久久午夜精品 | 亚洲成人超碰在线观看 | 97视频在线 | 国产精品欧美三级 | 青青草大香蕉伊人 |