<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          GitHub 3.1K,語(yǔ)音合成|語(yǔ)音識(shí)別|聲紋識(shí)別一次性全開源!

          共 3473字,需瀏覽 7分鐘

           ·

          2022-05-27 19:08

          智能語(yǔ)音技術(shù)已經(jīng)在生活中隨處可見,常見的智能應(yīng)用助手、語(yǔ)音播報(bào)、近年來火熱的虛擬數(shù)字人,這些都有著智能語(yǔ)音技術(shù)的身影。智能語(yǔ)音是由語(yǔ)音識(shí)別,語(yǔ)音合成,自然語(yǔ)言處理等諸多技術(shù)組成的綜合型技術(shù),對(duì)開發(fā)者要求高,一直是企業(yè)應(yīng)用的難點(diǎn)。


          飛槳語(yǔ)音模型庫(kù) PaddleSpeech ,為開發(fā)者提供了語(yǔ)音識(shí)別、語(yǔ)音合成、聲紋識(shí)別、聲音分類等多種語(yǔ)音處理能力,代碼全部開源,各類服務(wù)一鍵部署,并附帶保姆級(jí)教學(xué)文檔,讓開發(fā)者輕松搞定產(chǎn)業(yè)級(jí)應(yīng)用!


          PaddleSpeech 自開源以來,就受到了開發(fā)者們的廣泛關(guān)注,關(guān)注度持續(xù)上漲。



          在此過程中,我們也根據(jù)用戶的反饋不斷升級(jí),推陳出新,優(yōu)化用戶體驗(yàn)。
          ?
          本次, PaddleSpeech 1.0 版本正式發(fā)布,為開發(fā)者帶來了四項(xiàng)重要升級(jí)
          • 全新發(fā)布 PP-TTS?:業(yè)界首個(gè)開源端到端流式語(yǔ)音合成系統(tǒng),支持流式聲學(xué)模型與流式聲碼器,開源一鍵式流式語(yǔ)音合成服務(wù)部署方案。

          • 全新發(fā)布 PP-ASR?:開源基于上萬小時(shí)數(shù)據(jù)的流式語(yǔ)音識(shí)別系統(tǒng),開源一鍵式流式語(yǔ)音識(shí)別服務(wù)部署方案。支持 Language Model 解碼和個(gè)性化語(yǔ)音識(shí)別。
          • 全新發(fā)布 PP-VPR?:開源全鏈路聲紋提取與檢索系統(tǒng),10分鐘輕松搭建產(chǎn)業(yè)級(jí)系統(tǒng)。
          • 一鍵服務(wù)化能力:語(yǔ)音識(shí)別、語(yǔ)音合成、聲紋識(shí)別、聲音分類、標(biāo)點(diǎn)恢復(fù),一鍵部署五項(xiàng)核心語(yǔ)音服務(wù)。

          ? 項(xiàng)目傳送門??
          點(diǎn)擊文末閱讀原文一鍵GET!
          https://github.com/PaddlePaddle/PaddleSpeech
          ?

          以下為本次發(fā)布內(nèi)容詳細(xì)解讀。


          01


          PP-TTS


          業(yè)界首個(gè)開源端到端流式語(yǔ)音合成系統(tǒng)






          語(yǔ)音合成是機(jī)器“說話”的“嘴巴”。隨著深度學(xué)習(xí)技術(shù)的發(fā)展,采用端到端神經(jīng)網(wǎng)絡(luò)進(jìn)行語(yǔ)音合成的效果相較于傳統(tǒng)技術(shù)有了極大的提升,但是端到端語(yǔ)音合成的響應(yīng)時(shí)間長(zhǎng),在實(shí)時(shí)性要求較高的場(chǎng)景中難以滿足業(yè)務(wù)需求。
          ?
          如在實(shí)時(shí)交互的虛擬數(shù)字人應(yīng)用中, 需要虛擬人對(duì)用戶指令快速做出應(yīng)答,否則會(huì)消耗用戶的耐心、降低用戶體驗(yàn),此時(shí)就需要流式語(yǔ)音合成系統(tǒng),在保障合成質(zhì)量的同時(shí),提高響應(yīng)速度、提升交互體驗(yàn)。



          PaddleSpeech 全新發(fā)布的 PP-TTS ,提供了一鍵式部署流式語(yǔ)音合成系統(tǒng)的方案,解決了在語(yǔ)音合成技術(shù)應(yīng)用過程中,響應(yīng)時(shí)間長(zhǎng)、落地困難的問題。




          流式推理結(jié)構(gòu),降低平均響應(yīng)時(shí)延

          以聲學(xué)模型 FastSpeech2 、聲碼器 HiFi-GAN 為例, PP-TTS 對(duì) FastSpeech2 的 Decoder 模塊進(jìn)行了創(chuàng)新,替換了 FFT-Block 為卷積結(jié)構(gòu),創(chuàng)新性地提出了基于 FastSpeech2 結(jié)合 HiFi-GAN 的流式推理結(jié)構(gòu), 以 Chunk 的方式進(jìn)行流式推理,可以使聲學(xué)模型和聲碼器的輸出與非流式推理保持一致。



          PP-TTS 的流式語(yǔ)音合成可以在保證合成質(zhì)量的前提下,大幅降低平均響應(yīng)時(shí)延:



          測(cè)試環(huán)境:測(cè)試用例為 CSMSC 數(shù)據(jù)集后100條, CPU 為 Intel(R) Core(TM) i5-8250U CPU @ 1.60GHz


          相較于端到端非流式合成, PP-TTS 流式合成的平均響應(yīng)時(shí)延降低了97.4%,即使在普通的 CPU 筆記本上也能夠?qū)崟r(shí)響應(yīng)。




          文本前端優(yōu)化

          PP-TTS 提供了針對(duì)中文場(chǎng)景的語(yǔ)音合成文本前端優(yōu)化方案:針對(duì)時(shí)間、日期、電話、溫度等常見非標(biāo)準(zhǔn)詞進(jìn)行了文本正則化處理;開源了針對(duì)中文場(chǎng)景的輕聲變調(diào)、三聲變調(diào)和“一”“不”變調(diào)等字音轉(zhuǎn)換( G2P )解決方案。在自建的文本正則化測(cè)試集上, CER 低至0.73%;以 CSMSC 數(shù)據(jù)集的拼音標(biāo)注為 Ground Truth ,字音轉(zhuǎn)換( G2P )的 WER 低至 2.6%。



          基于 PP-TTS 優(yōu)越的文本前端優(yōu)化,語(yǔ)音合成的輸出可以像真人一樣自然、優(yōu)雅,舉個(gè)例子大家體驗(yàn)一下:


          不一會(huì)兒,我就在跑馬場(chǎng)買了1頭牛,它的編號(hào)是556。


          02


          PP-ASR


          基于上萬小時(shí)數(shù)據(jù)的流式語(yǔ)音識(shí)別系統(tǒng)






          如果說語(yǔ)音合成是機(jī)器的“嘴巴”,那語(yǔ)音識(shí)別就是機(jī)器的“耳朵”,擁有一個(gè)識(shí)別準(zhǔn)確的“耳朵”,才能讓機(jī)器變得更加聰明。端到端非流式語(yǔ)音識(shí)別模型的優(yōu)勢(shì)在于識(shí)別效果更好,但是劣勢(shì)是系統(tǒng)延遲大,無法滿足實(shí)時(shí)交互場(chǎng)景的需求。針對(duì)這個(gè)問題, PaddleSpeech 1.0 版本給大家?guī)砹薖P-ASR:基于 WenetSpeech 上萬小時(shí)數(shù)據(jù)的流式語(yǔ)音識(shí)別系統(tǒng)。



          PP-ASR 流式語(yǔ)音識(shí)別在保障識(shí)別效果的前提下,響應(yīng)時(shí)延顯著降低,可以實(shí)時(shí)得到識(shí)別結(jié)果,提升用戶的使用體驗(yàn)。




          測(cè)試數(shù)據(jù)集:Conformer 模型,測(cè)試數(shù)據(jù)集為 AIShell-1 ,流式識(shí)別分塊長(zhǎng)度為 640ms , GPU: Tesla V100-SXM2-32GB,CPU:80 Core Intel(R) Xeon(R) Gold 6271C CPU@ 2.60GHz??




          個(gè)性化識(shí)別方案

          基于 WFST 的個(gè)性化識(shí)別方案,支持特定場(chǎng)景的語(yǔ)音識(shí)別任務(wù)。例如交通報(bào)銷場(chǎng)景,針對(duì)通用語(yǔ)音識(shí)別對(duì) POI 、日期、時(shí)間等實(shí)體識(shí)別效果差,通過基于 WFST 的個(gè)性化識(shí)別可以提升識(shí)別的準(zhǔn)確率。在打車報(bào)銷內(nèi)部測(cè)試集上,通用識(shí)別 CER 為5.4%,優(yōu)化后 CER 為1.32%,絕對(duì)提升4.08%。


          演示效果見文末示例
          ?
          03


          PP-VPR


          全鏈路聲紋識(shí)別與音頻檢索系統(tǒng)






          聲紋特征作為生物特征,具有防偽性好,不易篡改和竊取等優(yōu)點(diǎn),配合語(yǔ)音識(shí)別與動(dòng)態(tài)密碼技術(shù),非常適合于遠(yuǎn)程身份認(rèn)證場(chǎng)景。在聲紋識(shí)別技術(shù)的基礎(chǔ)上,配合音頻檢索技術(shù)(如演講、音樂、說話人等檢索),可在海量音頻數(shù)據(jù)中快速查詢并找出相似聲音(或相同說話人)片段。


          其中聲紋識(shí)別作為一個(gè)典型的模式識(shí)別問題,其基本的系統(tǒng)架構(gòu)如下:


          ?
          PaddleSpeech 這次開源的 PP-VPR 聲紋識(shí)別與音頻檢索系統(tǒng),集成了業(yè)界領(lǐng)先的聲紋識(shí)別模型,使用 ECAPA-TDNN 模型提取聲紋特征,識(shí)別等錯(cuò)誤率( EER , Equal error rate )低至0.83%,并且通過串聯(lián) MySQL 和 Milvus ,可以搭建完整的音頻檢索系統(tǒng),實(shí)現(xiàn)毫秒級(jí)聲音檢索。




          04


          一鍵部署五項(xiàng)核心語(yǔ)音服務(wù)


          語(yǔ)音識(shí)別、語(yǔ)音合成、聲紋識(shí)別、聲音分類和標(biāo)點(diǎn)恢復(fù)






          在產(chǎn)業(yè)應(yīng)用中,將訓(xùn)練好的模型以服務(wù)的形式提供給他人使用可以更方便。考慮到搭建一套完整的網(wǎng)絡(luò)服務(wù)應(yīng)用是一件繁瑣的工作, PaddleSpeech 為大家提供了一鍵式部署服務(wù),命令行一行代碼即可同時(shí)啟動(dòng)語(yǔ)音識(shí)別,語(yǔ)音合成,聲紋識(shí)別,聲音分類和標(biāo)點(diǎn)恢復(fù)五大服務(wù)。




          Demo使用及展示

          進(jìn)入 demo/speech_server 目錄下,一鍵啟動(dòng)語(yǔ)音識(shí)別、語(yǔ)音合成、聲紋識(shí)別、聲音分類和標(biāo)點(diǎn)恢復(fù)服務(wù)。



          此時(shí)服務(wù)已經(jīng)掛載到了配置的8090端口了,我們可以通過命令行對(duì)服務(wù)進(jìn)行調(diào)用。


          客戶端調(diào)用,以語(yǔ)音識(shí)別為例:



          識(shí)別結(jié)果:



          語(yǔ)音合成、聲紋識(shí)別、聲音分類和標(biāo)點(diǎn)恢復(fù)的服務(wù)使用類似,可以參考對(duì)應(yīng)的文檔。
          ?
          這么好的項(xiàng)目,歡迎大家star鼓勵(lì)
          并前來體驗(yàn),送上鏈接:
          https://github.com/PaddlePaddle/PaddleSpeech


          ?歡迎更多熱愛語(yǔ)音技術(shù)的開發(fā)者們,一起加入 PaddleSpeech 的社區(qū)交流。



          直播課預(yù)告




          5.25-5.27日每晚20:30,百度資深算法工程師將帶來直播課程,詳解 PP-TTS 、 PP-ASR 、 PP-VPR 的設(shè)計(jì)思路和項(xiàng)目實(shí)戰(zhàn),歡迎大家掃碼進(jìn)群,獲取課程鏈接!


          //? 掃碼報(bào)名? //
          加入技術(shù)交流群




          入群福利

          • 獲取 PaddleSpeech 團(tuán)隊(duì)整理的接近20G重磅學(xué)習(xí)大禮包



          • 獲取5月25-27日直播課程鏈接





          更多開發(fā)者應(yīng)用案例

          PaddleSpeech 作為飛槳智能語(yǔ)音模型庫(kù),可以與其它的一些基于飛槳的深度學(xué)習(xí)套件一起,搭建有趣的應(yīng)用。
          • 智能語(yǔ)音工單報(bào)銷

            (基于 PaddleSpeech 和 PaddleNLP )


          ?
          • 虛擬數(shù)字人
          ? ? ?(基于 PaddleSpeech 和 PaddleGAN )
          B站視頻地址:https://b23.tv/qCCZmT9

          了解更多 PaddleSpeech 信息,可以參看我們?cè)?NAACL 2022 發(fā)表的論文:
          PaddleSpeech: An Easy-to-Use All-in-One SpeechToolkit.


          ? 論文鏈接??
          https://github.com/PaddlePaddle/PaddleSpeech/blob/develop/docs/paddlespeech.pdf

          瀏覽 32
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  91无码内射 | 大奶一二三区 | 亚洲第一页中文字幕 | 大香焦久久久 | 天天日天天榭天天插 |