PaddleSpeech基于飛槳的語(yǔ)音開(kāi)源模型庫(kù)
PaddleSpeech 是基于飛槳 PaddlePaddle 的語(yǔ)音方向的開(kāi)源模型庫(kù),用于語(yǔ)音和音頻中的各種關(guān)鍵任務(wù)的開(kāi)發(fā),包含大量基于深度學(xué)習(xí)前沿和有影響力的模型。
特性:
本項(xiàng)目采用了易用、高效、靈活以及可擴(kuò)展的實(shí)現(xiàn),旨在為工業(yè)應(yīng)用、學(xué)術(shù)研究提供更好的支持,實(shí)現(xiàn)的功能包含訓(xùn)練、推斷以及測(cè)試模塊,以及部署過(guò)程,主要包括
- 易用性: 安裝門檻低,可使用 CLI 快速開(kāi)始。
- 對(duì)標(biāo) SoTA: 提供了高速、輕量級(jí)模型,且借鑒了最前沿的技術(shù)。
- 基于規(guī)則的中文前端: 我們的前端包含文本正則化和字音轉(zhuǎn)換(G2P)。此外,我們使用自定義語(yǔ)言規(guī)則來(lái)適應(yīng)中文語(yǔ)境。
- 多種工業(yè)界以及學(xué)術(shù)界主流功能支持:
- 典型音頻任務(wù): 本工具包提供了音頻任務(wù)如音頻分類、語(yǔ)音翻譯、自動(dòng)語(yǔ)音識(shí)別、文本轉(zhuǎn)語(yǔ)音、語(yǔ)音合成等任務(wù)的實(shí)現(xiàn)。
- 主流模型及數(shù)據(jù)集: 本工具包實(shí)現(xiàn)了參與整條語(yǔ)音任務(wù)流水線的各個(gè)模塊,并且采用了主流數(shù)據(jù)集如 LibriSpeech、LJSpeech、AIShell、CSMSC,詳情請(qǐng)見(jiàn) 模型列表。
- 級(jí)聯(lián)模型應(yīng)用: 作為傳統(tǒng)語(yǔ)音任務(wù)的擴(kuò)展,我們結(jié)合了自然語(yǔ)言處理、計(jì)算機(jī)視覺(jué)等任務(wù),實(shí)現(xiàn)更接近實(shí)際需求的產(chǎn)業(yè)級(jí)應(yīng)用。
近期更新:
- 2021.12.14: 我們?cè)?Hugging Face Spaces 上的 ASR 以及 TTS Demos 上線啦!
- 2021.12.10: PaddleSpeech CLI 上線!覆蓋了聲音分類、語(yǔ)音識(shí)別、語(yǔ)音翻譯(英譯中)以及語(yǔ)音合成。
安裝
我們強(qiáng)烈建議用戶在 Linux 環(huán)境下,3.7 以上版本的 python 上安裝 PaddleSpeech。 目前為止,Linux 支持聲音分類、語(yǔ)音識(shí)別、語(yǔ)音合成和語(yǔ)音翻譯四種功能,Mac OSX、 Windows 下暫不支持語(yǔ)音翻譯功能。 想了解具體安裝細(xì)節(jié),可以參考安裝文檔。
快速開(kāi)始
安裝完成后,開(kāi)發(fā)者可以通過(guò)命令行快速開(kāi)始,改變 --input 可以嘗試用自己的音頻或文本測(cè)試。
聲音分類
paddlespeech cls --input input.wav
語(yǔ)音識(shí)別
paddlespeech asr --lang zh --input input_16k.wav
語(yǔ)音翻譯 (English to Chinese)
paddlespeech st --input input_16k.wav
語(yǔ)音合成
paddlespeech tts --input "你好,歡迎使用百度飛槳深度學(xué)習(xí)框架!" --output output.wav
- 語(yǔ)音合成的 web demo 已經(jīng)集成進(jìn)了 Huggingface Spaces. 請(qǐng)參考: TTS Demo
文本后處理
- 標(biāo)點(diǎn)恢復(fù)
paddlespeech text --task punc --input 今天的天氣真不錯(cuò)啊你下午有空嗎我想約你一起去吃飯
更多命令行命令請(qǐng)參考 demos
Note: 如果需要訓(xùn)練或者微調(diào),請(qǐng)查看語(yǔ)音識(shí)別, 語(yǔ)音合成。
評(píng)論
圖片
表情
