ASRT基于深度學(xué)習(xí)的中文語音識別系統(tǒng)
ASRT 是一個(gè)基于深度學(xué)習(xí)的中文語音識別系統(tǒng),全稱為 Auto Speech Recognition Tool。此項(xiàng)目使用 Keras、TensorFlow,基于深度卷積神經(jīng)網(wǎng)絡(luò)和長短時(shí)記憶神經(jīng)網(wǎng)絡(luò)、注意力機(jī)制以及 CTC 實(shí)現(xiàn)。
ASRT 項(xiàng)目的聲學(xué)模型通過采用卷積神經(jīng)網(wǎng)絡(luò)(CNN)和連接性時(shí)序分類(CTC)方法,使用大量中文語音數(shù)據(jù)集進(jìn)行訓(xùn)練,將聲音轉(zhuǎn)錄為中文拼音,并通過語言模型,將拼音序列轉(zhuǎn)換為中文文本。
系統(tǒng)運(yùn)行流程
- 特征提取:將普通的wav語音信號通過分幀加窗等操作轉(zhuǎn)換為神經(jīng)網(wǎng)絡(luò)需要的二維頻譜圖像信號,即語譜圖。
- 聲學(xué)模型:基于Keras和TensorFlow框架,使用這種參考了VGG的深層的卷積神經(jīng)網(wǎng)絡(luò)作為網(wǎng)絡(luò)模型,并訓(xùn)練。
- CTC解碼:在語音識別系統(tǒng)的聲學(xué)模型的輸出中,往往包含了大量連續(xù)重復(fù)的符號,因此,我們需要將連續(xù)相同的符合合并為同一個(gè)符號,然后再去除靜音分隔標(biāo)記符,得到最終實(shí)際的語音拼音符號序列。
- 語言模型:使用統(tǒng)計(jì)語言模型,將拼音轉(zhuǎn)換為最終的識別文本并輸出。拼音轉(zhuǎn)文本的本質(zhì)被建模為一條隱含馬爾可夫鏈,這種模型有著很高的準(zhǔn)確率。(其原理請看:https://blog.ailemon.net/2017/04/27/statistical-language-model-chinese-pinyin-to-words/)
評論
圖片
表情
