一些常用的語音特征提取算法
原文 https://flashgene.com/archives/70752.html
前言
2 、Mel倒頻譜系數(shù)(MFCC)

圖1 MFCC處理器的框圖
3、 線性預(yù)測系數(shù)(LPC)
3.1 算法說明,優(yōu)缺點(diǎn)

圖2 LPC處理器的框圖。
其中$a_m$為線性預(yù)測系數(shù),$k_m$為reflection coefficient(反射系數(shù))
線性預(yù)測分析能有效地從給定的語音[16]中選擇聲道信息。它以計算速度和準(zhǔn)確度著稱。LPC很好地代表了穩(wěn)定一致的[23]源行為。此外,它還被用于語音識別系統(tǒng)中,主要目的是提取聲道特性[25]。
它對語音參數(shù)的估計非常準(zhǔn)確,計算效率也相對較高[14,26]。傳統(tǒng)的線性預(yù)測方法存在自相關(guān)系數(shù)失真的問題。LPC估計值對量化噪聲[30]具有很高的敏感性,可能不適用于泛化[23]。
4 、線性預(yù)測倒譜系數(shù)(LPCC)
線性預(yù)測倒譜系數(shù)(LPCC)是由LPC計算的頻譜包絡(luò)[11]得到的倒譜系數(shù)。LPCC是LPC對數(shù)幅度譜的傅里葉變換的系數(shù)[30,31]。
倒譜分析是語音處理領(lǐng)域中常用的一種分析方法,因?yàn)樗軌蛞杂邢薜腫31]特征來完美地表征語音波形和特征。
Rosenberg和Sambur觀察到相鄰的預(yù)測系數(shù)高度相關(guān),因此,具有較少相關(guān)特征的表征更有效,LPCC就是一個典型的例子。LPC與LPCC的關(guān)系最早是由Atal在1974年推導(dǎo)出來的。從理論上講,在相位信號[32]最小的情況下,將LPC轉(zhuǎn)換為LPCC相對容易。
4.1 算法說明,優(yōu)缺點(diǎn)
在語音處理中,LPCC類似于LPC,由語音波形的采樣點(diǎn)計算得到,橫軸是時間軸,縱軸是振幅軸[31]。

圖3。LPCC處理器的框圖。
LPCC處理器如圖3所示。它形象地解釋了獲得LPCC的過程。LPCC可以用[7,15,33]來計算。
其中am為線性預(yù)測系數(shù),Cm為倒譜系數(shù)。
LPCC對噪聲[30]的脆弱性較低。與LPC特性[31]相比,LPCC特性的錯誤率更低。高階倒譜系數(shù)在數(shù)學(xué)上是有限的,因此從低階倒譜系數(shù)轉(zhuǎn)移到高階[34]倒譜系數(shù)時,產(chǎn)生了極為廣泛的方差陣列。
類似地,LPCC估計對量化噪聲[35]非常敏感。高頻語音信號的倒譜分析給出了低頻域[29]的小源濾波器可分性。低階倒譜系數(shù)對譜斜率敏感,而高階倒譜系數(shù)對噪聲[15]敏感。
5 、線譜頻率(LSF)
線譜對(LSP)的單線稱為線譜頻率(LSF)。LSF定義了發(fā)生在人類聲道內(nèi)連接管模型中的兩種共振情況。該模型考慮了鼻腔和口腔的形狀,為線性預(yù)測的基本生理重要性奠定了基礎(chǔ)。
這兩種共振情況定義了聲門[36]處聲道要幺完全打開要幺完全閉合。這兩種情況產(chǎn)生兩組共振頻率,每組共振頻率的數(shù)目由連接管的數(shù)量來推斷。
每一種情況下的共振都是相應(yīng)的奇偶線譜,并交織成一個奇異上升的LSF[36]群。
LSF表示法是由Itakura[37,38]提出的,用來代替線性預(yù)測參數(shù)表示法。在語音編碼領(lǐng)域,人們已經(jīng)認(rèn)識到該算法比其他線性預(yù)測參數(shù)化算法(LAR和RC)具有更好的量化特性。
LSF圖能夠在不影響合成語音質(zhì)量的前提下,將傳輸線性預(yù)測信息的比特率降低25% ~ 30%[3840]。
除量子化外,預(yù)測器的LSF圖也適用于插值。從理論上講,將lsf域平方量化誤差與感知相關(guān)的對數(shù)譜相聯(lián)系的靈敏度矩陣是對角的[41,42],這可以從這一點(diǎn)得到啟發(fā)。
5.1 算法說明,優(yōu)缺點(diǎn)
LP建立在語音信號可以由式(3)定義的點(diǎn)上,其中k是時間指數(shù),p是線性預(yù)測的階數(shù),$\hat{s}(n)$是預(yù)測信號,$a_k$是LPC系數(shù)。
通過自相關(guān)或協(xié)方差的方法確定$a_k$系數(shù)以減小預(yù)測誤差。公式(3)可以在頻域中用z-Transform進(jìn)行修改,因此,語音信號的一小部分預(yù)計將作為輸出給全極點(diǎn)濾波器H(z)。新公式是,其中H(z)是全極點(diǎn)濾波器,A(z)是LPC分析濾波器
為了計算LSF系數(shù),一個逆多項(xiàng)式濾波器被分成兩個多項(xiàng)式P(z)和Q(z)[36,38,40,41]:

其中P(z)是聲門閉合的聲道,Q(z)是階P的LPC分析過濾器。為了將LSF轉(zhuǎn)換回LPC,使用以下公式[36,41,43,44]

圖4.LSF處理器框圖。
LSF處理器的框圖如圖4所示。LSF在語音壓縮領(lǐng)域的應(yīng)用最為突出,并擴(kuò)展到說話人識別和語音識別領(lǐng)域。這項(xiàng)技術(shù)在其他領(lǐng)域的應(yīng)用也受到限制。LSF已被研究用于樂器識別和編碼。
LSF還被應(yīng)用于動物噪音識別、個人工具識別和金融市場分析。LSF的優(yōu)點(diǎn)包括其對光譜靈敏度的定位能力,它們可以表征帶寬和共振位置,并強(qiáng)調(diào)了譜峰定位的重要方面。在大多數(shù)情況下,LSF表示為后續(xù)的分類[36]提供了一個幾乎最小的數(shù)據(jù)集。
由于LSF以低于原始輸入樣本的數(shù)據(jù)速率表示光譜形狀信息,因此,在LSP領(lǐng)域中仔細(xì)使用處理和分析方法可以降低對原始輸入數(shù)據(jù)本身進(jìn)行操作的替代技術(shù)的復(fù)雜性。
LSF在聲道信息從語音編碼器到解碼器的傳輸中起著重要的作用,其良好的量化特性使其得到了廣泛的應(yīng)用。
LSP參數(shù)的生成可以使用多種復(fù)雜的方法來完成。主要的問題是求出Eqs中定義的P和Q多項(xiàng)式的根。(8)和(9)。這可以通過標(biāo)準(zhǔn)的根解法或更模糊的方法得到,通常在余弦域[36]中執(zhí)行。
6、 離散小波變換
小波變換(WT)理論的核心是在[45]的時域和頻域使用不同尺度的信號分析。在理論物理學(xué)家Alex Grossmann的支持下,Jean Morlet引入了小波變換,該變換允許以增強(qiáng)的時間分辨率識別高頻事件[45 47]。小波是一種有效的有限持續(xù)時間的波形,其平均值為零。
許多小波也表現(xiàn)出正交性,這是緊湊信號表示[46]的理想特征。小波變換是一種信號處理技術(shù),可以高效地表示現(xiàn)實(shí)生活中的非平穩(wěn)信號[33,46]。它能夠在時域和頻域同時從瞬態(tài)信號中挖掘信息[33,45,48]。
利用連續(xù)小波變換(CWT)將連續(xù)時間函數(shù)分解成小波。
然而,由于存在信息冗余,計算CWT所有可能的尺度和平移需要大量的計算工作,因此限制了它的使用[45]。離散小波變換(DWT)是小波變換(WT)的擴(kuò)展,提高了分解過程[48]的靈活性。
它是一種非常靈活和高效的信號子帶擊穿方法[46,49]。
在早期的應(yīng)用中,線性離散化用于連續(xù)小波變換的離散化。Daubechies和其他人開發(fā)了一種正交DWT,專門用于分析尺度集(二元離散化)[47]上的有限觀測集。
6.1 算法說明,優(yōu)缺點(diǎn)
小波變換將信號分解成一組稱為小波的基本函數(shù)。小波由一個稱為母波的原型小波通過擴(kuò)展和移位得到。小波變換的主要特點(diǎn)是利用可變窗口掃描頻譜,提高了分析的時間分辨率[45,46,50]。
wt將信號分解到經(jīng)過翻譯和擴(kuò)展的母波上。母波是一個能量有限且衰減快的時間函數(shù)。單個小波的不同版本是互相正交的。連續(xù)小波變換(CWT)由[33,45,50]給出。
其中$\psi (t)$是母小波,a和b是連續(xù)參數(shù)。
小波變換系數(shù)是一個展開式,一個特定的位移代表原始信號與經(jīng)過平移和放大的母波的對應(yīng)程度。
因此,與特定信號相關(guān)的CWT (a, b)的系數(shù)群是原始信號相對于母波[45]的小波表示。
由于連續(xù)小波變換具有較高的冗余度,因此利用小尺度分析信號,每個尺度上的平移量各不相同,即離散化尺度和a 2j、b 2jk的平移參數(shù),得到DWT。
DWT理論需要[33]給出的尺度函數(shù)和小波函數(shù)兩組相關(guān)函數(shù):

其中$\phi (t)$是標(biāo)度函數(shù),$\psi (t)$是小波函數(shù),h[n]是低通濾波器的脈沖響應(yīng),g[n]是高通濾波器的脈沖響應(yīng)。
有幾種方法可以使CWT離散化。連續(xù)信號的dwt也可由[45]給出:
其中$\psi _{m,p}$是小波函數(shù)基,m是擴(kuò)張參數(shù),p是平移參數(shù)。
因此$\psi _{m,p}$被定義為:
離散信號的DWT來源于CWT,定義為

其中$g(*)$是母小波,x[n]是離散信號。母小波可以通過選擇縮放參數(shù)$a=a_0^m$和平移參數(shù)$b=nb_0a_0^m$(常數(shù)取$a_0>1$,$b_0>1$,而m和n被賦予一組正整數(shù))來離散地放大和平移。
利用一對濾波器h[n]和g[n],即具有$g[n]=(-1)^{1-n}h[n]$性質(zhì)的正交鏡濾波器(quadrature mirror filters),可以有效地實(shí)現(xiàn)尺度變換和小波函數(shù)。輸入信號經(jīng)過低通濾波和高通濾波,分別得到近似分量和細(xì)節(jié)分量。
圖5總結(jié)了這一點(diǎn)。利用相同的低通濾波器和高通濾波器對各階段的近似信號進(jìn)行進(jìn)一步分解,得到下一階段的近似分量和細(xì)節(jié)分量。這種分解稱為二元分解[33]。
DWT參數(shù)包含不同頻率尺度的信息。這增強(qiáng)了在相應(yīng)頻段[33]中獲得的語音信息。
DWT能夠按比例對輸入元素的方差進(jìn)行分區(qū),這是一個額外的優(yōu)勢。這種劃分導(dǎo)致了尺度相關(guān)小波方差的觀點(diǎn),它在很多方面等價于我們更熟悉的頻率相關(guān)的傅里葉功率譜[47]。
經(jīng)典的離散分解方案是二元的,不能滿足直接用于參數(shù)化的所有要求。DWT確實(shí)為有效的語音分析[51]提供了足夠的頻帶數(shù)。
由于輸入信號的長度是有限的,由于邊界[50]處的不連續(xù)性,使得小波系數(shù)在邊界處的變化非常大。

圖5 DWT的方框圖
7、感知線性預(yù)測(PLP)
感知線性預(yù)測(PLP)技術(shù)將關(guān)鍵頻帶、強(qiáng)度-響度壓縮和等響度預(yù)強(qiáng)調(diào)相結(jié)合,用于語音相關(guān)信息的提取。
它植根于非線性樹皮規(guī)模,最初是打算用于語音識別任務(wù)中消除說話人相關(guān)的特征[11]。
PLP給出了一個符合平滑的短期頻譜的表示,該短期頻譜已被均衡和壓縮,類似于人類的聽覺,使其類似于MFCC。
在PLP方法中,我們復(fù)制了聽覺的幾個顯著特征,然后用自回歸全極點(diǎn)模型[52]近似地表示類似聽覺的語音頻譜。
PLP給出了高頻下的最小分辨率,這意味著基于聽覺濾波器組的方法,同時給出了與倒譜分析相似的正交輸出。
它使用線性預(yù)測來平滑光譜,因此,它的名字是感知線性預(yù)測[28]。PLP是光譜分析和線性預(yù)測分析的結(jié)合。
7.1 算法說明,優(yōu)缺點(diǎn)
為了計算語音的PLP特征,計算了語音的快速傅里葉變換(FFT)和幅度的平方。這給出了功率譜估計。
然后在1樹皮間隔上應(yīng)用梯形濾波器,將重疊的臨界帶濾波器響應(yīng)整合到功率譜中。這能有效地把高頻壓縮成窄帶。
在樹皮扭曲的頻率尺度上的對稱頻域卷積允許低頻掩蓋高頻,同時平滑頻譜。
頻譜隨后被預(yù)先強(qiáng)調(diào),以近似人類聽覺在各種頻率下的不均勻靈敏度。對譜振幅進(jìn)行壓縮,減小了譜共振的振幅變化。
通過離散傅里葉反變換(IDCT)得到自相關(guān)系數(shù)。進(jìn)行譜平滑,求解自回歸方程。將自回歸系數(shù)轉(zhuǎn)換為倒譜變量[28]。計算樹皮鱗片頻率的公式為

圖6。PLP處理器的方框圖
| 濾波器系數(shù) | 濾波器的形狀 | 建模方法 | 速度的計算 | 系數(shù)類型 | 抗噪聲能力 | 對量化/附加噪聲的靈敏度 | 可靠性 | 捕獲頻率 | |
| Mel倒頻譜系數(shù)(MFCC) | Mel | 三角形 | 人類聽覺系統(tǒng) | 高 | 倒頻譜 | 中等 | 中等 | 高 | 低 |
| 線性預(yù)測系數(shù)(LPC) | 線性預(yù)測 | 線性 | 人類聲道 | 高 | 自相關(guān)系數(shù) | 高 | 高 | 高 | 低 |
| 線性預(yù)測倒譜系數(shù)(LPCC) | 線性預(yù)測 | 線性 | 人類聲道 | 中等 | 倒頻譜 | 高 | 高 | 中等 | 低&中等 |
| 譜線頻率(LSF) | 線性預(yù)測 | 線性 | 人類聲道 | 中等 | 頻譜 | 高 | 高 | 中等 | 低&中等 |
| 離散小波變換(DWT) | 低通&高通 | – | – | 高 | 小波 | 中等 | 中等 | 中等 | 低&中等 |
| 感知線性預(yù)測(PLP) | Bark | 梯形 | 人類聽覺系統(tǒng) | 中等 | 倒頻譜&自相關(guān) | 中等 | 中等 | 中等 | 低&中等 |
表1 特征提取技術(shù)的比較。
其中,bark(f)為頻率(bark), f為頻率(Hz)。
PLP的識別效果優(yōu)于LPC[28],因?yàn)樗行У匾种屏苏f話人相關(guān)信息[52],是對傳統(tǒng)LPC的改進(jìn)。此外,它還增強(qiáng)了與揚(yáng)聲器無關(guān)的識別性能,并且對噪聲、信道變化和麥克風(fēng)[53]具有魯棒性。
PLP精確重構(gòu)了自回歸噪聲分量[54]?;赑LP的前端對共振峰頻率的任何變化都很敏感。
圖6顯示了PLP處理器,顯示了獲取PLP系數(shù)所需的所有步驟。
PLP對譜傾斜的敏感性較低,這與我們的研究結(jié)果一致,即對譜傾斜的語音判斷相對不敏感。此外,PLP分析依賴于整體光譜平衡(共振峰振幅)的結(jié)果。
共振峰振幅易受記錄設(shè)備、通信信道和附加噪聲[52]等因素的影響。此外,時間-頻率分辨率和有效采樣的短期表現(xiàn)在一個特設(shè)的方式解決了[54]。
表1顯示了上述六種特征提取技術(shù)的比較。盡管用于研究的特征提取算法的選擇是獨(dú)立的,但是本表能夠根據(jù)選擇任何特征提取算法時的主要考慮因素來描述這些技術(shù)。
這些考慮因素包括計算速度,抗噪聲性和對附加噪聲的敏感性。該表還可作為考慮在所討論的任何兩個或多個算法之間進(jìn)行選擇時的指南。
8、結(jié)論
MFCC、LPC、LPCC、LSF、PLP和DWTare是一些用于提取語音信號中相關(guān)信息的特征提取技術(shù),用于語音識別和識別。
這些技術(shù)經(jīng)受住了時間的考驗(yàn),并在語音識別系統(tǒng)中得到了廣泛的應(yīng)用。
語音信號是一種慢時變的準(zhǔn)平穩(wěn)信號,當(dāng)在5 ~ 100毫秒的足夠短的時間內(nèi)觀察到它時,它的行為是相對平穩(wěn)的。
因此,包括MFCC、LPCC和PLP在內(nèi)的短時譜分析常被用于從語音信號中提取重要信息。
噪聲是特征提取以及說話人識別過程中所面臨的一個嚴(yán)峻挑戰(zhàn)。隨后,研究人員對上述討論的技術(shù)進(jìn)行了一些修改,使它們更不受噪音影響,更健壯,消耗的時間更少。
這些方法也被用于聲音的識別。提取的信息將被輸入分類器進(jìn)行識別。上述特征提取方法可以用MATLAB實(shí)現(xiàn)。
本文完?


