<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          一些常用的語音特征提取算法

          共 9063字,需瀏覽 19分鐘

           ·

          2021-03-11 17:26


          原文 https://flashgene.com/archives/70752.html


          前言

          語言是一種復(fù)雜的自然習(xí)得的人類運(yùn)動能力。成人的特點(diǎn)是通過大約100塊肌肉的協(xié)調(diào)運(yùn)動,每秒發(fā)出14種不同的聲音。
          說話人識別是指軟件或硬件接收語音信號,識別語音信號中出現(xiàn)的說話人,然后識別說話人的能力。
          特征提取是通過將語音波形以相對最小的數(shù)據(jù)速率轉(zhuǎn)換為參數(shù)表示形式進(jìn)行后續(xù)處理和分析來實(shí)現(xiàn)的。因此,可接受的分類是從優(yōu)良和優(yōu)質(zhì)的特征中衍生出來的。
          Mel頻率倒譜系數(shù)(MFCC)、線性預(yù)測系數(shù)(LPC)、線性預(yù)測倒譜系數(shù)(LPCC)、線譜頻率(LSF)、離散小波變換(DWT)和感知線性預(yù)測(PLP)是本章討論的語音特征提取技術(shù)。
          這些方法已經(jīng)在廣泛的應(yīng)用中進(jìn)行了測試,使它們具有很高的可靠性和可接受性。研究人員對上述討論的技術(shù)做了一些修改,使它們更不受噪音影響,更健壯,消耗的時間更少。
          總之,沒有一種方法優(yōu)于另一種,應(yīng)用范圍將決定選擇哪種方法。
          本文主要的關(guān)鍵技術(shù):mel頻率倒譜系數(shù)(MFCC),線性預(yù)測系數(shù)(LPC),線性預(yù)測倒譜系數(shù)(LPCC),線譜頻率(LSF),離散小波變換(DWT),感知線性預(yù)測(PLP)
          1 、介紹
          人類通過言語來表達(dá)他們的感情、觀點(diǎn)、觀點(diǎn)和觀念。語音生成過程包括發(fā)音、語音和流利性[1,2]。
          這是一種復(fù)雜的自然習(xí)得的人類運(yùn)動能力,在正常成年人中,這項(xiàng)任務(wù)是通過脊椎和顱神經(jīng)連接的大約100塊肌肉協(xié)調(diào)運(yùn)動,每秒發(fā)出大約14種不同的聲音。
          人類說話的簡單性與任務(wù)的復(fù)雜性形成對比,這種復(fù)雜性有助于解釋為什幺語言對與神經(jīng)系統(tǒng)[3]相關(guān)的疾病非常敏感。
          在開發(fā)能夠分析、分類和識別語音信號的系統(tǒng)方面已經(jīng)進(jìn)行了幾次成功的嘗試。為這類任務(wù)所開發(fā)的硬件和軟件已應(yīng)用于保健、政府部門和農(nóng)業(yè)等各個領(lǐng)域。
          說話人識別是指軟件或硬件接收語音信號,識別語音信號中出現(xiàn)的說話人,并在[4]之后識別說話人的能力。
          說話人的識別執(zhí)行的任務(wù)與人腦執(zhí)行的任務(wù)類似。這從語音開始,語音是說話人識別系統(tǒng)的輸入。一般來說,說話人的識別過程主要分為三個步驟:聲音處理、特征提取和分類/識別[5]。
          在提取語音[6]的重要屬性并進(jìn)行識別之前,對語音信號進(jìn)行去噪處理。特征提取的目的是通過給定數(shù)量的信號分量來描述語音信號。
          這是因?yàn)槁晫W(xué)信號中的所有信息處理起來都過于繁瑣,有些信息與識別任務(wù)無關(guān)[7,8]。
          特征提取是通過以相對較低的數(shù)據(jù)速率將語音波形轉(zhuǎn)換為參數(shù)表示形式進(jìn)行后續(xù)處理和分析來完成的。這通常稱為前端信號處理[9,10]。
          它將經(jīng)過處理的語音信號轉(zhuǎn)換成一種簡潔而有邏輯的表示形式,比實(shí)際信號更有鑒別性和可靠性。前端是序列中的初始元素,后續(xù)特征(模式匹配和speaker建模)的質(zhì)量受到前端[10]質(zhì)量的顯著影響。
          因此,可接受的分類是從優(yōu)良和優(yōu)質(zhì)的特征中衍生出來的。在當(dāng)前自動說話人識別(ASR)系統(tǒng),特征提取的過程通常被發(fā)現(xiàn)表示相對可靠的幾個條件相同的語音信號,即使在環(huán)境條件改變或發(fā)言人,同時保留的部分描述語音信號中的信息(7、8)。
          特征提取方法通常為每個語音信號提取一個多維特征向量。語音信號的參數(shù)化表示方法有很多種,如感知線性預(yù)測(PLP)、線性預(yù)測編碼(LPC)和mel-頻率倒譜系數(shù)(MFCC)。MFCC是最有名和非常受歡迎的[9,12]。
          特征提取是說話人識別中最相關(guān)的部分。語音特征在區(qū)分說話人與其他[13]人的過程中起著至關(guān)重要的作用。特征提取在不損害語音信號[14]功率的前提下,降低了語音信號的幅度。
          在特征提取之前,首先進(jìn)行預(yù)處理階段的序列。預(yù)處理步驟是預(yù)強(qiáng)調(diào)。這是通過一個FIR濾波器[15]來實(shí)現(xiàn)的,它通常是一個一階有限脈沖響應(yīng)(FIR)濾波器[16]。接著是幀阻塞,這是一種將語音信號分割成幀的方法。它消除了存在于語音信號[17]的開始和結(jié)束處的聲學(xué)接口。
          然后將加框的語音信號加窗。帶通濾波器是一個合適的窗口[15],用于最小化每幀開始和結(jié)束時的不均勻性。最著名的兩類窗戶是漢明窗和矩形窗[18]。它增加了諧波的銳度,消除了信號的不連續(xù),減少了幀零的開始和結(jié)束。它也減少了由重疊[17]形成的光譜失真。

          2 、Mel倒頻譜系數(shù)(MFCC)

          Mel頻率倒譜系數(shù)(MFCC)最初被建議用于識別連續(xù)口語句子中的單音節(jié)詞,但不用于說話人識別。
          MFCC計算是對人耳聽覺系統(tǒng)的一種復(fù)制,它假設(shè)人耳是一個可靠的說話人識別器[19],以人為地實(shí)現(xiàn)人耳的工作原理。
          MFCC特征來源于人耳臨界帶寬的差異,低頻線性間隔的頻率濾波器和高頻對數(shù)間隔的頻率濾波器被用來保留語音信號的語音重要特性。
          語音信號通常包含不同頻率的音調(diào),每個音調(diào)都有一個實(shí)際的頻率,f (Hz),主觀音高在梅爾等級上計算。
          梅爾頻率標(biāo)度在1000赫茲以下為線性頻率間隔,在1000赫茲以上為對數(shù)頻率間隔。1 kHz音高,高于感知可聽閾值40 dB,定義為1000 mels,作為參考點(diǎn)[20]。
          MFCC是在濾波器組的幫助下實(shí)現(xiàn)信號分解的。MFCC給出了在Mel頻標(biāo)[21]上顯示的短期能量的實(shí)對數(shù)的離散余弦變換(DCT)。MFCC用于識別機(jī)票預(yù)訂、電話號碼和語音識別系統(tǒng)的安全性。
          為了獲得更好的魯棒性,有人對基本的MFCC算法進(jìn)行了一些修改,比如在應(yīng)用dct0之前將log- mel振幅提升到適當(dāng)?shù)墓β?大約2或3),并減少低能部分[4]的影響。
          2.1 算法說明,優(yōu)缺點(diǎn)
          MFCC是在扭曲的頻率尺度上推導(dǎo)出的倒譜系數(shù),以人類聽覺感知為中心。在MFCC的計算中,首先對語音信號進(jìn)行加窗處理,將語音信號分割成幀。
          由于高頻共振峰的振幅比低頻共振峰的振幅要小,所以高頻共振峰的振幅要比低頻共振峰的振幅小。加窗后,應(yīng)用快速傅里葉變換(FFT)求出各幀的功率譜。然后,利用mel-scale對功率譜進(jìn)行濾波器組處理。
          將功率譜變換為對數(shù)域后,將離散余弦變換應(yīng)用于語音信號,計算MFCC系數(shù)[5]。計算任意頻率的mels的公式是[19,22]
          其中mel(f)為頻率(mels), f為頻率(Hz)。
          MFCCs的計算公式為[9,19]:
          其中k是mel倒譜系數(shù)的個數(shù),$\hat{S}_k$是filterbank的輸出,$\hat{C}_n$是最終的mfcc系數(shù)。
          MFCC處理器的框圖如圖1所示。它總結(jié)了獲得所需系數(shù)的所有過程和步驟。MFCC比高頻區(qū)域更能有效地表示低頻區(qū)域,因此,它可以計算低頻范圍內(nèi)的共振峰,并描述聲道共振。
          它是典型的說話人識別應(yīng)用的前端程序,降低了噪聲干擾的脆弱性,會話不一致性小,易于挖掘[19]。
          此外,當(dāng)源特征是穩(wěn)定和一致的(音樂和語音)[23]時,它是聲音的完美表現(xiàn)。此外,它還可以從采樣信號中捕獲頻率最大為5千赫的信息,這封裝了人類[9]發(fā)出的聲音的大部分能量。
          倒譜系數(shù)據(jù)說在與人類聲音有關(guān)的某些模式識別問題中是準(zhǔn)確的。它們廣泛應(yīng)用于說話人識別和語音識別[21]中。
          其他共振峰也可能在1khz以上,而且高頻[19]范圍內(nèi)的濾波器間距較大,不能有效地考慮共振峰。MFCC特征在背景噪聲存在的情況下并不完全準(zhǔn)確[14,24],可能不適用于泛化[23]。


          圖1 MFCC處理器的框圖


          3、 線性預(yù)測系數(shù)(LPC)

          線性預(yù)測系數(shù)(LPC)模擬人體聲道[16],具有魯棒性強(qiáng)的語音特征。它通過近似共振峰來評估語音信號,從語音信號中去除共振峰的影響,并估計殘留語音信號的濃度和頻率。結(jié)果表明信號的每個樣本都是前一個樣本的直接結(jié)合。
          差分方程的系數(shù)表征共振峰,因此,LPC需要近似這些系數(shù)[25]。LPC是一種功能強(qiáng)大的語音分析方法,它作為一種共振峰估計方法獲得了廣泛的應(yīng)用。
          共振峰出現(xiàn)的頻率稱為共振峰頻率。因此,使用這種技術(shù),通過計算滑動窗口上的線性預(yù)測系數(shù),并在隨后的線性預(yù)測濾波器[17]的頻譜中找到峰值,可以預(yù)測語音信號中共振峰的位置。LPC有助于在低比特率下對高質(zhì)量語音進(jìn)行編碼[13,26,27]。
          從線性預(yù)測倒譜系數(shù)(LPCC)、對數(shù)面積比(LAR)、反射系數(shù)(RC)、線譜頻率(LSF)和反正弦系數(shù)(Arcus Sine coefficients)[13]可以推導(dǎo)出LPC的其他特征。
          LPC通常用于語音重建。LPC方法一般應(yīng)用于音樂和電氣公司,用于制造移動機(jī)器人,在電話公司,小提琴和其他弦樂器的音調(diào)分析[4]。

          3.1 算法說明,優(yōu)缺點(diǎn)

          采用線性預(yù)測的方法,通過減小輸入語音與估計語音[28]之間的均方誤差,得到等效于聲道的濾波系數(shù)。
          語音信號的線性預(yù)測分析是對給定語音樣本在特定時間段內(nèi)的預(yù)測,其預(yù)測結(jié)果是前一樣本的線性加權(quán)集合。語音生成的線性預(yù)測模型為[13,25]
          其中^s為預(yù)測樣本,s為語音樣本,p為預(yù)測系數(shù)。
          預(yù)測誤差為[16,25]:
          因此,加窗信號的每一幀都是自相關(guān)的,而自相關(guān)值最高的是線性預(yù)測分析的階數(shù)。然后是LPC分析,每一幀的自相關(guān)被轉(zhuǎn)換成LPC參數(shù)集,這些參數(shù)集由LPC系數(shù)[26]組成。獲取LPC的過程摘要如圖2所示。LPC可由[7]推導(dǎo)


          圖2 LPC處理器的框圖。


          其中$a_m$為線性預(yù)測系數(shù),$k_m$為reflection coefficient(反射系數(shù))

          線性預(yù)測分析能有效地從給定的語音[16]中選擇聲道信息。它以計算速度和準(zhǔn)確度著稱。LPC很好地代表了穩(wěn)定一致的[23]源行為。此外,它還被用于語音識別系統(tǒng)中,主要目的是提取聲道特性[25]。

          它對語音參數(shù)的估計非常準(zhǔn)確,計算效率也相對較高[14,26]。傳統(tǒng)的線性預(yù)測方法存在自相關(guān)系數(shù)失真的問題。LPC估計值對量化噪聲[30]具有很高的敏感性,可能不適用于泛化[23]。

          4 、線性預(yù)測倒譜系數(shù)(LPCC)

          線性預(yù)測倒譜系數(shù)(LPCC)是由LPC計算的頻譜包絡(luò)[11]得到的倒譜系數(shù)。LPCC是LPC對數(shù)幅度譜的傅里葉變換的系數(shù)[30,31]。

          倒譜分析是語音處理領(lǐng)域中常用的一種分析方法,因?yàn)樗軌蛞杂邢薜腫31]特征來完美地表征語音波形和特征。

          Rosenberg和Sambur觀察到相鄰的預(yù)測系數(shù)高度相關(guān),因此,具有較少相關(guān)特征的表征更有效,LPCC就是一個典型的例子。LPC與LPCC的關(guān)系最早是由Atal在1974年推導(dǎo)出來的。從理論上講,在相位信號[32]最小的情況下,將LPC轉(zhuǎn)換為LPCC相對容易。

          4.1 算法說明,優(yōu)缺點(diǎn)

          在語音處理中,LPCC類似于LPC,由語音波形的采樣點(diǎn)計算得到,橫軸是時間軸,縱軸是振幅軸[31]。


          圖3。LPCC處理器的框圖。

          LPCC處理器如圖3所示。它形象地解釋了獲得LPCC的過程。LPCC可以用[7,15,33]來計算。

          其中am為線性預(yù)測系數(shù),Cm為倒譜系數(shù)。

          LPCC對噪聲[30]的脆弱性較低。與LPC特性[31]相比,LPCC特性的錯誤率更低。高階倒譜系數(shù)在數(shù)學(xué)上是有限的,因此從低階倒譜系數(shù)轉(zhuǎn)移到高階[34]倒譜系數(shù)時,產(chǎn)生了極為廣泛的方差陣列。

          類似地,LPCC估計對量化噪聲[35]非常敏感。高頻語音信號的倒譜分析給出了低頻域[29]的小源濾波器可分性。低階倒譜系數(shù)對譜斜率敏感,而高階倒譜系數(shù)對噪聲[15]敏感。

          5 、線譜頻率(LSF)

          線譜對(LSP)的單線稱為線譜頻率(LSF)。LSF定義了發(fā)生在人類聲道內(nèi)連接管模型中的兩種共振情況。該模型考慮了鼻腔和口腔的形狀,為線性預(yù)測的基本生理重要性奠定了基礎(chǔ)。

          這兩種共振情況定義了聲門[36]處聲道要幺完全打開要幺完全閉合。這兩種情況產(chǎn)生兩組共振頻率,每組共振頻率的數(shù)目由連接管的數(shù)量來推斷。

          每一種情況下的共振都是相應(yīng)的奇偶線譜,并交織成一個奇異上升的LSF[36]群。

          LSF表示法是由Itakura[37,38]提出的,用來代替線性預(yù)測參數(shù)表示法。在語音編碼領(lǐng)域,人們已經(jīng)認(rèn)識到該算法比其他線性預(yù)測參數(shù)化算法(LAR和RC)具有更好的量化特性。

          LSF圖能夠在不影響合成語音質(zhì)量的前提下,將傳輸線性預(yù)測信息的比特率降低25% ~ 30%[3840]。

          除量子化外,預(yù)測器的LSF圖也適用于插值。從理論上講,將lsf域平方量化誤差與感知相關(guān)的對數(shù)譜相聯(lián)系的靈敏度矩陣是對角的[41,42],這可以從這一點(diǎn)得到啟發(fā)。

          5.1 算法說明,優(yōu)缺點(diǎn)

          LP建立在語音信號可以由式(3)定義的點(diǎn)上,其中k是時間指數(shù),p是線性預(yù)測的階數(shù),$\hat{s}(n)$是預(yù)測信號,$a_k$是LPC系數(shù)。

          通過自相關(guān)或協(xié)方差的方法確定$a_k$系數(shù)以減小預(yù)測誤差。公式(3)可以在頻域中用z-Transform進(jìn)行修改,因此,語音信號的一小部分預(yù)計將作為輸出給全極點(diǎn)濾波器H(z)。新公式是,其中H(z)是全極點(diǎn)濾波器,A(z)是LPC分析濾波器

          為了計算LSF系數(shù),一個逆多項(xiàng)式濾波器被分成兩個多項(xiàng)式P(z)和Q(z)[36,38,40,41]:


          其中P(z)是聲門閉合的聲道,Q(z)是階P的LPC分析過濾器。為了將LSF轉(zhuǎn)換回LPC,使用以下公式[36,41,43,44]



          圖4.LSF處理器框圖。

          LSF處理器的框圖如圖4所示。LSF在語音壓縮領(lǐng)域的應(yīng)用最為突出,并擴(kuò)展到說話人識別和語音識別領(lǐng)域。這項(xiàng)技術(shù)在其他領(lǐng)域的應(yīng)用也受到限制。LSF已被研究用于樂器識別和編碼。

          LSF還被應(yīng)用于動物噪音識別、個人工具識別和金融市場分析。LSF的優(yōu)點(diǎn)包括其對光譜靈敏度的定位能力,它們可以表征帶寬和共振位置,并強(qiáng)調(diào)了譜峰定位的重要方面。在大多數(shù)情況下,LSF表示為后續(xù)的分類[36]提供了一個幾乎最小的數(shù)據(jù)集。

          由于LSF以低于原始輸入樣本的數(shù)據(jù)速率表示光譜形狀信息,因此,在LSP領(lǐng)域中仔細(xì)使用處理和分析方法可以降低對原始輸入數(shù)據(jù)本身進(jìn)行操作的替代技術(shù)的復(fù)雜性。

          LSF在聲道信息從語音編碼器到解碼器的傳輸中起著重要的作用,其良好的量化特性使其得到了廣泛的應(yīng)用。

          LSP參數(shù)的生成可以使用多種復(fù)雜的方法來完成。主要的問題是求出Eqs中定義的P和Q多項(xiàng)式的根。(8)和(9)。這可以通過標(biāo)準(zhǔn)的根解法或更模糊的方法得到,通常在余弦域[36]中執(zhí)行。

          6、 離散小波變換

          小波變換(WT)理論的核心是在[45]的時域和頻域使用不同尺度的信號分析。在理論物理學(xué)家Alex Grossmann的支持下,Jean Morlet引入了小波變換,該變換允許以增強(qiáng)的時間分辨率識別高頻事件[45 47]。小波是一種有效的有限持續(xù)時間的波形,其平均值為零。

          許多小波也表現(xiàn)出正交性,這是緊湊信號表示[46]的理想特征。小波變換是一種信號處理技術(shù),可以高效地表示現(xiàn)實(shí)生活中的非平穩(wěn)信號[33,46]。它能夠在時域和頻域同時從瞬態(tài)信號中挖掘信息[33,45,48]。

          利用連續(xù)小波變換(CWT)將連續(xù)時間函數(shù)分解成小波。

          然而,由于存在信息冗余,計算CWT所有可能的尺度和平移需要大量的計算工作,因此限制了它的使用[45]。離散小波變換(DWT)是小波變換(WT)的擴(kuò)展,提高了分解過程[48]的靈活性。

          它是一種非常靈活和高效的信號子帶擊穿方法[46,49]。

          在早期的應(yīng)用中,線性離散化用于連續(xù)小波變換的離散化。Daubechies和其他人開發(fā)了一種正交DWT,專門用于分析尺度集(二元離散化)[47]上的有限觀測集。

          6.1 算法說明,優(yōu)缺點(diǎn)

          小波變換將信號分解成一組稱為小波的基本函數(shù)。小波由一個稱為母波的原型小波通過擴(kuò)展和移位得到。小波變換的主要特點(diǎn)是利用可變窗口掃描頻譜,提高了分析的時間分辨率[45,46,50]。

          wt將信號分解到經(jīng)過翻譯和擴(kuò)展的母波上。母波是一個能量有限且衰減快的時間函數(shù)。單個小波的不同版本是互相正交的。連續(xù)小波變換(CWT)由[33,45,50]給出。

          其中$\psi (t)$是母小波,a和b是連續(xù)參數(shù)。

          小波變換系數(shù)是一個展開式,一個特定的位移代表原始信號與經(jīng)過平移和放大的母波的對應(yīng)程度。

          因此,與特定信號相關(guān)的CWT (a, b)的系數(shù)群是原始信號相對于母波[45]的小波表示。

          由于連續(xù)小波變換具有較高的冗余度,因此利用小尺度分析信號,每個尺度上的平移量各不相同,即離散化尺度和a 2j、b 2jk的平移參數(shù),得到DWT。

          DWT理論需要[33]給出的尺度函數(shù)和小波函數(shù)兩組相關(guān)函數(shù):


          其中$\phi (t)$是標(biāo)度函數(shù),$\psi (t)$是小波函數(shù),h[n]是低通濾波器的脈沖響應(yīng),g[n]是高通濾波器的脈沖響應(yīng)。

          有幾種方法可以使CWT離散化。連續(xù)信號的dwt也可由[45]給出:

          其中$\psi _{m,p}$是小波函數(shù)基,m是擴(kuò)張參數(shù),p是平移參數(shù)。

          因此$\psi _{m,p}$被定義為:

          離散信號的DWT來源于CWT,定義為


          其中$g(*)$是母小波,x[n]是離散信號。母小波可以通過選擇縮放參數(shù)$a=a_0^m$和平移參數(shù)$b=nb_0a_0^m$(常數(shù)取$a_0>1$,$b_0>1$,而m和n被賦予一組正整數(shù))來離散地放大和平移。

          利用一對濾波器h[n]和g[n],即具有$g[n]=(-1)^{1-n}h[n]$性質(zhì)的正交鏡濾波器(quadrature mirror filters),可以有效地實(shí)現(xiàn)尺度變換和小波函數(shù)。輸入信號經(jīng)過低通濾波和高通濾波,分別得到近似分量和細(xì)節(jié)分量。

          圖5總結(jié)了這一點(diǎn)。利用相同的低通濾波器和高通濾波器對各階段的近似信號進(jìn)行進(jìn)一步分解,得到下一階段的近似分量和細(xì)節(jié)分量。這種分解稱為二元分解[33]。

          DWT參數(shù)包含不同頻率尺度的信息。這增強(qiáng)了在相應(yīng)頻段[33]中獲得的語音信息。

          DWT能夠按比例對輸入元素的方差進(jìn)行分區(qū),這是一個額外的優(yōu)勢。這種劃分導(dǎo)致了尺度相關(guān)小波方差的觀點(diǎn),它在很多方面等價于我們更熟悉的頻率相關(guān)的傅里葉功率譜[47]。

          經(jīng)典的離散分解方案是二元的,不能滿足直接用于參數(shù)化的所有要求。DWT確實(shí)為有效的語音分析[51]提供了足夠的頻帶數(shù)。

          由于輸入信號的長度是有限的,由于邊界[50]處的不連續(xù)性,使得小波系數(shù)在邊界處的變化非常大。


          圖5 DWT的方框圖

          7、感知線性預(yù)測(PLP)

          感知線性預(yù)測(PLP)技術(shù)將關(guān)鍵頻帶、強(qiáng)度-響度壓縮和等響度預(yù)強(qiáng)調(diào)相結(jié)合,用于語音相關(guān)信息的提取。

          它植根于非線性樹皮規(guī)模,最初是打算用于語音識別任務(wù)中消除說話人相關(guān)的特征[11]。

          PLP給出了一個符合平滑的短期頻譜的表示,該短期頻譜已被均衡和壓縮,類似于人類的聽覺,使其類似于MFCC。

          在PLP方法中,我們復(fù)制了聽覺的幾個顯著特征,然后用自回歸全極點(diǎn)模型[52]近似地表示類似聽覺的語音頻譜。

          PLP給出了高頻下的最小分辨率,這意味著基于聽覺濾波器組的方法,同時給出了與倒譜分析相似的正交輸出。

          它使用線性預(yù)測來平滑光譜,因此,它的名字是感知線性預(yù)測[28]。PLP是光譜分析和線性預(yù)測分析的結(jié)合。

          7.1 算法說明,優(yōu)缺點(diǎn)

          為了計算語音的PLP特征,計算了語音的快速傅里葉變換(FFT)和幅度的平方。這給出了功率譜估計。

          然后在1樹皮間隔上應(yīng)用梯形濾波器,將重疊的臨界帶濾波器響應(yīng)整合到功率譜中。這能有效地把高頻壓縮成窄帶。

          在樹皮扭曲的頻率尺度上的對稱頻域卷積允許低頻掩蓋高頻,同時平滑頻譜。

          頻譜隨后被預(yù)先強(qiáng)調(diào),以近似人類聽覺在各種頻率下的不均勻靈敏度。對譜振幅進(jìn)行壓縮,減小了譜共振的振幅變化。

          通過離散傅里葉反變換(IDCT)得到自相關(guān)系數(shù)。進(jìn)行譜平滑,求解自回歸方程。將自回歸系數(shù)轉(zhuǎn)換為倒譜變量[28]。計算樹皮鱗片頻率的公式為


          圖6。PLP處理器的方框圖


          濾波器系數(shù)濾波器的形狀建模方法速度的計算系數(shù)類型抗噪聲能力對量化/附加噪聲的靈敏度可靠性捕獲頻率
          Mel倒頻譜系數(shù)(MFCC)Mel三角形人類聽覺系統(tǒng)倒頻譜中等中等
          線性預(yù)測系數(shù)(LPC)線性預(yù)測線性人類聲道自相關(guān)系數(shù)
          線性預(yù)測倒譜系數(shù)(LPCC)線性預(yù)測線性人類聲道中等倒頻譜中等低&中等
          譜線頻率(LSF)線性預(yù)測線性人類聲道中等頻譜中等低&中等
          離散小波變換(DWT)低通&高通小波中等中等中等低&中等
          感知線性預(yù)測(PLP)Bark梯形人類聽覺系統(tǒng)中等倒頻譜&自相關(guān)中等中等中等低&中等

          表1 特征提取技術(shù)的比較。


          其中,bark(f)為頻率(bark), f為頻率(Hz)。

          PLP的識別效果優(yōu)于LPC[28],因?yàn)樗行У匾种屏苏f話人相關(guān)信息[52],是對傳統(tǒng)LPC的改進(jìn)。此外,它還增強(qiáng)了與揚(yáng)聲器無關(guān)的識別性能,并且對噪聲、信道變化和麥克風(fēng)[53]具有魯棒性。

          PLP精確重構(gòu)了自回歸噪聲分量[54]?;赑LP的前端對共振峰頻率的任何變化都很敏感。

          圖6顯示了PLP處理器,顯示了獲取PLP系數(shù)所需的所有步驟。

          PLP對譜傾斜的敏感性較低,這與我們的研究結(jié)果一致,即對譜傾斜的語音判斷相對不敏感。此外,PLP分析依賴于整體光譜平衡(共振峰振幅)的結(jié)果。

          共振峰振幅易受記錄設(shè)備、通信信道和附加噪聲[52]等因素的影響。此外,時間-頻率分辨率和有效采樣的短期表現(xiàn)在一個特設(shè)的方式解決了[54]。

          表1顯示了上述六種特征提取技術(shù)的比較。盡管用于研究的特征提取算法的選擇是獨(dú)立的,但是本表能夠根據(jù)選擇任何特征提取算法時的主要考慮因素來描述這些技術(shù)。

          這些考慮因素包括計算速度,抗噪聲性和對附加噪聲的敏感性。該表還可作為考慮在所討論的任何兩個或多個算法之間進(jìn)行選擇時的指南。

          8、結(jié)論

          MFCC、LPC、LPCC、LSF、PLP和DWTare是一些用于提取語音信號中相關(guān)信息的特征提取技術(shù),用于語音識別和識別。

          這些技術(shù)經(jīng)受住了時間的考驗(yàn),并在語音識別系統(tǒng)中得到了廣泛的應(yīng)用。

          語音信號是一種慢時變的準(zhǔn)平穩(wěn)信號,當(dāng)在5 ~ 100毫秒的足夠短的時間內(nèi)觀察到它時,它的行為是相對平穩(wěn)的。

          因此,包括MFCC、LPCC和PLP在內(nèi)的短時譜分析常被用于從語音信號中提取重要信息。

          噪聲是特征提取以及說話人識別過程中所面臨的一個嚴(yán)峻挑戰(zhàn)。隨后,研究人員對上述討論的技術(shù)進(jìn)行了一些修改,使它們更不受噪音影響,更健壯,消耗的時間更少。

          這些方法也被用于聲音的識別。提取的信息將被輸入分類器進(jìn)行識別。上述特征提取方法可以用MATLAB實(shí)現(xiàn)。


          本文完?


          瀏覽 81
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  国内自拍亚洲 | 国产精品日产欧美 | 最新中文字幕MV第三季歌词完整版 | 内射蜜臀 | 精品成人无码久久久久 |