音視頻技術(shù)入門——音頻處理
共 2825字,需瀏覽 6分鐘
·
2022-02-09 17:34
我們耳朵聽到的聲音究竟是什么?
為什么聲音的空間感是如何實(shí)現(xiàn)的?
多人語音通話中出現(xiàn)的切字、漏字,是因?yàn)槭裁矗绾谓鉀Q呢?
變聲功能的原理是什么?
本篇文章會(huì)涉及到音頻處理的相關(guān)內(nèi)容,包括
涉及的知識(shí)點(diǎn):
(1)物理聲音3要素。
(2)音頻的量化過程。
(3)采樣率、聲道數(shù)、位深。
(4)重采樣。
(5)音頻碼率、音頻幀。
(6)音頻壓縮原理(時(shí)域掩蔽、頻域掩蔽)。
(7)常用音頻編碼格式,AAC系列、Opus。
(8)回聲消除、噪聲抑制、音量增益。
(9)變聲、混響、立體聲。
關(guān)于「音視頻技術(shù)小白科普營(yíng)」我們想用淺顯易懂的語言,將一些基礎(chǔ)知識(shí),體系化的介紹給音視頻技術(shù)初學(xué)者或者想要了解音視頻技術(shù)任何人。感謝閱讀,如果您想了解更多關(guān)于音視頻相關(guān),歡迎關(guān)注ZEGO即構(gòu)官網(wǎng)。
一、聲音三要素是人耳對(duì)聲音的主觀感受,第一個(gè)是音調(diào)(Pitch),
就是我們對(duì)聲音高低的感覺,它主要與聲波的頻率有關(guān),聲波的頻率高,則音調(diào)也高;
第二個(gè)是音量,也叫響度,就是聲音強(qiáng)弱,單位是分貝(dB),像你的分貝就很高,挺吵的,它和聲波振動(dòng)的幅度有關(guān),一般說來,聲波振動(dòng)幅度越大響度也越大;第三個(gè)是音色,可以理解為聲音的特色,就是我們?nèi)硕鷮?duì)各種頻率、各種強(qiáng)度的聲波的綜合反應(yīng),它取決于材質(zhì),比如說每個(gè)人不用的聲音就是你的音色。
二、音頻的量化過程
信號(hào)有數(shù)字信號(hào)和模擬信號(hào),就音頻的信號(hào)來說,以電話舉例。
“數(shù)字電話跟模擬電話最大的不同,就是線路里傳遞的是數(shù)字信號(hào)。這就涉及到要將聲音數(shù)字化,這個(gè)過程就叫做量化過程,也就是模擬音頻的數(shù)字化過程。
這個(gè)過程分三個(gè)步驟:
1.采樣:在時(shí)間軸上對(duì)信號(hào)數(shù)字化。
采樣頻率越高(高/低),越能真實(shí)地反映音頻信號(hào)隨時(shí)間的變化。采樣頻率越高聲音的還原就越真實(shí)越自然。如果采樣率越大,那么想還原信號(hào)的真實(shí)性就越容易,當(dāng)采樣頻率設(shè)置不合理時(shí),即采樣頻率低于2倍的信號(hào)頻率時(shí),會(huì)導(dǎo)致原本的高頻信號(hào)被采樣成低頻信號(hào),會(huì)造成混疊。
2.量化:在幅度軸上對(duì)信號(hào)數(shù)字化。
量化位數(shù)越多(多/少),越能細(xì)化音頻信號(hào)的幅度變化,這個(gè)也叫做位深或者位寬。
3.編碼:就是按一定格式記錄采樣和量化后的數(shù)據(jù)。
常見的有損編碼有AAC-HE、AAC-LC、OPUS不同的編碼有不同的適用場(chǎng)景,這個(gè)要在線路搭通后,看看什么樣的編碼合適。
4.聲道數(shù):
音頻的采集和播放,是可以同時(shí)從多個(gè)音頻源采集聲音,并分別輸出到不同的揚(yáng)聲器,聲道數(shù)為 1 和 2 分別稱為單聲道和雙聲道。
5.音頻碼率、音頻幀
為了更好的跟傳輸線路匹配,編碼之后的數(shù)據(jù)會(huì)用音頻碼率的方式來描述他所需要的最低的傳輸速度,這就是碼率。
碼率是指,1s內(nèi)編碼/傳輸?shù)囊纛l數(shù)據(jù)量。例如采樣率44.1k,雙聲道,16bit位深,PCM 數(shù)據(jù)推流的碼率為:44.1 * 1000 * 16 * 2 = 1411200 bits / s = 1411.2 kbit / s = 1.411 Mbit/s
音頻數(shù)據(jù)是流式的,本身沒有明確的“幀”的概念,在實(shí)際的應(yīng)用中,為了音頻算法處理/傳輸?shù)姆奖悖话慵s定俗成取 2.5ms~60ms 為單位的數(shù)據(jù)量為一幀音頻.
轉(zhuǎn)采樣就是,將具有某一采樣率的離散樣本流,更改為具有另一采樣率的流的過程。
三、音頻壓縮
壓縮的編碼方式有兩種:AAC和OPUS,數(shù)字電話默認(rèn)用AAC-LC編碼,碼率高、音質(zhì)好,適合音樂播放場(chǎng)景,推薦你使用Opus,碼率低、延遲低,更適合通話場(chǎng)景。
說明:(Opus適合通話場(chǎng)景,64k碼率就夠了。但AAC-LC,一般要128k碼率,適合音樂場(chǎng)景。
音頻的壓縮原理:
聲音信號(hào)有一個(gè)掩蔽效應(yīng),就是一個(gè)頻率的聲音能量小于某個(gè)閾值之后,人耳就會(huì)聽不到,這個(gè)閾值稱為最小可聞閾。
當(dāng)有另外能量較大的聲音出現(xiàn)的時(shí)候,該聲音頻率附近的閾值會(huì)提高很多,即所謂的頻域掩蔽效應(yīng)。
如果強(qiáng)音信號(hào)和弱音信號(hào)同時(shí)出現(xiàn),也會(huì)發(fā)生掩蔽效應(yīng),這個(gè)就叫時(shí)域掩蔽效應(yīng)。)
四、3A&混響
3A是指:回聲消除 (AEC) 、噪聲抑制(ANS) 、?動(dòng)增益控制(AGC)
AEC是利用濾波器,把噪聲過濾掉,達(dá)到回聲消除的過程。
我們將聲音的時(shí)域信號(hào)轉(zhuǎn)成頻域信號(hào)進(jìn)行分析,從頻域的角度看,濾波器會(huì)“砍掉”一些不需要的頻率,達(dá)到“過濾”的效果。
當(dāng)兩人以上一起講話時(shí),出現(xiàn)回聲,就會(huì)出現(xiàn)漏尾和切字,是由于有多方同時(shí)說話,采集進(jìn)來的語音信號(hào)就包含了遠(yuǎn)端的回聲和近端的語音,兩者混合在一起。
雙講情形下的回聲消除就十分困難:一方面要保護(hù)近端的語音信號(hào)不被損傷,另外一方面還要盡量地把回聲消除干凈。
但是我們即構(gòu)的AEC通過線性處理,根據(jù)參考信號(hào)與遠(yuǎn)端回聲信號(hào)的相關(guān)性,盡量將遠(yuǎn)端回聲信號(hào)進(jìn)行了消除;又用非線性處理,根據(jù)殘留量進(jìn)行殘留回聲抑制和剪切處理。
當(dāng)環(huán)境噪音太大時(shí),會(huì)用到ANS(噪聲抑制)功能。ANS會(huì)對(duì)帶噪語音進(jìn)行VAD判斷、噪聲估計(jì),用維納濾波達(dá)到降噪效果!
如果還想讓通話聲音更大,就是AGC(自動(dòng)增益控制)功能了。
變聲、混響、立體聲等功能!
變聲就是語音變調(diào),一段聲音可以理解為多種頻率正弦波的疊加。提高了主要頻率,就是升調(diào),反之則是降調(diào)。
還可以在唱歌時(shí)添加混響,混響后歌聲就顯得豐滿、富有層次、有空間感,聽眾仿佛置身360度空間。
哪些步驟開業(yè)實(shí)現(xiàn)混響效果的:
1、通過指定延遲時(shí)間和衰減程度,以原始的聲音波形為輸入,產(chǎn)生多個(gè)延遲(模擬反彈回來的)波形;
2、把多個(gè)延遲波形和原始的波形進(jìn)行疊加,產(chǎn)生最終有混響效果的聲音波形。延遲波形的個(gè)數(shù)越多,疊加產(chǎn)生的聲音波形就比較豐滿和有層次感,混響的效果也越好。
增強(qiáng)聲音的空間感,就需要3D立體聲!
3D立體聲實(shí)際就是增加了一個(gè)聲音的方位感,能通過聲音辨別出方位,增強(qiáng)了聲音的空間感。算法上通過頭部相關(guān)傳輸函數(shù)HRTF使用人耳和人腦的頻率振動(dòng)預(yù)知來合成3D音效。
具體來說,人的大腦分辨聲源的方向是通過ITD(兩耳時(shí)間延遲量差)和IAD(兩耳音量大小差)。但是,ITD和IAD不能描述聲源從正前方和正后方傳來的區(qū)別。要解決這個(gè)問題,我們的耳廓扮演著關(guān)鍵的角色。聲波遇到物體的時(shí)候會(huì)反彈,當(dāng)不同的聲源從不同的角度傳來,它們肯定會(huì)在鼓膜上產(chǎn)生不同的頻率振動(dòng)。正是因?yàn)槎拇嬖冢旁斐闪藦那懊婧蛷暮竺鎮(zhèn)鱽淼穆曇艚厝徊煌?/p>
總結(jié)起來,通過三個(gè)主要的特征量:ITD、IAD和耳廓頻率振動(dòng)來合成3D音效。這三個(gè)元素就是HRTF――頭部相關(guān)傳輸函數(shù)的參數(shù)。
在下一篇連載中,我們將詳細(xì)介紹下多媒體容器與流控,科普關(guān)于流媒體的相關(guān)知識(shí)。
敬請(qǐng)期待!
如果您現(xiàn)在想了解更多關(guān)于音視頻的訊息,歡迎加入我們的音視頻技術(shù)分享群。我們會(huì)定期舉辦線上技術(shù)分享、音視頻在各行業(yè)中的應(yīng)用分享、技術(shù)干貨等。
群是免費(fèi)的,但是謝絕廣告和水聊。添加即構(gòu)微信號(hào),拉您進(jìn)群。
微信號(hào)zegoshouqian,添加時(shí)請(qǐng)備注:知乎音視頻群
即構(gòu)機(jī)構(gòu)號(hào)將實(shí)時(shí)分享音視頻領(lǐng)域的技術(shù)洞見以及行業(yè)訊息,與您一起探討音視頻創(chuàng)新的更多可能性。
歡迎提問&求關(guān)注 ( ′ ▽ ` )?
以上。
