音頻基礎(chǔ)知識

PS:由淺入深,慢就是快。
本篇總結(jié)下音頻基礎(chǔ)知識,音視頻相關(guān)文章如下:
下面將從以下幾個方面進行介紹:
聲音的產(chǎn)生
聲音的三要素
模數(shù)轉(zhuǎn)換
原始音頻數(shù)據(jù)
PCM與Wav
音頻處理流程
聲音的產(chǎn)生
聲音是由物體振動產(chǎn)生的,通過空氣、固體、液體等介質(zhì)進行傳輸?shù)囊环N聲波,可以被人耳識別的聲波的范圍是 20Hz~20000Hz 之間,也叫做可聽聲波,這種聲波稱之為聲音,根據(jù)聲波頻率的不同可以主要分為:
可聽聲波:20Hz~20kHz
超聲波:> 20kHz
次聲波:< 20Hz
此外,人的發(fā)聲范圍一般是 85Hz~1100Hz。
聲音的三要素
聲音的三要素分別是音調(diào)、音量、音色,具體如下:
音調(diào):指的是聲音頻率的高低,表示人的聽覺分辨一個聲音的調(diào)子高低的程度,物體振動的快,發(fā)出的聲音的音調(diào)就高,振動的慢,發(fā)出的音調(diào)就低。
音量:又稱音強、響度,指聲音的振幅大小,表示人耳對所聽到的聲音大小強弱的主觀感受。
音色:又稱音品,指不同聲音表現(xiàn)在波形方面總是有與眾不同的特性,不同的物體振動都有不同的特點,反映每個物體發(fā)出的聲音的特有的品質(zhì),音色具體由諧波決定,好聽的聲音絕不僅僅是一個正弦波,而是諧波。
模數(shù)轉(zhuǎn)換
聲音是一個模擬音頻信號,如果要將聲音數(shù)字化,則需要將模擬音頻信號轉(zhuǎn)換為數(shù)字信號,這就是模數(shù)轉(zhuǎn)換,主要流程包括采樣、量化、編碼,如下圖所示:
- 采樣:連續(xù)信號轉(zhuǎn)換為離散信號的過程,每個一定時間的信號值來
替代原來時間段連續(xù)的信號值,這個 1s 內(nèi)的采樣次數(shù)就是采樣率
,如 8KHz 是電話信號的采樣率,可以滿足通話需要,音頻 CD
一般是 44.1kHz,數(shù)字電視一般是是 48kHz,采樣率越高聲音的還
原程度越高。
量化:將采樣后 的模擬信號轉(zhuǎn)換為數(shù)字信號的過程,量化分為均
勻量化和非均勻量化,上圖中顯然使用了均勻量化,量化級數(shù)是 8。
編碼:將量化后的信號轉(zhuǎn)換為對應的二進制代碼,最簡單就是自然
二進制碼,其他編碼方式感興趣自行去了解,上圖中編碼指的是信
源編碼,除此之外還有信道編碼。
原始音頻數(shù)據(jù)
PCM((Pulse Code Modulation)是脈沖編碼調(diào)制,實際上就是將模擬音頻信號轉(zhuǎn)換為數(shù)字音頻信號,音視頻中的 PCM 指的是未經(jīng)壓縮的音頻采樣數(shù)據(jù),是音頻信號經(jīng)采樣、量化、編碼生成的原始音頻數(shù)據(jù),PCM 數(shù)據(jù)關(guān)鍵量化指標如下:Sample Size:采樣大小,也是量化級數(shù),表示一個采樣用多少位 bit 存放,常用的是 16 位。
Sample Rate:采樣率,表示每次采樣的次數(shù),單位 Hz,常見的采樣率有 8k、16k、32k、44.1k、48k 等。
Number of Channels:聲道數(shù),表示當前 PCM 數(shù)據(jù)中包含的聲道數(shù),如單聲道、雙聲道、多聲道等。
Byte Ordering:字節(jié)序,表示 PCM 數(shù)據(jù)存儲的字節(jié)序是大端存儲(big-endian)還是小端存儲(little-endian),為了數(shù)據(jù)處理效率的高效,通常為小端存儲。
Sign:表示當前 PCM 數(shù)據(jù)是否有符號位
Integer Or Floating Point:表示當前 PCM 數(shù)據(jù)使用整型還是浮點型來表示。
1采樣率?*?采樣大小?*?聲道數(shù)舉個例子:
采樣率 44.1KHz,采樣大小為 16bit,雙聲道的 PCM 編碼的 WAV 文件,其碼率為 44.1K *_16 *_2 = 1411.2Kb/s,假設傳輸上述音頻,每秒將超過 1M 的數(shù)據(jù)量,再加上在數(shù)據(jù)傳輸過程中,上行速率往往遠小于下行速率,這就需要壓縮音頻數(shù)據(jù)了。PCM與WAV
PCM 可以查看前面小結(jié),WAV 是一種無損的音頻文件格式,其對音頻的編碼沒有硬性規(guī)定,可以是 PCM 也可以是其他編碼方式,比如 MP3編碼等,簡單總結(jié)一下:PCM:一種編碼方式,在音視頻領(lǐng)域則理解為原始音頻數(shù)據(jù)裸流;
WAV:一種音頻文件格式,可存儲 PCM 數(shù)據(jù),相當于在 PCM 基礎(chǔ)上添加了 WAV 頭部。
更多細節(jié)后續(xù)研究后補充。音頻處理流程
簡單講一下音頻的處理流程,一是音頻文件的生成,如在 Android 中使用AudioRecord 、MediaRecord 等采集到的音頻數(shù)據(jù)就是 PCM 數(shù)據(jù),這種數(shù)據(jù)屬于數(shù)字音頻信號,是原始的 PCM 裸流,PCM 數(shù)據(jù)經(jīng)過編碼也就是將 PCM 數(shù)據(jù)壓縮,在通過復用生成對應的音頻文件,二是音頻文件的播放,經(jīng)解復用、解碼轉(zhuǎn)換成 PCM 進行播放。推薦閱讀: