本人目前音視頻技術(shù)基本零基礎(chǔ)(在公司里耳濡目染,聽過一些概念,有著膚淺的理解,實(shí)際是一頭霧水),鑒于本人在一個(gè)短視頻公司工作(不好意思不懂這些),本身其實(shí)對這塊也比較感興趣,加上之前一直沒下決心系統(tǒng)學(xué)習(xí)這塊知識(shí),現(xiàn)在想開始從零開始系統(tǒng)學(xué)習(xí)音視頻技術(shù),并記錄學(xué)習(xí)筆記「音視頻從零開始」系列,希望能幫到更多零基礎(chǔ)想學(xué)習(xí)音視頻技術(shù)的同學(xué) > 注:系列文章都是通過查找各個(gè)資料加上我個(gè)人理解總結(jié)出來的學(xué)習(xí)筆記,文章最后會(huì)附上參考文章或書籍的連接,如果有理解不對或有涉及知識(shí)" />
<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          音視頻技術(shù)從零開始-音頻基礎(chǔ)

          共 3526字,需瀏覽 8分鐘

           ·

          2022-02-09 17:34

          音視頻技術(shù)從零開始-音頻基礎(chǔ)

          本人目前音視頻技術(shù)基本零基礎(chǔ)(在公司里耳濡目染,聽過一些概念,有著膚淺的理解,實(shí)際是一頭霧水),鑒于本人在一個(gè)短視頻公司工作(不好意思不懂這些),本身其實(shí)對這塊也比較感興趣,加上之前一直沒下決心系統(tǒng)學(xué)習(xí)這塊知識(shí),現(xiàn)在想開始從零開始系統(tǒng)學(xué)習(xí)音視頻技術(shù),并記錄學(xué)習(xí)筆記「音視頻從零開始」系列,希望能幫到更多零基礎(chǔ)想學(xué)習(xí)音視頻技術(shù)的同學(xué)
          注:系列文章都是通過查找各個(gè)資料加上我個(gè)人理解總結(jié)出來的學(xué)習(xí)筆記,文章最后會(huì)附上參考文章或書籍的連接,如果有理解不對或有涉及知識(shí)侵權(quán)的地方,請及時(shí)評論聯(lián)系我

          這是音視頻技術(shù)從零開始學(xué)習(xí)筆記的第一篇,從音頻技術(shù)相關(guān)的概念開始,本篇不涉及任何編程相關(guān)內(nèi)容。個(gè)人認(rèn)為,概念理解清楚對以后編程模塊的邊界、職責(zé)劃分以及該使用哪些工具有很大的幫助。

          圖1-音頻技術(shù)核心概念

          采樣

          模擬信號(hào)(連續(xù)信號(hào))是連續(xù)的,意味著不會(huì)失真(音質(zhì)好),比如磁帶、唱片中就通過物理介質(zhì)(通過唱片表面的起伏跌宕,或者是磁帶上的磁粉引起的磁場強(qiáng)度來表示音箱上振膜的即時(shí)位置)保存著音頻的模擬信號(hào)。

          我們都知道唱片和磁帶已經(jīng)逐漸離開人們的視野,就是因?yàn)橥ㄟ^物理手段無法長久的保存音頻信號(hào),唱片會(huì)磨損,磁帶會(huì)老化,那用什么方法能夠長久的保存音頻信息呢?

          目前,使用最多的方法就是通過數(shù)字來保存音頻,那么又如何將音頻轉(zhuǎn)為數(shù)字呢?首先先通過圖中「采樣」手段,將模擬信號(hào)轉(zhuǎn)為離散信號(hào),離散信號(hào)可以理解為不連續(xù)信號(hào),把一段連續(xù)函數(shù)按照一定規(guī)則斷開。

          圖2-采樣信號(hào) 原圖鏈接

          此圖為CD標(biāo)準(zhǔn)的采樣信號(hào)圖,圖中的「采樣率44.1Khz」就是斷開函數(shù)的規(guī)則,每 1s 將一段波分為 44100 個(gè)矩形,經(jīng)過采樣,得到了一個(gè)有一堆柱形圖組成的圖形(離散信號(hào))

          為什么音頻的采樣率是 44.1Khz 呢?對于高質(zhì)量的音頻(人耳能夠聽到的頻率范圍是 20hz-20Khz),根據(jù)采樣定理,按比人能聽到的最大頻率的2倍進(jìn)行采樣可以保證聲音在被數(shù)字化處理后,還能有質(zhì)量保障

          量化

          圖3-量化(信號(hào)處理)

          經(jīng)過采樣后,我們發(fā)現(xiàn)圖中的縱坐標(biāo)是沒有值的,無法表示每段樣本的數(shù)字大小,這時(shí)候就需要引入量化的概念。通俗易懂地講「量化」就是在沿水平方向再將信號(hào)圖按照一定數(shù)字范圍切斷,保證每段樣本能用數(shù)字描述。這個(gè)數(shù)字的最終物理意義是反應(yīng)在音響振膜位置,比如用[0-10萬]進(jìn)行量化,最終反應(yīng)在振膜的位置就是 0-10萬。

          那么CD的量化標(biāo)準(zhǔn)是什么呢?采用16bit(short),也就是2的16次方,總共65536,然后為了由于振膜是可以發(fā)生正向和負(fù)向位移,所以用[-32767,32768]進(jìn)行量化。

          所以圖中虛線范圍就代表了量化的數(shù)字范圍,最終的紅色曲線就是量化的結(jié)果,數(shù)字信號(hào)

          編碼

          經(jīng)過量化后,每一個(gè)采樣都是一個(gè)數(shù)字,那這么多的數(shù)字該如何存儲(chǔ)呢?這就需要第三個(gè)概念:「編碼」,所謂編碼,就是按照一定的格式記錄采樣和量化后的數(shù)據(jù),比如順序存儲(chǔ)或壓縮存儲(chǔ)等。

          這里涉及很多種格式,通常所說的音頻的裸數(shù)據(jù)格式就是脈沖編碼調(diào)制數(shù)據(jù),簡稱 PCM (Pulse Code Modulation)。描述一段 PCM 通常需要以下三個(gè)概念

          • 量化格式(SampleFormat)
          • 采樣率(SampleRate)
          • 聲道數(shù)(Channel)

          還以CD標(biāo)準(zhǔn)為例,量化格式 16bit,采樣率 44100,聲道數(shù) 2。

          這里對聲道概念做一個(gè)補(bǔ)充,平時(shí)所謂的雙聲道、單聲道其實(shí)可以理解為需要記錄幾個(gè)信號(hào),比如磁帶,雙聲道就是同一時(shí)刻記錄兩個(gè)軌道的信息,一個(gè)負(fù)責(zé)記錄左耳機(jī)振膜位置,一個(gè)負(fù)責(zé)記錄右耳機(jī)振膜位置,以此類推,多個(gè)聲道也是類似

          上述信息就描述了CD的音質(zhì),對于聲音格式來說,還有另一個(gè)概念用來描述它的大小,稱為數(shù)據(jù)比特率(bitRate),即 1s 內(nèi)的比特?cái)?shù)目,用于衡量音頻數(shù)據(jù)單位時(shí)間內(nèi)的容量大小,那么比特率如何計(jì)算?

          $BitRate=SampleFormatSampleRateChannel $ 單位為千比特每秒kbps(kb per second)。
          比如對于CD音質(zhì), $44100162=1378.125kbps$ 那么,一分鐘里,CD音質(zhì)數(shù)據(jù)需要占多大存儲(chǔ)空間呢? $1378.125*60/8/1024=10.09MB$

          所以一段1分鐘的音頻經(jīng)過采樣、量化、編碼后可以得到一個(gè)大約10MB裸數(shù)據(jù),成功地將音頻的模擬信號(hào)轉(zhuǎn)為數(shù)字信號(hào),并存儲(chǔ)下來。

          音頻壓縮編碼

          上面說到1分鐘的CD音質(zhì)數(shù)據(jù)的存儲(chǔ)空間大于為 10MB,這對于光盤磁盤存儲(chǔ)來說可接受,但對于網(wǎng)絡(luò)傳輸肯定是無法接受的。所以就需要「壓縮編碼」出面解決問題

          所謂音頻編碼主要指音頻壓縮技術(shù),壓縮通常又被分為有損和無損兩種,但事實(shí)上,任何音頻編碼方式相對于最真實(shí)的自然聲音信號(hào),都是有損的壓縮。從前面說到的采樣、量化、編碼中不難理解,我們把一條光滑的音頻信號(hào)曲線分割成了許多數(shù)據(jù)塊,然后對數(shù)據(jù)進(jìn)行二進(jìn)制編碼,過程中其實(shí)就已經(jīng)損失了一部分?jǐn)?shù)據(jù)了,所以再次進(jìn)行壓縮也只能是盡可能的接近經(jīng)過PCM編碼后的音頻裸數(shù)據(jù)。

          圖4-PCM編碼 原圖鏈接

          既然壓縮是為了減小編碼后的數(shù)據(jù)存儲(chǔ)空間,那么就應(yīng)該去掉音頻的“冗余信息”,從以下兩個(gè)方面去衡量哪些數(shù)據(jù)是冗余的

          • 之前提到過,人耳所能察覺的聲音信號(hào)的頻率范圍為20Hz-20KHz,除此之外的其它頻率人耳無法察覺,都可視為冗余信號(hào)
          • 當(dāng)一個(gè)強(qiáng)音頻信號(hào)和一個(gè)弱音頻信號(hào)同時(shí)存在時(shí),弱信號(hào)會(huì)被強(qiáng)信號(hào)掩蔽,可視為冗余

          其中第二點(diǎn)涉及另兩個(gè)概念「頻譜掩蔽效應(yīng)」和「時(shí)域掩蔽效應(yīng)」,名字看起來高深莫測,其實(shí)不難理解。

          圖5-頻譜掩蔽效應(yīng) 原圖鏈接

          「頻譜掩蔽效應(yīng)」一個(gè)音頻信號(hào)被人耳聽到是有一個(gè)閾值,閾值越小越容易被人聽到,如圖所示,虛線是隨聲音頻率增大反應(yīng)的閾值曲線,在 2-5kHz范圍內(nèi),閾值很低,是人耳對聲音最敏感的頻率?,F(xiàn)在假設(shè)有一個(gè) 60dB-0.2kHz 的強(qiáng)音信號(hào)出現(xiàn)時(shí),閾值曲線會(huì)有所改變(圖中實(shí)線部分),0.1-0.5kHz 頻率的閾值被明顯抬高,圖中大概40dB-0.17kHz 左右的信號(hào)和 30dB-0.48kHz左右的信號(hào)都會(huì)被掩蔽。所以在0.1kHz-0.5kHz范圍內(nèi),只能聽到 65dp-0.2kHz 的聲音,其余信號(hào)可視為冗余。


          圖6-時(shí)域掩蔽效應(yīng) 原圖鏈接

          「時(shí)域掩蔽效應(yīng)」是強(qiáng)信號(hào)和弱信號(hào)在時(shí)間維度發(fā)生的掩蔽,分為 前掩蔽,人在聽到強(qiáng)信號(hào)之前,一些弱信號(hào)會(huì)被掩蔽 同時(shí)掩蔽,強(qiáng)信號(hào)會(huì)掩蔽同時(shí)發(fā)生的弱信號(hào) * 后掩蔽,強(qiáng)信號(hào)消失后,需要經(jīng)過一段時(shí)間后,才能重新聽到弱信號(hào)

          在這過程中被掩蔽的信號(hào)被視為冗余

          幾種音頻壓縮編碼簡介


          |編碼|實(shí)現(xiàn)簡介|特點(diǎn)|適用場景|

          |--|--|--|--|

          |WAV|無損壓縮,其中一種實(shí)現(xiàn)方式是在 PCM 數(shù)據(jù)格式前加上 44 字節(jié),分別描述采樣率、聲道數(shù)、數(shù)據(jù)格式等信息。|音質(zhì)非常好,大量軟件都支持| 多媒體開發(fā)的中間文件、保存音樂和音效

          |MP3|具有不錯(cuò)的壓縮比,使用 LAME 編碼(MP3 編碼格式的一種實(shí)現(xiàn))的中高碼率的 MP3 文件| 音質(zhì)在 128Kbit/s 以上表現(xiàn)還不錯(cuò),壓縮比比較高,大量軟硬件都支持|高比特率下對兼容性有要求的音樂鑒賞

          |AAC|新一代有損壓縮技術(shù),通過一些附加的編碼技術(shù)(PS、SBR 等),衍生出了 LC-AAC、HE-AAC、HE-AAC v2三種主要編碼格式| 小于 128Kbit/s 表現(xiàn)優(yōu)異,多用于視頻中的音頻編碼 | 128Kbit/s 一下的音頻編碼,多用于視頻中的音頻編碼

          |Ogg| 一種非常有潛力的編碼,各種碼率下都有比較優(yōu)秀的表現(xiàn),尤其是低碼率場景下。可以在低碼率的場景下仍然保持不錯(cuò)的音質(zhì),但目前軟件硬件支持情況較差|可用比 MP3 更小的碼率實(shí)現(xiàn)比 MP3 更好的音質(zhì),但兼容性不好| 語音聊天的音頻消息場景

          1.壓縮比,壓縮后大小/原大小,通常小于 1,越小表示壓縮的越狠
          2.“碼率”是比特率是俗稱
          3.表格總結(jié)于《音視頻開發(fā)指南》,其中一些細(xì)節(jié)有興趣的同學(xué)可以再深入查閱,本文不再深入研究

          思考

          1. 為什么磁帶、唱片逐漸消失在人們的視野里,音頻播放器可以取而代之?
          2. 聲音是經(jīng)過怎樣的處理過程后保存成數(shù)字信息的?
          3. 為什么要對音頻數(shù)據(jù)進(jìn)行壓縮編碼?

          參考鏈接

          轉(zhuǎn)文聲明

          如有文章轉(zhuǎn)載需求,請注明本文作者以及鏈接,感謝各位理解支持

          瀏覽 17
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評論
          圖片
          表情
          推薦
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  在线无码播放 | 欧美精品国产动漫 | 久草8| 最新人妻视频 | 熟女日逼|