音視頻開發(fā)基礎(chǔ)知識(shí)

PS:最近的關(guān)鍵字「珍惜時(shí)間」。
視頻編碼
音頻編碼
多媒體播放組件
幀率
分辨率
編碼格式
封裝格式
碼率
顏色空間
采樣率
量化精度
聲道
視頻編碼
運(yùn)動(dòng)靜止圖像專家組的 M-JPEG
M-JPEG 是一種圖像壓縮編碼標(biāo)準(zhǔn),是 Motion-JPEG 的簡稱,JPEG 標(biāo)準(zhǔn)主要是用來處理靜止圖像,而 M-JPEG 把運(yùn)動(dòng)的視頻序列作為連續(xù)的靜止圖像來處理,這種壓縮方式單獨(dú)完整地壓縮每一幀,在編輯過程中可隨機(jī)存儲(chǔ)每一幀,可進(jìn)行精確到幀的編輯,M-JPEG 只對(duì)幀內(nèi)的空間冗余進(jìn)行壓縮,不對(duì)幀間的時(shí)間冗余進(jìn)行壓縮,故壓縮效率不高。
國際標(biāo)準(zhǔn)化組織(ISO)運(yùn)動(dòng)圖像專家組的 MPEG 系列標(biāo)準(zhǔn)
MPEG 標(biāo)準(zhǔn)主要有五個(gè):MPEG-1、MPEG-2、MPEG-4、MPEG-7 及 MPEG-21 等,MPEG 標(biāo)準(zhǔn)的視頻壓縮編碼技術(shù)主要利用了具有運(yùn)動(dòng)補(bǔ)償?shù)膸g壓縮編碼技術(shù)以減小時(shí)間冗余度,利用 DCT 技術(shù)以減小圖像的空間冗余度,利用熵編碼則在信息表示方面減小了統(tǒng)計(jì)冗余度。這幾種技術(shù)的綜合運(yùn)用,大大增強(qiáng)了壓縮性能。
國際電聯(lián)(ITU-T)的 H.261、H.263、H.264等
H.261:第一個(gè)實(shí)用的數(shù)字視頻解碼標(biāo)準(zhǔn),采用的壓縮算法是運(yùn)動(dòng)補(bǔ)償幀間預(yù)測與分塊 DCT 相結(jié)合的混合編碼,其運(yùn)動(dòng)補(bǔ)償使用用全像素精度和環(huán)路濾波,支持 CIF 和 QCIF 兩種分辨率。
H.263:H.263 與 H.261 編碼算法一樣,但是做了一點(diǎn)改善,使得 H.263 標(biāo)準(zhǔn)在低碼率下能夠提供比 H.261 更好的圖像效果,其運(yùn)動(dòng)補(bǔ)償使用半像素精度,支持 CIF、QCIF 、SQCIF、4CIF和16CIF 五種分辨率。
H.264:H.264則是由兩個(gè)組織 ISO 和 ITU-T 聯(lián)合組建的聯(lián)合視頻組(JVT)共同制定的新數(shù)字視頻編碼標(biāo)準(zhǔn),所以它既是 ITU-T 的H.264,又是 ISO/IEC 的 MPEG-4 高級(jí)視頻編碼(Advanced Video Coding,AVC)的第 10 部分,因此,不論是MPEG-4 AVC、MPEG-4 Part 10,還是 ISO/IEC 14496-10,都是指 H.264,H.264 是基于傳統(tǒng)框架的混合編碼系統(tǒng),做了局部優(yōu)化,注重編碼效率和可靠性。H.264 在具有高壓縮比的同時(shí)還擁有高質(zhì)量流暢的圖像,經(jīng)過 H.264 壓縮的視頻數(shù)據(jù),在網(wǎng)絡(luò)傳輸過程中所需要的帶寬更少,是壓縮率最高的視頻壓縮標(biāo)準(zhǔn)。
音頻編碼
ITU:G.711、G.729 等
MPEG:MP3、AAC 等
3GPP:AMR、AMR-WB、AMR-WB+等
還有企業(yè)制定的標(biāo)準(zhǔn),如 Dolby AC-3、DTS 、WMA 等
MP3(MPEG-1 audio layer 3):一種音頻壓縮技術(shù),它被設(shè)計(jì)用來大幅度地降低音頻數(shù)據(jù)量,利用 MPEG Audio Layer 3 的技術(shù),將音樂以 1:10 甚至 1:12 的壓縮率,壓縮成容量較小的文件,而對(duì)于大多數(shù)用戶來說重放的音質(zhì)與最初的不壓縮音頻相比沒有明顯的下降,它是利用人耳對(duì)高頻聲音信號(hào)不敏感的特性,將時(shí)域波形信號(hào)轉(zhuǎn)換成頻域信號(hào),并劃分成多個(gè)頻段,對(duì)不同的頻段使用不同的壓縮率,對(duì)高頻加大壓縮比(甚至忽略信號(hào)),對(duì)低頻信號(hào)使用小壓縮比,保證信號(hào)不失真,這樣就相當(dāng)于拋棄人耳基本聽不到的高頻聲音,只保留能聽到的低頻部分,從而對(duì)音頻進(jìn)行一定壓縮,此外 MP3 屬于有損壓縮的文件格式。
AAC:Advanced Audio Coding 的縮寫,最初是基于 MPEG-2 的音頻編碼技術(shù),MPEG-4 出現(xiàn)后,AAC 重新集成了其特性,且加入了SBR 技術(shù)和 PS 技術(shù),為了區(qū)別于傳統(tǒng)的 MPEG-2 AAC 又稱為MPEG-4 AAC,AAC 是一種專為聲音數(shù)據(jù)設(shè)計(jì)的文件壓縮格式,相較 MP3,AAC 格式的音質(zhì)更佳,文件更小,但是 AAC 是一種有損壓縮格式,隨著大容量設(shè)備的出現(xiàn),其優(yōu)勢將越來越小。
WMA:Windows Media Audio 的縮寫,是微軟公司開發(fā)的一系列音頻編解碼器,也指相應(yīng)的數(shù)字音頻編碼格式,WMA 包括四種不同的編解碼器:WMA,原始的WMA編解碼器,作為 MP3 和 RealAudio 編解碼器的競爭者;WMA Pro,支持更多聲道和更高質(zhì)量的音頻[;WMA Lossless,無損編解碼器;WMA Voice,用于儲(chǔ)存語音,使用的是低碼率壓縮。一些使用 Windows Media Audio 編碼格式編碼其所有內(nèi)容的純音頻 ASF 文件也使用 WMA 作為擴(kuò)展名,其特點(diǎn)是支持加密,非法拷貝到本地是無法播放的,WMA 也屬于有損壓縮的文件格式。
多媒體播放組件
MediaPlayer:為應(yīng)用層提供的播放控制接口
MediaCodec:提供訪問底層媒體編解碼器的接口
OpenMAX :Open Media Acceleration,又縮寫為 OMX,開放多媒體加速層,是一個(gè)多媒體應(yīng)用程序標(biāo)準(zhǔn),Android 主要的多媒體引擎StageFright 是透過 IBinder 使用 OpenMax,用于編解碼處理。
StageFright:Android 2.2 開始引入用來替換預(yù)設(shè)的媒體播放引擎 OpenCORE,Stagefright 是位于 Native 層的媒體播放引擎,內(nèi)置了基于軟件的編解碼器,且適用于熱門媒體格式,其編解碼功能是利用OpenMAX 框架,引入的是 OpenCORE 的 omx-component 部分,在 Android 中是以共享庫的形式存在,對(duì)應(yīng) libstagefright.so。
AudioTrack:管理和播放單個(gè)音頻資源,僅支持 PCM 流,如大多數(shù)的 WAV 格式的音頻文件就是就是 PCM 流,這類音頻文件支持 AudioTrack 直接進(jìn)行播放。
常見的多媒體框架及解決方案
VLC :即 Video LAN Client,是一款自由、開源的跨平臺(tái)多媒體播放器及框架 。
FFmpeg:多媒體解決方案,不是多媒體框架,廣泛用于音視頻開發(fā)中。
GStreamer :一套構(gòu)建流媒體應(yīng)用的開源多媒體框架 。?
幀率
分辨率
刷新率
編碼格式
封裝格式
碼率
固定碼率會(huì)保證碼流的碼率恒定,但是會(huì)犧牲視頻質(zhì)量,比如為了保證碼率恒定,某些圖像豐富的內(nèi)容就是失去某些圖像細(xì)節(jié)而變得模糊。
可變碼率指的是輸出碼流的碼率是可變的,因?yàn)橐曨l信源本身的高峰信息量是變化的,從確保視頻傳輸質(zhì)量和充分利用信息的角度來說,可變碼率視頻編碼才是最合理的。
顏色空間
YUV:一種顏色編碼方法,一般使用在在影像處理組件中,YUV 在對(duì)照片或視頻編碼時(shí),考慮到人類的感知能力,允許降低色度的帶寬,其中 Y 表示明亮度、U 表示色度、V 表示濃度,Y′UV、YUV、YCbCr、YPbPr 所指涉的范圍,常有混淆或重疊的情況。從歷史的演變來說,其中 YUV 和 Y'UV 通常用來編碼電視的模擬信號(hào),而 YCbCr 則是用來描述數(shù)字的影像信號(hào),適合視頻與圖片壓縮以及傳輸,例如 MPEG、JPEG,現(xiàn)在 YUV 通常已經(jīng)在電腦系統(tǒng)上廣泛使用。
RGB:原色光模式,又稱 RGB 顏色模型或紅綠藍(lán)顏色模型,是一種加色模型,將紅(Red)、綠(Green)、[藍(lán)(Blue)三原色的色光以不同的比例相加,以合成產(chǎn)生各種色彩光,目前的大多數(shù)顯示器都采用 RGB 這種顏色標(biāo)準(zhǔn)。
采樣率
8000 Hz:電話所用采樣率, 對(duì)于人的說話已經(jīng)足夠
11025 Hz:AM調(diào)幅廣播所用采樣率
22050 Hz 和 24,000 Hz:FM調(diào)頻廣播所用采樣率
44100Hz:音頻CD,常用于 MPEG-1 音頻(VCD,SVCD,MP3)所用采樣率
47,250 Hz:商用 PCM 錄音機(jī)所用采樣率
48,000 Hz:miniDV、數(shù)字電視、DVD、DAT、電影和專業(yè)音頻所用的數(shù)字聲音所用采樣率
量化精度
聲道
單聲道:設(shè)置一個(gè)揚(yáng)聲器。
立體聲道:把單聲道一個(gè)揚(yáng)聲器擴(kuò)展為左右對(duì)稱的兩個(gè)揚(yáng)聲器,聲音在錄制過程中被分配到兩個(gè)獨(dú)立的聲道,從而達(dá)到了很好的聲音定位效果,這種技術(shù)在音樂欣賞中顯得尤為有用,聽眾可以清晰地分辨出各種樂器來自何方,從而使音樂更富想象力,更加接近臨場感受。立體聲技術(shù)廣泛應(yīng)用于自 Sound Blaster Pro 以后的大量聲卡,成為了
影響深遠(yuǎn)的音頻標(biāo)準(zhǔn)。4 聲道:4 聲道環(huán)繞規(guī)定了 4 個(gè)發(fā)音點(diǎn),分別是前左、前右、后左、后右,聽眾則被包圍在中間,同時(shí)還建議增加一個(gè)低音音箱,以加強(qiáng)對(duì)低頻信號(hào)的回放處理,這也就是如今 4.1 聲道音箱系統(tǒng)廣泛流行的原因,就整體效果而言,4 聲道系統(tǒng)可以為聽眾帶來來自多個(gè)不 同方向的聲音環(huán)繞,可以獲得身 臨各種不同環(huán)境的昕覺感受,給用戶以全新的體驗(yàn)。
5.1 聲道:其實(shí) 5.1 聲道系統(tǒng)來源于 4.1 聲道系統(tǒng),將環(huán)繞聲道一分為二,分為左環(huán)繞和右環(huán)繞,中央位置增加重低音效果。
7.1 聲道:7.1 聲道系統(tǒng)在 5.1 聲道系統(tǒng)的基礎(chǔ)上又增加了中左和中右兩個(gè)發(fā)音點(diǎn),簡單來說就是在聽者的周圍建立起一套前后相對(duì)平衡的聲場,增加了 后中聲場聲道。
