<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          淺談?wù)Z音質(zhì)量保障:如何測試 RTC 中的音頻質(zhì)量?

          共 3458字,需瀏覽 7分鐘

           ·

          2021-09-30 08:41

          日常音視頻開會(huì)中我們或多或少會(huì)遭遇這些場景:“喂喂喂,可以聽到我說話嗎?我聽你的聲音斷斷續(xù)續(xù)的”,“咦,我怎么可以聽到回聲?”,“太吵啦,我聽不清楚你在說啥” 等等。這些語音質(zhì)量問題影響音視頻開會(huì)體驗(yàn),如若是重要的會(huì)議,那足夠讓人 “惱羞成怒”。那么如何有效的減少這些問題發(fā)生呢?本系列文章就將為大家分享阿里云視頻云在保障 RTC 語音質(zhì)量方面的測試經(jīng)驗(yàn)。

          作者|柯淮
          審校|泰一

          背景介紹


          音頻質(zhì)量是指正常網(wǎng)絡(luò)下的聽覺質(zhì)量和音頻 3A 算法質(zhì)量。聽覺質(zhì)量,是在無損網(wǎng)絡(luò)情況下人耳對語音優(yōu)劣的主觀感受。但在實(shí)際生活中,不同人對同一聲音可能會(huì)有不同的優(yōu)劣判斷,另外還會(huì)受到收聽環(huán)境和收聽心理影響。在測試時(shí),我們可以從聲音三要素:響度、音高、音色緯度出發(fā),對一些指標(biāo)進(jìn)行量化評估。另外業(yè)內(nèi)標(biāo)準(zhǔn)還會(huì)將這些量化指標(biāo)通過一定的加權(quán)處理以期望擬合主觀感受,比如 POLQA、PESQ 等。

          音頻 3A 算法是指:

          AGC: Automatic gain control(自動(dòng)增益控制)

          ANS: Adaptive noise suppression(噪聲抑制)

          AEC: Acoustic echo cancellation(回聲消除)

          這部分內(nèi)容公眾號中已有較多文章較詳細(xì)介紹原理及實(shí)現(xiàn),這里不再贅述。

          往期文章

          詳解 WebRTC 高音質(zhì)低延時(shí)的背后 — AGC(自動(dòng)增益控制)

          硬貨專欄 |深入淺出 WebRTC AEC(聲學(xué)回聲消除)


          本系列文章將從音頻質(zhì)量、適配測試、Qos 質(zhì)量、自動(dòng)化方案四個(gè)緯度去介紹阿里云視頻云如何保障 RTC 語音質(zhì)量,本文先介紹音頻質(zhì)量部分(正常網(wǎng)絡(luò)下的聽覺質(zhì)量和音頻 3A 算法質(zhì)量)。

          RTC 語音測試鏈路拆解


          在正式測試前,我們先了解 RTC 語音傳輸?shù)恼麄€(gè)鏈路框架圖,聲音通過麥克風(fēng)采集,而后上行音頻算法進(jìn)行前處理,編解碼傳輸后通過揚(yáng)聲器播放出來。若想測試上行音頻算法可在(1)處輸入聲音,而后在(2)處拉取輸出音頻進(jìn)行分析。系統(tǒng)測試時(shí),我們往往從端到端角度評估,即從(1)處輸入聲音而后在(4)拉取聲音進(jìn)行分析,本文后續(xù)測試方法均基于端到端。


          音頻質(zhì)量測試方案


          阿里云視頻云采用業(yè)內(nèi)常用的客觀指標(biāo)+主觀評價(jià)相結(jié)合的方法來保障音頻質(zhì)量,具體指標(biāo)請參考下圖:


          客觀測試方法


          有效頻寬


          Line in 輸入掃頻文件 +48K 采樣率的人聲音頻(音頻素材參考如下),Line out 錄制輸出音頻,通過頻率分析讀取有效頻寬;


          端到端延遲


          方法一:使用 VQT 測試,測試結(jié)果中輸出延遲時(shí)間。

          方法二:自研。Line in 測試素材,Line out 錄制未經(jīng)過傳輸及輸出音頻,計(jì)算音頻延遲時(shí)間。

          • 測試素材:一段連續(xù)的單音。

          • 指標(biāo)計(jì)算:錄制文件中讀取未經(jīng)過傳輸?shù)囊纛l起始時(shí)間記為 t1,讀取經(jīng)過會(huì)議傳輸?shù)囊纛l起始時(shí)間記為 t2,則 Delay=t2-t1。


          ANS


          考察 ANS 算法在純噪聲和語噪混合場景下的表現(xiàn),分析指標(biāo)包含:降噪一致性、信噪比提升、收斂時(shí)間、消噪后人聲音質(zhì)。

          • 測試拓?fù)?/span>


          通過音量 Line in 或者外放輸入背景素材及語音素材,在拉流端 Line out 錄制輸出音頻進(jìn)行指標(biāo)分析。

          • 測試素材

          分類

          音頻素材

          音頻素材

          聲學(xué)噪聲

          白噪聲

          如下是粉紅噪聲示意圖:


          粉紅噪聲

          真實(shí)環(huán)境噪聲

          咖啡館噪聲

          如下是辦公環(huán)境噪聲示意圖:


          汽車空間內(nèi)噪聲

          會(huì)議室空間內(nèi)噪聲

          辦公環(huán)境噪聲

          餐館環(huán)境噪聲

          地鐵站/高鐵站環(huán)境噪聲

          街道環(huán)境噪聲

          帶噪人聲

          信噪比10dB

          如下是信噪比為10dB的帶噪人聲:


          信噪比15dB

          信噪比25dB


          • 指標(biāo)計(jì)算

          1. 信噪比提升:求取經(jīng)過消噪后音頻的信噪比為 A,則信噪比提升值 =A- 輸入信噪比。

          2. 降噪一致性:計(jì)算各種噪聲輸入后噪聲的殘留值,并統(tǒng)計(jì)各種噪聲下噪聲殘留是否一致。

          3. 收斂時(shí)間:記錄噪聲能量開始下降的時(shí)間為 t1,記錄噪聲已收斂至平穩(wěn)的初始時(shí)間 t2,收斂時(shí)間 =t2-t1。

          4. 音質(zhì):改造 VQT POLQA 測試腳本,計(jì)算不同信噪比輸入下輸出音頻 MOS 分。下表展示輸入信噪比為 10dB 帶噪人聲,輸出音頻音質(zhì) MOS 分:


          AGC


          考察AGC算法在不同音量下表現(xiàn),分析指標(biāo)包括:聲音平穩(wěn)性、輸出響度。

          • 測試拓?fù)?/strong>

          參考 ANS 測試拓?fù)鋱D,通過音量 Line in 或者外放輸入語音素材,在拉流端 Line out 錄制輸出音頻進(jìn)行指標(biāo)分析。

          • 測試素材

          分類

          音頻素材

          音頻素材

          階梯音量人聲

          “大-小-大”平穩(wěn)性聲音素材(以3dB步長音量增減)

          如下是“大-小-大”平穩(wěn)性聲音素材示意圖:


          不同音量男聲&女聲(打分)

          小音量(打分)

          如下是用于打分中音量人聲:


          中音量(打分)

          大音量(打分)


          • 指標(biāo)計(jì)算

          1. 聲音平穩(wěn)性:計(jì)算輸出音頻各音量段的平均 RMS,而后求解這個(gè)輸出音頻的平均 RMS 的方差。如下是平均 RMS 的計(jì)算公式:


          2. 輸出響度:Line out 方式計(jì)算輸出音頻的平均 RMS;外放方式使用標(biāo)準(zhǔn)聲壓計(jì),以 A 計(jì)權(quán)方式記錄響度值。

          3. 音質(zhì):改造 VQT POLQA 測試腳本,計(jì)算不同音量輸入下輸出音頻 MOS 分。下表展示大中小音量輸入下,輸出音頻音質(zhì) MOS 分:


          AEC

          考察 AEC 算法單講和雙講場景下是否存在漏回聲、人聲抑制等問題。

          • 測試拓?fù)?/span>

          【單講】


          推流端播放單講語音素材,拉流端默認(rèn)配置放在空曠會(huì)議室中。Line out 錄制推流端的輸出,判斷拉流端是否存在漏回聲。

          【雙講】


          同時(shí)向推流端和拉流端播放雙講測試素材,Line out 錄制推流端的輸出,判斷拉流端是否存在漏回聲和人聲抑制。

          同時(shí)向推流端和拉流端播放雙講測試素材,Line out 錄制推流端的輸出,判斷拉流端是否存在漏回聲和人聲抑制。

          • 測試素材


          分類

          音頻素材

          音頻素材

          單講

          連續(xù)標(biāo)準(zhǔn)人聲素材(男聲、女聲、孩童、老人)

          連續(xù)人聲素材示意圖:


          雙講

          雙講人聲素材(包含連續(xù)說話、單字說話)

          雙講人聲素材(包含連續(xù)說話、單字說話)示意如下:



          • 指標(biāo)計(jì)算

          1. 漏回聲:讀取錄制音頻文件的人聲殘留量,理論上該處值為 0- 沒有漏回聲。

          2. 人聲抑制:雙講場景下評估此指標(biāo)。利用 3gpp TS 26.132 標(biāo)準(zhǔn)評價(jià)剪切情況,最終評價(jià)以 D 類(連續(xù)剪切大于 150ms)為標(biāo)準(zhǔn),值越接近于 0 質(zhì)量越好。

          3. 收斂時(shí)間:測試開始時(shí)間記為 t1,AEC 收斂完成無漏回聲出現(xiàn)時(shí)間記為 t2,收斂時(shí)間 =t2-t1。

          4. 人聲音質(zhì):雙講場景下評估此指標(biāo)。改造 VQT POLQA 測試腳本,計(jì)算雙講場景下人聲的音質(zhì)得分。

          STOI

          短時(shí)客觀可懂度,當(dāng)前學(xué)術(shù)上比較精確,可靠的客觀評估方法來計(jì)算語音可懂度,客觀測試結(jié)果可以一定程度上反映語音可懂性和自然性。存在局限性:需降采樣到 16K 進(jìn)行計(jì)算。

          • 測試拓?fù)洌簠⒖?ANS 測試拓?fù)洹?br>

          • 測試素材:ITU-P863 提供標(biāo)準(zhǔn)人聲素材。

          • 指標(biāo)計(jì)算:如下框架圖展示了 STOI 計(jì)算流程,當(dāng)前業(yè)內(nèi)已有 matlab 和 python 對該算法的工程實(shí)現(xiàn)。


          POLQA

          ITU-T P.863 提供測試方法,可得到 MOS 分和音頻延遲。支持 8K、16K、48K 測試,局限性是設(shè)備貴。

          • 測試拓?fù)洌簠⒖?ANS 測試拓?fù)洹?/span>

          • 測試素材:ITU-P863 提供標(biāo)準(zhǔn)人聲素材 &VQT 內(nèi)置語音測試素材。

          • 指標(biāo)計(jì)算:POLQA MOS 分。

          PESQ

          ITU-T P.862 提供測試方法,可得到 MOS 分,局限性是僅可支持 8K 和 16K。

          • 測試拓?fù)洌簠⒖?ANS 測試拓?fù)洹?/span>

          • 測試方法:測試素材:ITU-P863 提供標(biāo)準(zhǔn)人聲素材。

          • 指標(biāo)計(jì)算:PESQ MOS 分

          主觀測試方法


          采用 “YD/T 2309 音頻質(zhì)量主觀測試方法(ITU-R BS.1284)” 中提及的評分規(guī)則和維度,在不同場景下為專家和普通用戶進(jìn)行打分測試。

          評分方法



          評價(jià)維度



          測試場景


          測試素材采用“惠威試音碟”和“TUT-acoustic-scenes-2017-development”。



          技術(shù)交流,歡迎加我微信:ezglumes ,拉你入技術(shù)交流群。

          推薦閱讀:

          音視頻面試基礎(chǔ)題

          OpenGL ES 學(xué)習(xí)資源分享

          開通專輯 | 細(xì)數(shù)那些年寫過的技術(shù)文章專輯

          NDK 學(xué)習(xí)進(jìn)階免費(fèi)視頻來了

          推薦幾個(gè)堪稱教科書級別的 Android 音視頻入門項(xiàng)目

          覺得不錯(cuò),點(diǎn)個(gè)在看唄~


          瀏覽 52
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評論
          圖片
          表情
          推薦
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  国产A片一级 | 国产成人麻豆免费观看 | 粉嫩小泬BBBBBB免费 | 一区二区三区中文字幕 | 中文字幕 欧美 日韩 |