音視頻測試實戰(zhàn)——記音視頻測試那些事
共 3429字,需瀏覽 7分鐘
·
2022-02-09 17:34
2020年一開年,疫情打亂了人們的節(jié)奏。買東西不能出門了,學校也不開學了,上班也home office了,在這種情況下,直播帶貨、在線教學、視頻會議都被推上了風口浪尖。但是假如直播過程中突然聽不到主播聲音或者畫面,抑或者聲音和畫面效果很差,這肯定是影響體驗的。那么一款產品怎么才能在測試階段盡可能發(fā)現(xiàn)問題和解決問題呢?通過這篇文章,期望讓大家了解到音視頻關注的指標,對音視頻的評測過程有一個基本的了解。本篇文章來自網易智企研發(fā)葉紹秋,轉載請注明作者和出處。
推薦好友獎勵升級,現(xiàn)在推薦好友使用網易云信,最低拿3000元京東卡獎勵,立即推薦>>
知乎畫報本文主要從三個方面展開,一是音視頻測試的目的,主要說音視頻測試能解決的問題,比較通用;二是從音視頻的角度介紹怎么做測試,包括測試維度、評價框架、整體結構和每一部分的具體內容;三是介紹這個框架的組成和實施過程中遇到的問題。
在內容展開之前,先簡要介紹一下音視頻通話的基本流程:
從這個簡圖中可以看出,整個流程分為三部分:發(fā)送、網絡、接收。
發(fā)送端各個模塊的功能分別是:采集,對應麥克風和攝像頭硬件,也有可能是多媒體混音或者屏幕錄制的內容;前處理,美顏大家都知道,3A可能不太熟悉,這里是針對音視頻效果做處理的模塊。
編碼和解碼是一對逆過程:編碼完成后,打包發(fā)送到網絡上進行傳輸,到接收端進行后處理和解碼播放。
音視頻測試的目的
對音視頻通話的流程有了基本了解后,我們說回為什么要做測試。
這部分其實關系著我們?yōu)槭裁匆鲆粢曨l評測以及做了評測后能回答什么問題。大家可能都會收到來自老板的拷問,你覺得這個特性的質量怎么樣?能具備上線的條件嗎?相信QA同學都碰到過,你可能不是音視頻相關的質量保障同學,但是你肯定也或多或少遇到過類似的問題。
總的說來是四方面的問題,做的怎么樣?有沒有提高?提高多少?和競品差距多少?總結起來是四個字——“知己知彼”,前面三項主要是回答“知己”的問題,最后一項“知彼”,其實也是建立在“知己”的基礎之上。
“知己”主要是獲取到基線數(shù)據(jù),了解當前現(xiàn)狀,這塊是基礎。在版本迭代過程中,基于這個數(shù)據(jù)來縱向比較版本間是提高了還是惡化了,提高或惡化了多少,是版本優(yōu)化的參考。這些是對自己能力的了解,孫子兵法說,知己知彼百戰(zhàn)百勝,我們不光要埋頭干,還要抬頭看看路,看看別人做的怎么樣,因為最終體現(xiàn)競爭力的還是和競品之間的差距。當然這里差距包含兩層意思,正向的差距是優(yōu)勢,如果是負向的就是要改進了。
對應這些問題,我們分別需要提供哪些維度的數(shù)據(jù)作為輔助佐證呢?
要回答這4個問題,對于視頻會議,我們列出了多個維度的評價指標,如上表所示。
會議效果主要從基礎效果和其他增強效果兩方面來展開,這也是視頻會議底層能力的集中體現(xiàn)。
基礎效果包括穩(wěn)定性(卡頓,閃退)、清晰度(音畫清晰,可懂)和流暢度(入會時間過長,延遲大,卡頓)等;其他效果主要包括美顏和鏡像、背景虛化等,還有像實用性、易用性、功能完備度等都是直接影響用戶體驗的點。除此之外,還有一些影響性能和穩(wěn)定性的特性如可靠性、安全性、可維護性、可移植性、運行效率、功能的適合性等,也都對用戶體驗有著不可忽視的影響,也值得關注。
本文主要針對音視頻的效果展開。
如何進行音視頻測試
評價維度已經定好了,那么這些維度的指標怎么去衡量呢?說到評價框架,包含了評測的數(shù)據(jù)分類和匯總,最終從這些數(shù)據(jù)的歸納和總結去回答前面的問題。
從對應不同的專項來區(qū)分,包括了音頻測試、視頻測試、QoS測試、性能和兼容性測試?;谶@些維度適時地開展競品對比測試,則可以比較全面的回答前述4個問題。
音頻測試主要分為3塊,主觀測試、客觀測試和POLQA測試。
主觀測試主要是主觀聽,針對音頻算法的優(yōu)化調整,關注單講、雙講場景下的回聲、音量大小以及嘯叫等異?,F(xiàn)象,還有時延情況,音畫同步狀況;客觀測試和POLQA主要測試記錄一些客觀指標,如音頻參數(shù)(碼率,時延,音量大小和POLQA分值等),這些維度通常要覆蓋不同的網絡和業(yè)務場景,針對不同的算法調整情況,還要考慮對不同設備的覆蓋測試。
視頻的評估大體也是分為3塊,和音頻測試類似,主要包括主觀測試、客觀測試和vMOS,另外針對CoDEC還增加了離線測試。
主觀測試包括清晰度和流暢度,以及時延和音畫同步測試??陀^參數(shù)主要包括視頻相關的參數(shù)(分辨率、碼率、幀率、卡頓統(tǒng)計)以及MOS情況,CODEC離線測試中涵蓋了PSNR和SSIM以及現(xiàn)今比較火熱的VMAF指標。
QoS測試,并非一個單獨的評測維度,更多的可以說是一個用戶場景的覆蓋測試。網絡是業(yè)務的承載,然而實際用戶的網絡不可能完全理想,也沒那么壞,最終的測試抓手其實還是音視頻的評測指標,以此為基礎,覆蓋不同的弱網和極端網絡,關注音視頻效果的同時,關注擁塞控制、帶寬探測、以及視頻模型之間的配合和調整速度。這一部分輸出網絡相關的基線和極限能力。
前面提到的音視頻評估及QoS評估,最終效果都體現(xiàn)在QoE上。什么叫QoE?說白了就是用耳朵聽、用眼看。這部分直接體現(xiàn)在用戶體驗上,對于實時音視頻場景來說,主要包括溝通的實時性也就是端到端時延(端到端時延,首幀時間)、視頻的清晰度和流暢度、音頻的清晰度和流暢度(對音頻的可懂度直接相關)。
人不能總是低頭走路,也要抬頭看看天,產品也是一樣。我們不光要實現(xiàn)自己的特性功能,也要看看對手們做得怎么樣。因為最終決定產品好不好賣,客戶買不買賬,競爭力才最關鍵。
很多時候,如果明確的驗收標準不太容易給出,同指標和競品的對比結論是個不錯的選擇。如果能戰(zhàn)勝對手,還是相對成功的。如果是落了下風,那要考慮一下如何優(yōu)化了。事情到這里,看起來都很順利了,測試的框架都齊備了,直接補充數(shù)據(jù)不就可以了嗎?但是實際上還有一些問題需要解決。
評測的維度有了,數(shù)據(jù)指標也齊備了,接下來就是收集數(shù)據(jù)了,要收集數(shù)據(jù)就要準備一套穩(wěn)定的測試環(huán)境。測試環(huán)境其實就是模擬了一套端到端的實時音視頻通信系統(tǒng),包含采集,包含網絡,包含渲染和顯示,也包含觀察者(其實就是測試者),這其中的模塊都會引入測試誤差,這就是測試過程中的坑。
先說采集。同款攝像頭幾種不同擺放位置的視頻畫面無法相同,這只是采集引入誤差的一種,其他如攝像頭采集卡頓也會對最終的用戶體驗評價造成較大影響,導致無法確認是因為網絡導致的卡頓還是采集的原因。
攝像頭的不同擺放位置,對焦狀態(tài)以及光線情況,攝像頭的視角和景深對畫面的范圍和渲染表現(xiàn)影響最大
采集帶來的體驗效果方面的惡化包括如下:
1采集卡頓;
2采集變色和模糊;
3過曝等現(xiàn)象導致的圖像突變。
上圖所示是不同型號攝像頭接近相同的擺放位置的畫面視角差異。
網絡損傷后的視頻和攝像頭采集穩(wěn)定的畫面對比,說明卡頓不是因為攝像頭引入,而是網絡抗性不足導致。提到網絡抗性,網絡的不同拓撲結構和波動都會影響測試結果。網絡自身的丟包和抖動都會引入額外的體驗回退,也不利于問題的跟蹤和復現(xiàn),所以穩(wěn)定統(tǒng)一的弱網模擬環(huán)境尤為重要。
基于此,引入了基于TC的弱網模擬方案(如下圖所示)。
顯示引入的誤差主要由于顯示設備的差異導致,從這個圖中可以明顯的看出不同顯示器上同一幅圖像的色溫差別很大。
音視頻最終的效果體現(xiàn)在端到端的體驗上,端到端的體驗最終肯定是體現(xiàn)在人的主觀感受上,一千個讀者心中有一千個哈姆雷特。觀測者的個人視角,當時所處的環(huán)境以及個人的心情波動都會影響到主觀效果的評判。
基于此,我們考慮把涉及到主觀評價的場景都錄一份對比(新老版本/競品對比)的音視頻數(shù)據(jù),留待主觀評測打分用,基于自驗的打分平臺,方便的進行線上打分。
基于以上測試框架以及問題,我們搭建了以下評測框架,消除了可能引入誤差的一些模塊。
1第一部分,攝像頭(麥克風)+復用器,實現(xiàn)了同一路攝像頭(麥克風)采集內容被多個PC設備復用的功能,這樣每個PC上輸入的攝像頭內容完全一樣,也完全同步;
2接收端的顯示通過4K視頻合路設備投射到一臺大屏4K電視上,同時可以通過外部存儲保存一份以供備份和后續(xù)的主觀MoS環(huán)節(jié);
3中間的網絡和媒體服務器,把他們搭成私有的環(huán)境,單獨一套測試環(huán)境使用,不受出口網絡的影響,不受實驗室到媒體服務器路徑情況的影響,這套框架成本低廉,性價比較高。
相信這些工作做下來,從評測的維度出發(fā),已經能夠很好地回答老板們提出來的問題了。
知乎畫報聽網易CTO講述前沿觀察,看最有價值技術干貨,學網易最新實踐經驗。網易智企技術+,陪你從思考者成長為技術專家。
