<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          視頻會(huì)議一體機(jī)的技術(shù)實(shí)踐和發(fā)展趨勢(shì)

          共 5658字,需瀏覽 12分鐘

           ·

          2022-06-26 07:04

            作者 |  偉隆 釘釘蜂鳴鳥(niǎo)音頻實(shí)驗(yàn)室 算法專家

          在混合辦公的常態(tài)趨勢(shì)下,遠(yuǎn)程溝通協(xié)作的效率至關(guān)重要。然而,遠(yuǎn)程會(huì)議目前依然存在不少影響溝通的問(wèn)題,比如缺乏會(huì)議室拾音和放音設(shè)備、軟硬件設(shè)備不兼容、因遠(yuǎn)場(chǎng)拾音導(dǎo)致聽(tīng)不清等,這些問(wèn)題都會(huì)消磨與會(huì)者的耐心,影響會(huì)議效果,讓團(tuán)隊(duì)逐漸失去討論的激情。

          因此,無(wú)論是國(guó)外的微軟、Zoom,還是國(guó)內(nèi)的釘釘、騰訊會(huì)議,都在建立自己的硬件終端生態(tài),期望通過(guò)硬件來(lái)解決線上、線下混合辦公中的拾音問(wèn)題,比如麥克風(fēng)、音視頻一體機(jī)、會(huì)議平板等。但即便如此,在線下開(kāi)會(huì)時(shí)最常見(jiàn)的一個(gè)現(xiàn)象,依然聽(tīng)不清甚至聽(tīng)不到。解決這一問(wèn)題的關(guān)鍵,是解決遠(yuǎn)場(chǎng)拾音的問(wèn)題。

          實(shí)際上,自從上世紀(jì) 80 年代以來(lái),遠(yuǎn)場(chǎng)拾音就是工業(yè)界的痛點(diǎn)與學(xué)術(shù)界的難點(diǎn),難點(diǎn)主要來(lái)自于三方面音頻問(wèn)題:混響、噪聲、回聲,其中去除“混響”更是曾被美國(guó)工程院列為“當(dāng)代未解決的十大工程問(wèn)題之一”。

          目前,業(yè)界并沒(méi)有成熟的、可量產(chǎn)的解決方案?;诖耍斸敺澍Q鳥(niǎo)音頻實(shí)驗(yàn)室自研了差分麥克風(fēng)陣列算法,并率先在 F2 視頻會(huì)議一體機(jī)中實(shí)現(xiàn)單機(jī) 10 米遠(yuǎn)場(chǎng)拾音的突破,并且這一技術(shù)方案,可以進(jìn)行模塊化拆分,共享給硬件廠商,來(lái)提升他們硬件設(shè)備的拾音或者視頻的能力。

          1 遠(yuǎn)場(chǎng)拾音要攻克哪些技術(shù)難點(diǎn)?

          音視頻行業(yè)經(jīng)常說(shuō)“no video, we talk; no audio, we walk”,意思是說(shuō),音頻在音視頻會(huì)議中的重要性要高于視頻,而音頻卻一直是薄弱點(diǎn)。

          在中大型會(huì)議場(chǎng)景中,比如商務(wù)會(huì)議、匯報(bào)會(huì)議等,會(huì)議室的物理距離會(huì)造成聲音能量的衰減。

          為了解決這一難題,市面上之前主流的產(chǎn)品主要為分體式設(shè)備,通過(guò)部署多臺(tái)麥克風(fēng)在會(huì)議桌上來(lái)拾音。而視頻會(huì)議一體機(jī)則需要實(shí)現(xiàn)單機(jī)遠(yuǎn)場(chǎng)拾音,克服遠(yuǎn)距離傳輸、混響、噪聲、回聲等技術(shù)難點(diǎn),讓參會(huì)者能更好地聽(tīng)見(jiàn)與被聽(tīng)見(jiàn),在每一場(chǎng)會(huì)議中盡情地表達(dá)、充分地交流。

          1、遠(yuǎn)距離傳輸

          在大型會(huì)議室交流時(shí)由于聽(tīng)不清對(duì)方的說(shuō)話聲,只好“喂喂喂”反復(fù)確認(rèn),有時(shí)候還不得不走到設(shè)備跟前,確認(rèn)通信是否正常。

          其實(shí)這種場(chǎng)景下,通信鏈路往往是正常的,問(wèn)題是因?yàn)樵O(shè)備拾音質(zhì)量不高、人和設(shè)備的距離較遠(yuǎn)造成的。聲音能量衰減是隨著傳播距離的平方成正比的,相對(duì) 1 米處的拾音能量,4 米處會(huì)衰減到 1/16、10 米處會(huì)衰減 100 倍。遠(yuǎn)距離聲音物理衰減會(huì)造成目標(biāo)語(yǔ)音的一些成分在頻譜上消失。因此,一旦距離遠(yuǎn)了,麥克風(fēng)原始信號(hào)里面的目標(biāo)信號(hào)就會(huì)被更近距離的噪聲覆蓋。

          2、混響(reverberation)

          我們?cè)陂_(kāi)會(huì)時(shí)偶爾會(huì)聽(tīng)到對(duì)方的聲音感覺(jué)很渾濁,像來(lái)自很遙遠(yuǎn)的山谷,這就是混響導(dǎo)致的問(wèn)題。

          混響產(chǎn)生在密閉的空間內(nèi),接收端接受到的聲音是通過(guò)多途徑傳播而來(lái),由于墻面的反射造成的多途徑傳播,其中反射分為低階反射和高階反射,分別形成了早期混響和晚期混響。而這些混響對(duì)于人有兩個(gè)明顯的主觀聽(tīng)感效應(yīng)(perceptual effect):

          • 盒子效應(yīng)(box effect):感覺(jué)聲音從四面八方而來(lái),讓聽(tīng)到的人似乎身處一個(gè)盒子里面(“inside a box”),聽(tīng)上去很渾濁不舒服。

          • 遠(yuǎn)距離說(shuō)話人效應(yīng)(distant talker effect):感覺(jué)聲音來(lái)自很遠(yuǎn)的地方,甚至比實(shí)際距離還要遠(yuǎn)。

          2 釘釘蜂鳴鳥(niǎo)實(shí)驗(yàn)室在遠(yuǎn)場(chǎng)拾音的探索及應(yīng)用

          在遠(yuǎn)場(chǎng)拾音或遠(yuǎn)場(chǎng)語(yǔ)音交互過(guò)程中,近年來(lái)麥克風(fēng)陣列技術(shù)起到了不可或缺的作用。

          實(shí)驗(yàn)室自研的麥克風(fēng)陣列技術(shù)是業(yè)界首次將麥克風(fēng)聲學(xué)特性和差分波束理論的優(yōu)勢(shì)進(jìn)行結(jié)合的實(shí)踐,將差分波束在低頻段的白噪聲增益明顯提升,從而明顯改善了語(yǔ)音低頻拾音的魯棒性,使得 F2 遠(yuǎn)場(chǎng)拾音中語(yǔ)音質(zhì)量明顯提升。

          F2 麥克風(fēng)陣列技術(shù)主要包括差分波束成形技術(shù)(differential beamforming)和多通道去混響算法。

          1、差分指向性麥克風(fēng)陣列波束形成技術(shù)


          波束成形(beamforming)源自雷達(dá)天線技術(shù) - 傳感器陣列,如上圖,在通信領(lǐng)域,波束成形能夠?yàn)榛編?lái)更遠(yuǎn)的信號(hào)覆蓋范圍。相似的,近年來(lái)麥克風(fēng)陣列技術(shù)起到了不可或缺的作用,基于麥克風(fēng)陣列的波束成形在空間形成一個(gè)空間濾波器,在目標(biāo)聲音直達(dá)聲方向現(xiàn)成一個(gè)拾音波束,將被淹沒(méi)的目標(biāo)方向語(yǔ)音從來(lái)自其他干擾信號(hào)中無(wú)損恢復(fù)出來(lái)。

          其中差分麥克風(fēng)陣列技術(shù)(DMA,differential microphone array)或者差分波束成形技術(shù)(differential beamforming),由于具有較多的物理特性優(yōu)勢(shì),尤其適合語(yǔ)音信號(hào)處理,近年來(lái)成為信號(hào)處理領(lǐng)域研究熱點(diǎn),同時(shí)在工業(yè)界也被廣泛使用。

          關(guān)于差分麥克風(fēng)陣列,釘釘蜂鳴鳥(niǎo)實(shí)驗(yàn)室業(yè)界首次將麥克風(fēng)聲學(xué)特性和差分波束理論融合優(yōu)化,提出了自研的差分指向性麥克風(fēng)陣列(differential directional microphone array),明顯改善了該技術(shù)領(lǐng)域上的痛點(diǎn)問(wèn)題: 語(yǔ)音低頻拾音的魯棒性,將差分波束在低頻段的白噪聲增益明顯提升 20db。

          實(shí)驗(yàn)室的研究工作以系列論文的形式發(fā)表在了 INTERSPEECH、ICASSP 等國(guó)際語(yǔ)音頂會(huì),得到同行評(píng)審的認(rèn)可(見(jiàn)文末論文 list)。獨(dú)立測(cè)試表明,無(wú)論在客觀測(cè)試 - 語(yǔ)音識(shí)別準(zhǔn)確率和主觀測(cè)試 - 音質(zhì)評(píng)估方面,其遠(yuǎn)場(chǎng)拾音性能在業(yè)內(nèi)均處于領(lǐng)先地位:

          遠(yuǎn)場(chǎng)語(yǔ)音識(shí)別準(zhǔn)確率比業(yè)界標(biāo)桿競(jìng)品高 7~9 個(gè)百分點(diǎn),音質(zhì)清晰度則超越所有在市場(chǎng)上能找到的全球知名品牌;釘釘音視頻一體機(jī) F2 則是該理論的又一個(gè)落地產(chǎn)品。

          2、多通道去混響技術(shù)

          目前大多數(shù)語(yǔ)音去混響算法可以分為三大類:頻譜增強(qiáng)(spectral enhancement), 間接逆濾波(indirect inverse filtering), 直接逆濾波(direct inverse filtering)。

          • 頻譜增強(qiáng)(spectral enhancement)的方法往往在混響語(yǔ)音頻譜上應(yīng)用一個(gè)實(shí)數(shù)或者復(fù)數(shù)掩碼(mask),將混響當(dāng)作噪聲抑制掉,而這種方法性能有限且?guī)?lái)一定的失真,因?yàn)榛祉懖⒉皇且粋€(gè)加性噪聲。

          • 間接逆濾波(indirect inverse filtering)往往需要聲源和接收端之間的傳播函數(shù),此方法可以完美地去混響,但是在現(xiàn)實(shí)應(yīng)用中,這些傳播函數(shù)是不可以獲得的。

          • 直接逆濾波(direct inverse filtering)往往依賴麥克風(fēng)陣列信號(hào)本身而不是傳播函數(shù)進(jìn)行混響預(yù)測(cè),適合實(shí)際應(yīng)用。行業(yè)內(nèi)應(yīng)用地最多的直接逆濾波(direct inverse filtering)方法是基于多通道線性預(yù)測(cè)(MCLP:multichannel linear prediction)。

          實(shí)驗(yàn)室基于 MCLP 算法持續(xù)研究,調(diào)研復(fù)現(xiàn)最新的研究成果,在 F2 的實(shí)際應(yīng)用中相繼解決了當(dāng)前 MCLP 中的多個(gè)實(shí)際問(wèn)題:較多麥克風(fēng)數(shù)量的計(jì)算復(fù)雜度問(wèn)題,較少麥克風(fēng)數(shù)量的性能下降問(wèn)題,濾波器的精度爆炸問(wèn)題,基本上形成了自有的低復(fù)雜度高性能魯棒多通道去混響算法。

          3 視頻會(huì)議硬件行業(yè)會(huì)如何發(fā)展?

          視頻會(huì)議硬件的本質(zhì)是什么?是讓在相同時(shí)間、不同空間下多人的協(xié)同效率更高。一開(kāi)始遠(yuǎn)程互動(dòng)只需要郵件、電話就可以滿足,隨著技術(shù)的不斷發(fā)展,大家開(kāi)始追求更沉浸式的實(shí)時(shí)音視頻互動(dòng)體驗(yàn),而硬件提供的是更專業(yè)的拾音麥克風(fēng)、高清攝像頭及豐富的接口,軟硬一體解決方案為會(huì)議提供更高品質(zhì)的保障。

          我們認(rèn)為視頻會(huì)議硬件會(huì)隨著行業(yè)的深入往兩個(gè)方向發(fā)展:一是高度集成化、二是智能化。高度集成化是兼顧了性能、美觀度和易用性,這在未來(lái)企業(yè)級(jí)產(chǎn)品中會(huì)成為重要的指標(biāo);而智能化是軟硬一體行業(yè)的大趨勢(shì),通過(guò)技術(shù)讓拾音更精準(zhǔn),降噪更智能,讓音視頻硬件更好地服務(wù)各種工作、生活場(chǎng)景。

          釘釘 F2 是國(guó)內(nèi)首款單機(jī)實(shí)現(xiàn) 10 米高清音視頻體驗(yàn)的視頻會(huì)議一體機(jī),基于軟硬件算法、AI 技術(shù)與工程設(shè)計(jì)上的突破,實(shí)現(xiàn)了單機(jī) 10 米清晰拾音、智能導(dǎo)播(發(fā)言人特寫(xiě))、雙人分屏布局、4K 高清畫(huà)質(zhì)等特性,滿足線上線下混合辦公的開(kāi)會(huì)需求,大幅提升中大型會(huì)議場(chǎng)景中的效率和沉浸感。

          一款產(chǎn)品上市前,必定要經(jīng)過(guò)一定范圍內(nèi)的應(yīng)用或測(cè)試,釘釘 F2 也不例外。釘釘會(huì)議 Rooms 產(chǎn)品團(tuán)隊(duì)曾帶著我們音頻科學(xué)家們幾乎跑遍整個(gè)阿里集團(tuán)的會(huì)議室,去錄制各種不同大小、不同構(gòu)造的會(huì)議室的測(cè)試數(shù)據(jù),從而提升產(chǎn)品的魯棒性。

          阿里有一種邀請(qǐng)企業(yè)做新品共創(chuàng)的文化,F(xiàn)2 的產(chǎn)研團(tuán)隊(duì)為了進(jìn)一步驗(yàn)證用戶需求和場(chǎng)景的適配度,常常申請(qǐng)直接坐到客戶會(huì)議室里旁聽(tīng),觀察用戶應(yīng)用設(shè)備過(guò)程中是否是符合初始設(shè)計(jì)構(gòu)想、有沒(méi)有遇到問(wèn)題、有沒(méi)有新的需求。

          在技術(shù)能力增強(qiáng)方面,針對(duì)挑戰(zhàn)性場(chǎng)景,我們下一步可能會(huì)考慮增加定向拾音、智能音幕等功能。例如,當(dāng)設(shè)備在一個(gè)嘈雜的環(huán)境中使用,開(kāi)啟智能音幕能夠讓特定區(qū)域目標(biāo)說(shuō)話人的聲音更加清晰地被拾取,從而讓參會(huì)者能夠在復(fù)雜聲學(xué)環(huán)境中更加輕松地交流。

          在企業(yè)內(nèi),80% 的會(huì)議可能是線下的會(huì)議、20% 是線上會(huì)議。我們也一直在探索如何實(shí)現(xiàn)線下會(huì)議的數(shù)字化,比如分角色的會(huì)議記錄,這里就會(huì)用到聲源定位、聲紋識(shí)別等技術(shù)。

          F2 的定位就是一個(gè)硬件的載體,是一個(gè)容器。我們將通過(guò)音頻模組、音視頻模組、板卡模組以及整機(jī)集成等多種合作方式,向硬件廠商開(kāi)放釘釘在音視頻領(lǐng)域的產(chǎn)品、技術(shù)與算法,助力伙伴打造軟硬一體、線上線下混合的會(huì)議體驗(yàn)。

          基于遠(yuǎn)場(chǎng)拾音、智能降噪等音視頻技術(shù)的突破,結(jié)合軟硬一體產(chǎn)品的落地和開(kāi)放的數(shù)字化平臺(tái),釘釘能夠幫助用戶更好地實(shí)現(xiàn)線上和線下會(huì)議數(shù)字化,并成為企業(yè)的資產(chǎn)沉淀下來(lái)。

          附:釘釘蜂鳴鳥(niǎo)實(shí)驗(yàn)室在國(guó)際頂會(huì)上發(fā)表的自研麥克風(fēng)陣列相關(guān)論文:

          1.Weilong Huang,Jinwei Feng, ‘Minimum-Norm Differential Beamforming for Linear Array with Directional Microphones’,Interspeech 2021;

          2.Weilong Huang,Jinwei Feng, ‘Differential Beamforming for Uniform Circular Array with Directional Microphones’, Interspeech 2020

          3.Cheng Xue, Weilong Huang, Weiguang Chen, Jinwei Feng, ‘Real-time Multi-channel Speech Enhancement Based on Neural Network Masking with Attention Model’, Interspeech 2021;

          4.ShiLiang Zhang, Siqi Zheng, Weilong Huang, Ming Lei, Hongbin Suo, Jinwei Feng and Zhijie Yan, ‘Investigation of Spatial-Acoustic Features for Overlapping Speech Detection in Multiparty Meetings’, Interspeech 2021;

          5.Siqi Zheng, Weilong Huang, Xianliang Wang, Hongbin Suo, Jinwei Feng, Zhijie Yan, ‘A real-time speaker diarization system based on spatial spectrum’, ICASSP 2021;

          6.Weiguang Chen (intern), Cheng Xue(intern), Xionghu Zhong“Cramer-Rao Lower Bound for DOA Estimation with an Array of Directional ′ Microphones in Reverberant Environments”; InterSpeech 2021

          7.Fan Yu, .., Weilong Huang, etc“M2MET: THE ICASSP 2022 MULTI-CHANNEL MULTI-PARTY MEETING TRANSCRIPTION CHALLENGE”, ICASSP 2022

          8.Fan Yu, .., Weilong Huang, etc“ Summary On The ICASSP 2022 Multi-Channel Multi-Party Meeting Transcription Grand Challenge”, ICASSP2022

          9.Pengyu Wang,  Feifei Xiong, Zhongfu Ye and Jinwei Feng, “Joint Estimation of Direction-Of-Arrival and Distance for Arrays with Directional Sensors Based on Sparse Bayesian Learning”, Accepted for Publication at Inter-Speech 2022

          10.Feifei Xiong, Weiguang Chen, Pengyu Wang, Xiaofei Li and Jinwei Feng, “Spectro-Temporal SubNet for Real-Time Monaural Speech Denoising and Dereverberation”, Accepted for Publication at Inter-Speech 2022



          瀏覽 63
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  强开小嫩苞毛片一二三区 | 操逼动漫视频 | 在线毛片网址 | 东京热一二三区 | 2025天天操夜夜操 |