日韩在线黄色视频,一级操逼大片,7799天天综合网精品,天堂网www在线资源网,伊人导航网,无码免费视频观看,久久久亚洲AV无码日韩精品 ,亚洲国产成人无码a在线播放

作者 | 偉隆釘釘蜂鳴鳥(niǎo)音頻實(shí)驗(yàn)室算法專家

在混合辦公的常態(tài)趨勢(shì)下，遠(yuǎn)程溝通協(xié)作的效率至關(guān)重要。然而，遠(yuǎn)程會(huì)議目前依然存在不少影響溝通的問(wèn)題，比如缺乏會(huì)議室拾音和放音設(shè)備、軟硬件設(shè)備不兼容、因遠(yuǎn)場(chǎng)拾音導(dǎo)致聽(tīng)不清等，這些問(wèn)題都會(huì)消磨與會(huì)者的耐心，影響會(huì)議效果，讓團(tuán)隊(duì)逐漸失去討論的激情。

因此，無(wú)論是國(guó)外的微軟、Zoom，還是國(guó)內(nèi)的釘釘、騰訊會(huì)議，都在建立自己的硬件終端生態(tài)，期望通過(guò)硬件來(lái)解決線上、線下混合辦公中的拾音問(wèn)題，比如麥克風(fēng)、音視頻一體機(jī)、會(huì)議平板等。但即便如此，在線下開(kāi)會(huì)時(shí)最常見(jiàn)的一個(gè)現(xiàn)象，依然聽(tīng)不清甚至聽(tīng)不到。解決這一問(wèn)題的關(guān)鍵，是解決遠(yuǎn)場(chǎng)拾音的問(wèn)題。

實(shí)際上，自從上世紀(jì) 80 年代以來(lái)，遠(yuǎn)場(chǎng)拾音就是工業(yè)界的痛點(diǎn)與學(xué)術(shù)界的難點(diǎn)，難點(diǎn)主要來(lái)自于三方面音頻問(wèn)題：混響、噪聲、回聲，其中去除“混響”更是曾被美國(guó)工程院列為“當(dāng)代未解決的十大工程問(wèn)題之一”。

目前，業(yè)界并沒(méi)有成熟的、可量產(chǎn)的解決方案?；诖耍斸敺澍Q鳥(niǎo)音頻實(shí)驗(yàn)室自研了差分麥克風(fēng)陣列算法，并率先在 F2 視頻會(huì)議一體機(jī)中實(shí)現(xiàn)單機(jī) 10 米遠(yuǎn)場(chǎng)拾音的突破，并且這一技術(shù)方案，可以進(jìn)行模塊化拆分，共享給硬件廠商，來(lái)提升他們硬件設(shè)備的拾音或者視頻的能力。

1 遠(yuǎn)場(chǎng)拾音要攻克哪些技術(shù)難點(diǎn)？

音視頻行業(yè)經(jīng)常說(shuō)“no video, we talk; no audio, we walk”，意思是說(shuō)，音頻在音視頻會(huì)議中的重要性要高于視頻，而音頻卻一直是薄弱點(diǎn)。

在中大型會(huì)議場(chǎng)景中，比如商務(wù)會(huì)議、匯報(bào)會(huì)議等，會(huì)議室的物理距離會(huì)造成聲音能量的衰減。

為了解決這一難題，市面上之前主流的產(chǎn)品主要為分體式設(shè)備，通過(guò)部署多臺(tái)麥克風(fēng)在會(huì)議桌上來(lái)拾音。而視頻會(huì)議一體機(jī)則需要實(shí)現(xiàn)單機(jī)遠(yuǎn)場(chǎng)拾音，克服遠(yuǎn)距離傳輸、混響、噪聲、回聲等技術(shù)難點(diǎn)，讓參會(huì)者能更好地聽(tīng)見(jiàn)與被聽(tīng)見(jiàn)，在每一場(chǎng)會(huì)議中盡情地表達(dá)、充分地交流。

1、遠(yuǎn)距離傳輸

在大型會(huì)議室交流時(shí)由于聽(tīng)不清對(duì)方的說(shuō)話聲，只好“喂喂喂”反復(fù)確認(rèn)，有時(shí)候還不得不走到設(shè)備跟前，確認(rèn)通信是否正常。

其實(shí)這種場(chǎng)景下，通信鏈路往往是正常的，問(wèn)題是因?yàn)樵O(shè)備拾音質(zhì)量不高、人和設(shè)備的距離較遠(yuǎn)造成的。聲音能量衰減是隨著傳播距離的平方成正比的，相對(duì) 1 米處的拾音能量，4 米處會(huì)衰減到 1/16、10 米處會(huì)衰減 100 倍。遠(yuǎn)距離聲音物理衰減會(huì)造成目標(biāo)語(yǔ)音的一些成分在頻譜上消失。因此，一旦距離遠(yuǎn)了，麥克風(fēng)原始信號(hào)里面的目標(biāo)信號(hào)就會(huì)被更近距離的噪聲覆蓋。

2、混響（reverberation）

我們?cè)陂_(kāi)會(huì)時(shí)偶爾會(huì)聽(tīng)到對(duì)方的聲音感覺(jué)很渾濁，像來(lái)自很遙遠(yuǎn)的山谷，這就是混響導(dǎo)致的問(wèn)題。

混響產(chǎn)生在密閉的空間內(nèi)，接收端接受到的聲音是通過(guò)多途徑傳播而來(lái)，由于墻面的反射造成的多途徑傳播，其中反射分為低階反射和高階反射，分別形成了早期混響和晚期混響。而這些混響對(duì)于人有兩個(gè)明顯的主觀聽(tīng)感效應(yīng)（perceptual effect）：

盒子效應(yīng)（box effect）：感覺(jué)聲音從四面八方而來(lái)，讓聽(tīng)到的人似乎身處一個(gè)盒子里面（“inside a box”），聽(tīng)上去很渾濁不舒服。
遠(yuǎn)距離說(shuō)話人效應(yīng)（distant talker effect）：感覺(jué)聲音來(lái)自很遠(yuǎn)的地方，甚至比實(shí)際距離還要遠(yuǎn)。

2 釘釘蜂鳴鳥(niǎo)實(shí)驗(yàn)室在遠(yuǎn)場(chǎng)拾音的探索及應(yīng)用

在遠(yuǎn)場(chǎng)拾音或遠(yuǎn)場(chǎng)語(yǔ)音交互過(guò)程中，近年來(lái)麥克風(fēng)陣列技術(shù)起到了不可或缺的作用。

實(shí)驗(yàn)室自研的麥克風(fēng)陣列技術(shù)是業(yè)界首次將麥克風(fēng)聲學(xué)特性和差分波束理論的優(yōu)勢(shì)進(jìn)行結(jié)合的實(shí)踐，將差分波束在低頻段的白噪聲增益明顯提升，從而明顯改善了語(yǔ)音低頻拾音的魯棒性，使得 F2 遠(yuǎn)場(chǎng)拾音中語(yǔ)音質(zhì)量明顯提升。

F2 麥克風(fēng)陣列技術(shù)主要包括差分波束成形技術(shù)（differential beamforming）和多通道去混響算法。

1、差分指向性麥克風(fēng)陣列波束形成技術(shù)

波束成形（beamforming）源自雷達(dá)天線技術(shù) - 傳感器陣列，如上圖，在通信領(lǐng)域，波束成形能夠?yàn)榛編?lái)更遠(yuǎn)的信號(hào)覆蓋范圍。相似的，近年來(lái)麥克風(fēng)陣列技術(shù)起到了不可或缺的作用，基于麥克風(fēng)陣列的波束成形在空間形成一個(gè)空間濾波器，在目標(biāo)聲音直達(dá)聲方向現(xiàn)成一個(gè)拾音波束，將被淹沒(méi)的目標(biāo)方向語(yǔ)音從來(lái)自其他干擾信號(hào)中無(wú)損恢復(fù)出來(lái)。

其中差分麥克風(fēng)陣列技術(shù)（DMA，differential microphone array）或者差分波束成形技術(shù)（differential beamforming），由于具有較多的物理特性優(yōu)勢(shì)，尤其適合語(yǔ)音信號(hào)處理，近年來(lái)成為信號(hào)處理領(lǐng)域研究熱點(diǎn)，同時(shí)在工業(yè)界也被廣泛使用。

關(guān)于差分麥克風(fēng)陣列，釘釘蜂鳴鳥(niǎo)實(shí)驗(yàn)室業(yè)界首次將麥克風(fēng)聲學(xué)特性和差分波束理論融合優(yōu)化，提出了自研的差分指向性麥克風(fēng)陣列（differential directional microphone array），明顯改善了該技術(shù)領(lǐng)域上的痛點(diǎn)問(wèn)題: 語(yǔ)音低頻拾音的魯棒性，將差分波束在低頻段的白噪聲增益明顯提升 20db。

實(shí)驗(yàn)室的研究工作以系列論文的形式發(fā)表在了 INTERSPEECH、ICASSP 等國(guó)際語(yǔ)音頂會(huì)，得到同行評(píng)審的認(rèn)可（見(jiàn)文末論文 list）。獨(dú)立測(cè)試表明，無(wú)論在客觀測(cè)試 - 語(yǔ)音識(shí)別準(zhǔn)確率和主觀測(cè)試 - 音質(zhì)評(píng)估方面，其遠(yuǎn)場(chǎng)拾音性能在業(yè)內(nèi)均處于領(lǐng)先地位：

遠(yuǎn)場(chǎng)語(yǔ)音識(shí)別準(zhǔn)確率比業(yè)界標(biāo)桿競(jìng)品高 7~9 個(gè)百分點(diǎn)，音質(zhì)清晰度則超越所有在市場(chǎng)上能找到的全球知名品牌；釘釘音視頻一體機(jī) F2 則是該理論的又一個(gè)落地產(chǎn)品。

2、多通道去混響技術(shù)

目前大多數(shù)語(yǔ)音去混響算法可以分為三大類：頻譜增強(qiáng)（spectral enhancement），間接逆濾波（indirect inverse filtering），直接逆濾波（direct inverse filtering）。

頻譜增強(qiáng)（spectral enhancement）的方法往往在混響語(yǔ)音頻譜上應(yīng)用一個(gè)實(shí)數(shù)或者復(fù)數(shù)掩碼（mask），將混響當(dāng)作噪聲抑制掉，而這種方法性能有限且?guī)?lái)一定的失真，因?yàn)榛祉懖⒉皇且粋€(gè)加性噪聲。
間接逆濾波（indirect inverse filtering）往往需要聲源和接收端之間的傳播函數(shù)，此方法可以完美地去混響，但是在現(xiàn)實(shí)應(yīng)用中，這些傳播函數(shù)是不可以獲得的。
直接逆濾波（direct inverse filtering）往往依賴麥克風(fēng)陣列信號(hào)本身而不是傳播函數(shù)進(jìn)行混響預(yù)測(cè)，適合實(shí)際應(yīng)用。行業(yè)內(nèi)應(yīng)用地最多的直接逆濾波（direct inverse filtering）方法是基于多通道線性預(yù)測(cè)（MCLP：multichannel linear prediction）。

實(shí)驗(yàn)室基于 MCLP 算法持續(xù)研究，調(diào)研復(fù)現(xiàn)最新的研究成果，在 F2 的實(shí)際應(yīng)用中相繼解決了當(dāng)前 MCLP 中的多個(gè)實(shí)際問(wèn)題：較多麥克風(fēng)數(shù)量的計(jì)算復(fù)雜度問(wèn)題，較少麥克風(fēng)數(shù)量的性能下降問(wèn)題，濾波器的精度爆炸問(wèn)題，基本上形成了自有的低復(fù)雜度高性能魯棒多通道去混響算法。

3 視頻會(huì)議硬件行業(yè)會(huì)如何發(fā)展？

視頻會(huì)議硬件的本質(zhì)是什么？是讓在相同時(shí)間、不同空間下多人的協(xié)同效率更高。一開(kāi)始遠(yuǎn)程互動(dòng)只需要郵件、電話就可以滿足，隨著技術(shù)的不斷發(fā)展，大家開(kāi)始追求更沉浸式的實(shí)時(shí)音視頻互動(dòng)體驗(yàn)，而硬件提供的是更專業(yè)的拾音麥克風(fēng)、高清攝像頭及豐富的接口，軟硬一體解決方案為會(huì)議提供更高品質(zhì)的保障。

我們認(rèn)為視頻會(huì)議硬件會(huì)隨著行業(yè)的深入往兩個(gè)方向發(fā)展：一是高度集成化、二是智能化。高度集成化是兼顧了性能、美觀度和易用性，這在未來(lái)企業(yè)級(jí)產(chǎn)品中會(huì)成為重要的指標(biāo)；而智能化是軟硬一體行業(yè)的大趨勢(shì)，通過(guò)技術(shù)讓拾音更精準(zhǔn)，降噪更智能，讓音視頻硬件更好地服務(wù)各種工作、生活場(chǎng)景。

釘釘 F2 是國(guó)內(nèi)首款單機(jī)實(shí)現(xiàn) 10 米高清音視頻體驗(yàn)的視頻會(huì)議一體機(jī)，基于軟硬件算法、AI 技術(shù)與工程設(shè)計(jì)上的突破，實(shí)現(xiàn)了單機(jī) 10 米清晰拾音、智能導(dǎo)播（發(fā)言人特寫(xiě)）、雙人分屏布局、4K 高清畫(huà)質(zhì)等特性，滿足線上線下混合辦公的開(kāi)會(huì)需求，大幅提升中大型會(huì)議場(chǎng)景中的效率和沉浸感。

一款產(chǎn)品上市前，必定要經(jīng)過(guò)一定范圍內(nèi)的應(yīng)用或測(cè)試，釘釘 F2 也不例外。釘釘會(huì)議 Rooms 產(chǎn)品團(tuán)隊(duì)曾帶著我們音頻科學(xué)家們幾乎跑遍整個(gè)阿里集團(tuán)的會(huì)議室，去錄制各種不同大小、不同構(gòu)造的會(huì)議室的測(cè)試數(shù)據(jù)，從而提升產(chǎn)品的魯棒性。

阿里有一種邀請(qǐng)企業(yè)做新品共創(chuàng)的文化，F(xiàn)2 的產(chǎn)研團(tuán)隊(duì)為了進(jìn)一步驗(yàn)證用戶需求和場(chǎng)景的適配度，常常申請(qǐng)直接坐到客戶會(huì)議室里旁聽(tīng)，觀察用戶應(yīng)用設(shè)備過(guò)程中是否是符合初始設(shè)計(jì)構(gòu)想、有沒(méi)有遇到問(wèn)題、有沒(méi)有新的需求。

在技術(shù)能力增強(qiáng)方面，針對(duì)挑戰(zhàn)性場(chǎng)景，我們下一步可能會(huì)考慮增加定向拾音、智能音幕等功能。例如，當(dāng)設(shè)備在一個(gè)嘈雜的環(huán)境中使用，開(kāi)啟智能音幕能夠讓特定區(qū)域目標(biāo)說(shuō)話人的聲音更加清晰地被拾取，從而讓參會(huì)者能夠在復(fù)雜聲學(xué)環(huán)境中更加輕松地交流。

在企業(yè)內(nèi)，80% 的會(huì)議可能是線下的會(huì)議、20% 是線上會(huì)議。我們也一直在探索如何實(shí)現(xiàn)線下會(huì)議的數(shù)字化，比如分角色的會(huì)議記錄，這里就會(huì)用到聲源定位、聲紋識(shí)別等技術(shù)。

F2 的定位就是一個(gè)硬件的載體，是一個(gè)容器。我們將通過(guò)音頻模組、音視頻模組、板卡模組以及整機(jī)集成等多種合作方式，向硬件廠商開(kāi)放釘釘在音視頻領(lǐng)域的產(chǎn)品、技術(shù)與算法，助力伙伴打造軟硬一體、線上線下混合的會(huì)議體驗(yàn)。

基于遠(yuǎn)場(chǎng)拾音、智能降噪等音視頻技術(shù)的突破，結(jié)合軟硬一體產(chǎn)品的落地和開(kāi)放的數(shù)字化平臺(tái)，釘釘能夠幫助用戶更好地實(shí)現(xiàn)線上和線下會(huì)議數(shù)字化，并成為企業(yè)的資產(chǎn)沉淀下來(lái)。

附：釘釘蜂鳴鳥(niǎo)實(shí)驗(yàn)室在國(guó)際頂會(huì)上發(fā)表的自研麥克風(fēng)陣列相關(guān)論文：

1.Weilong Huang，Jinwei Feng, ‘Minimum-Norm Differential Beamforming for Linear Array with Directional Microphones’，Interspeech 2021；

2.Weilong Huang，Jinwei Feng, ‘Differential Beamforming for Uniform Circular Array with Directional Microphones’, Interspeech 2020

3.Cheng Xue, Weilong Huang, Weiguang Chen, Jinwei Feng, ‘Real-time Multi-channel Speech Enhancement Based on Neural Network Masking with Attention Model’, Interspeech 2021;

4.ShiLiang Zhang, Siqi Zheng, Weilong Huang, Ming Lei, Hongbin Suo, Jinwei Feng and Zhijie Yan, ‘Investigation of Spatial-Acoustic Features for Overlapping Speech Detection in Multiparty Meetings’, Interspeech 2021;

5.Siqi Zheng, Weilong Huang, Xianliang Wang, Hongbin Suo, Jinwei Feng, Zhijie Yan, ‘A real-time speaker diarization system based on spatial spectrum’, ICASSP 2021;

6.Weiguang Chen (intern), Cheng Xue(intern), Xionghu Zhong“Cramer-Rao Lower Bound for DOA Estimation with an Array of Directional ′ Microphones in Reverberant Environments”; InterSpeech 2021

7.Fan Yu, .., Weilong Huang, etc“M2MET: THE ICASSP 2022 MULTI-CHANNEL MULTI-PARTY MEETING TRANSCRIPTION CHALLENGE”, ICASSP 2022

8.Fan Yu, .., Weilong Huang, etc“ Summary On The ICASSP 2022 Multi-Channel Multi-Party Meeting Transcription Grand Challenge”， ICASSP2022

9.Pengyu Wang, Feifei Xiong, Zhongfu Ye and Jinwei Feng, “Joint Estimation of Direction-Of-Arrival and Distance for Arrays with Directional Sensors Based on Sparse Bayesian Learning”, Accepted for Publication at Inter-Speech 2022

10.Feifei Xiong， Weiguang Chen, Pengyu Wang, Xiaofei Li and Jinwei Feng, “Spectro-Temporal SubNet for Real-Time Monaural Speech Denoising and Dereverberation”, Accepted for Publication at Inter-Speech 2022

視頻會(huì)議一體機(jī)的技術(shù)實(shí)踐和發(fā)展趨勢(shì)