??新智元報(bào)道??

編輯：袁榭拉燕

【新智元導(dǎo)讀】為了讓廣大視頻通話用戶體驗(yàn)更佳，也讓更多AR、VR用戶青睞元宇宙，Meta的AI研發(fā)團(tuán)隊(duì)最近開(kāi)發(fā)了能更好處理虛擬背景的AI模型。

自新冠疫情開(kāi)始以來(lái)，大部分人都已經(jīng)習(xí)慣了在和朋友、同事和家人遠(yuǎn)程視頻通話。視頻聊天的時(shí)候都使用過(guò)虛擬背景。

用戶在視頻時(shí)變換背景，能賦予其在虛擬影像中掌控身邊環(huán)境的權(quán)利，減少因環(huán)境帶來(lái)的分心，還能保護(hù)隱私，甚至還能讓用戶在視頻里看起來(lái)更有精氣神。

但有些時(shí)候虛擬背景呈現(xiàn)出來(lái)的效果可能和用戶需求的不一樣。大部分人都經(jīng)歷過(guò)在移動(dòng)的時(shí)候虛擬背景把人臉擋住了，或者是虛擬背景無(wú)法識(shí)別手和桌子之間的邊界。

最近，Meta利用強(qiáng)化的AI模型來(lái)分割圖像，優(yōu)化了背景模糊功能，虛擬背景功能和其它Meta產(chǎn)品服務(wù)的AR效果。這樣可以更好的分辨照片和視頻中的不同部分。

來(lái)自Meta AI、現(xiàn)實(shí)實(shí)驗(yàn)室和Meta其它部門的研究人員和工程師，組成了一個(gè)跨部門小組，最近開(kāi)發(fā)了新的圖像分割模型，已用在Portal、Messenger和Instagram等很多平臺(tái)的實(shí)時(shí)視頻通話和Spark AR的增強(qiáng)現(xiàn)實(shí)應(yīng)用中。

該小組還優(yōu)化了雙人圖像分割模型，已經(jīng)在Instagram和Messenger上應(yīng)用了。

如何讓AI改進(jìn)虛擬背景

該小組在推進(jìn)圖像分割的優(yōu)化過(guò)程中，主要有以下三大挑戰(zhàn)：

1.要讓AI學(xué)會(huì)在不同的環(huán)境下也能正常識(shí)別。比如說(shuō)環(huán)境偏暗、人物膚色不同、人物膚色接近背景色、人物不常見(jiàn)的體態(tài)（比方說(shuō)彎腰系鞋帶，或者伸懶腰）、人物被遮擋、人物在移動(dòng)等等。

2.要讓邊緣的位置看起來(lái)更加的流暢、穩(wěn)定、連貫。這些特征在目前的研究中討論較少，但是用戶反饋研究表明，這些因素極大影響人們?cè)谑褂酶黝惐尘靶Ч麜r(shí)的體驗(yàn)。

3.要確保模型能夠在全世界幾十億部智能手機(jī)中都能靈活、高效的運(yùn)作。只在一小部分最先進(jìn)的手機(jī)中才能使用是不行的，這類手機(jī)往往搭載最新款的處理器。

而且，該模型必須能支持各種長(zhǎng)寬比的手機(jī)，這樣才可以在筆記本電腦、Meta的便攜式視頻通話設(shè)備和人們的手機(jī)的肖像模式、橫向模式中都保證模型的正常使用。

用Meta的AI模型處理后的虛擬背景示例，左為頭身像，右為全身像。

真實(shí)世界個(gè)人圖像分割模型的挑戰(zhàn)

圖像分割的概念不難理解，但獲得高精確度的個(gè)人圖像分割結(jié)果卻很困難。要有好結(jié)果的話，處理圖像的模型必須一致性極高、延遲度極低。

不正確的分割圖像輸出，會(huì)導(dǎo)致各種讓使用虛擬背景的視訊用戶走神的效果。更重要的是，圖像分割錯(cuò)誤會(huì)導(dǎo)致用戶的真實(shí)物理環(huán)境發(fā)生不必要的暴露。

因?yàn)檫@些，圖像分割模型的精度必須達(dá)到交并比90%以上，才能進(jìn)入實(shí)際的市場(chǎng)產(chǎn)品應(yīng)用。交并比是衡量圖像分割預(yù)測(cè)值與基底真實(shí)值重疊部分比值的常用標(biāo)準(zhǔn)度量。

由于使用場(chǎng)景與實(shí)例復(fù)雜度之海量，Meta的圖像分割模型要達(dá)到的交并比，最后10%完成起來(lái)遠(yuǎn)比之前的所有部分都更難。

Meta的軟件工程師們發(fā)現(xiàn)，當(dāng)交并比已達(dá)到90%時(shí)，圖像的可衡量指標(biāo)趨于飽和，在時(shí)間一致性與空間穩(wěn)定性上難有更好提升。

為了克服此障礙，Meta開(kāi)發(fā)了一個(gè)基于視頻的衡量系統(tǒng)，與其他幾個(gè)指標(biāo)一起來(lái)解決這額外的難度。

為真實(shí)世界應(yīng)用開(kāi)發(fā)AI訓(xùn)練與衡量策略

AI模型只能從已交付的數(shù)據(jù)集里學(xué)習(xí)。所以想要訓(xùn)練出高精度的圖像分割模型，光是簡(jiǎn)單錄入一大堆視頻用戶在明亮室內(nèi)正襟危坐的視頻樣本是不行的。樣本類型得盡可能貼近真實(shí)世界地豐富。

Meta AI實(shí)驗(yàn)室用了自家的ClusterFit模型，來(lái)從不同性別、膚色、年齡、身體姿勢(shì)、動(dòng)作、復(fù)雜背景、多人數(shù)的海量樣本中提取可用數(shù)據(jù)。

靜態(tài)圖像的度量值并不準(zhǔn)確反映模型實(shí)時(shí)處理動(dòng)態(tài)視頻的質(zhì)量，因?yàn)閷?shí)時(shí)模型通常要有依賴時(shí)間信息的追蹤模式。為了測(cè)量模型的實(shí)時(shí)質(zhì)量，Meta AI實(shí)驗(yàn)室設(shè)計(jì)了當(dāng)模型預(yù)測(cè)出畫面時(shí)、計(jì)算每幀畫面的各指標(biāo)的定量性視頻評(píng)估架構(gòu)。

與論文中的理想狀況不同，Meta的個(gè)人圖像分割模型是被日常的海量用戶評(píng)判性能。如果有鋸齒、扭曲、或其他不滿意的效果出現(xiàn)，其他性能比基準(zhǔn)值好出再多也沒(méi)用。

所以Meta AI實(shí)驗(yàn)室直接詢問(wèn)自家產(chǎn)品用戶對(duì)圖像分割效果的評(píng)價(jià)。結(jié)果是邊緣不平滑和模糊對(duì)用戶體驗(yàn)影響最大。

針對(duì)此需求，Meta AI實(shí)驗(yàn)室在視頻評(píng)估架構(gòu)中，另添加了「邊緣交并比」這一新指標(biāo)。當(dāng)畫面的普通交并比超過(guò)90%、幾近飽和時(shí)，邊緣交并比就是更需注意的指標(biāo)了。

而且，畫面時(shí)間一致性不夠，會(huì)帶來(lái)圖形邊緣的混雜效果，這也會(huì)影響用戶體驗(yàn)。Meta AI實(shí)驗(yàn)室用兩種方法來(lái)測(cè)量畫面的時(shí)間一致性。

首先，Meta研究人員假設(shè)時(shí)點(diǎn)緊鄰的兩幀畫面，圖像基本一致。所以任何模型上的預(yù)測(cè)差異都代表最終畫面會(huì)有時(shí)間不一致。

其次，Meta研究人員從時(shí)點(diǎn)緊鄰的兩幀畫面的前景動(dòng)作入手。前景里的光流能讓模型從第N幀的預(yù)測(cè)值推進(jìn)到第N+1幀。然后研究者就將此預(yù)測(cè)值與真實(shí)的N+1幀數(shù)值對(duì)照。

這兩種方法中測(cè)算出的差異度都以交并比這一度量來(lái)體現(xiàn)。

Meta AI實(shí)驗(yàn)室使用了來(lái)自30種的100余類人群的1100個(gè)視頻樣本來(lái)輸入AI模型，分類包括所有人類表征性別與菲茨帕特里克量表上的膚色色調(diào)。

分析結(jié)果是，Meta的AI模型在所有人群子分類的視像處理效果上都有差不多的顯著準(zhǔn)確性，交并比與置信度都在95%以上，各分類間交并比差異基本都在0.5個(gè)百分點(diǎn)左右，性能優(yōu)異可靠。

不同膚色與性別人群的視頻，Meta的AI模型處理后的交并比數(shù)據(jù)

優(yōu)化模型

架構(gòu)

Meta研究人員使用FBNet V3作為優(yōu)化模型的主干。這是一種由多層混合形成的解編碼結(jié)構(gòu)，每一層都有相同的空間分辨率。

研究人員設(shè)計(jì)了一種配備輕量級(jí)解碼器加重量級(jí)編碼器的架構(gòu)，這樣可以擁有比全對(duì)稱設(shè)計(jì)的架構(gòu)更好的性能。生成的架構(gòu)由神經(jīng)架構(gòu)搜索支撐，并對(duì)設(shè)備上運(yùn)行的速度進(jìn)行了高度優(yōu)化。

語(yǔ)義分割模型架構(gòu)。綠色的長(zhǎng)方形代表卷積層，黑色的圓圈代表各層融合點(diǎn)。

數(shù)據(jù)學(xué)習(xí)

研究人員使用離線大容量的PointRend模型為未注釋的數(shù)據(jù)生成地一個(gè)偽標(biāo)準(zhǔn)實(shí)值標(biāo)簽，以此來(lái)增加訓(xùn)練的數(shù)據(jù)量。同樣地，研究者使用師-生半監(jiān)督模型來(lái)消除偽標(biāo)簽中的偏差。

長(zhǎng)寬比相關(guān)的重新采樣

傳統(tǒng)的深度學(xué)習(xí)模型會(huì)將圖像重新采樣成一個(gè)小正方形，輸入到神經(jīng)網(wǎng)絡(luò)里。由于重新采樣，圖像會(huì)出現(xiàn)畸變。并且由于每幀圖像具有不同的長(zhǎng)寬比，因此畸變的幅度也會(huì)不相同。

畸變的存在、畸變程度的不同，會(huì)導(dǎo)致神經(jīng)網(wǎng)絡(luò)AI學(xué)習(xí)到不穩(wěn)健的低層次特征。這種畸變引起的限制在圖像分割應(yīng)用中會(huì)被放大。

如此一來(lái)，如果大多數(shù)訓(xùn)練圖像都是肖像比例，那么該模型在實(shí)景圖像和視頻上的表現(xiàn)要差得多。

為了解決這個(gè)問(wèn)題，研究團(tuán)隊(duì)采用了 Detectron 2 的長(zhǎng)寬比相關(guān)的二次采樣方法，該方法將具有相似長(zhǎng)寬比的圖像分組，并將它們第二次采樣到相同的大小。

左為長(zhǎng)寬比不調(diào)帶來(lái)畸變的基線圖像，右為AI模型處理后的改進(jìn)圖像

自定義補(bǔ)邊框

長(zhǎng)寬比相關(guān)的二次采樣法需要將具有相似長(zhǎng)寬比的圖像補(bǔ)邊框，但常用的零補(bǔ)框方法會(huì)產(chǎn)生偽影（artifact）。

更糟糕的是，當(dāng)網(wǎng)絡(luò)的深度不斷增加的時(shí)候，該偽影會(huì)擴(kuò)散到其他區(qū)域。過(guò)去的辦法是，使用復(fù)用邊框的手段來(lái)移除這些偽影。

最新的一項(xiàng)研究中顯示，卷積層中的反射邊框可以通過(guò)最小化偽影傳播的方式來(lái)進(jìn)一步提高模型的質(zhì)量，但相對(duì)應(yīng)地，時(shí)延成本也會(huì)增加。偽影的案例，和如何移除偽影的示例如下。

追蹤

時(shí)間不一致，會(huì)讓AI處理圖形時(shí)在幀到幀之間存在預(yù)測(cè)性差異，帶來(lái)閃爍（flicker），它的出現(xiàn)會(huì)極大損害用戶的體驗(yàn)。

為了提高時(shí)間一致性，研究人員設(shè)計(jì)了一個(gè)名為「面具偵測(cè)」的檢測(cè)過(guò)程。它從當(dāng)前幀圖像（YUV）中獲取三個(gè)通道，并且還存在第四通道。

對(duì)于第一幀圖像，第四通道只是一個(gè)空矩陣，而對(duì)于隨后的幀數(shù)，第四通道則是對(duì)上一幀的預(yù)測(cè)。

研究人員發(fā)現(xiàn)，這種利用第四通道跟蹤的策略顯著提高了時(shí)間一致性。同時(shí)，他們還采用了最先進(jìn)的跟蹤模型中的一些想法，例如CRVOS和變換不變性CNN等建模策略，來(lái)獲得時(shí)間上較為穩(wěn)定的分割模型。

「面具偵測(cè)」法流程圖

邊界交叉熵

構(gòu)建平滑、清晰的邊界，對(duì)于AR圖像分割的應(yīng)用至關(guān)重要。除了在分割圖像的時(shí)候會(huì)有的標(biāo)準(zhǔn)交叉熵?fù)p失之外，研究人員還必須考慮邊界加權(quán)損失。

研究人員發(fā)現(xiàn)，對(duì)象的內(nèi)部是更容易被分割的，所以Unet模型與其之后大多數(shù)變體的作者都建議使用三元圖加權(quán)損失來(lái)提升模型的質(zhì)量。

然而，三元圖加權(quán)損失有一個(gè)限制，就是三元圖只會(huì)根據(jù)標(biāo)準(zhǔn)實(shí)值來(lái)計(jì)算邊界區(qū)域，因此它對(duì)所有的誤判都不敏感，是一種非對(duì)稱的加權(quán)損失。

受「邊界交并比」的啟發(fā)，研究人員采用交并比的方法為標(biāo)準(zhǔn)實(shí)值和各種預(yù)測(cè)提取邊界區(qū)域，并在這些區(qū)域中建立交叉熵?fù)p失。在邊界交叉熵上訓(xùn)練的模型，很明顯是優(yōu)于基準(zhǔn)的。

如此除了能使最終掩碼輸出中的邊界區(qū)域更清晰之外，應(yīng)用新方法后，新模型的誤報(bào)率更低。

Meta虛擬背景處理器應(yīng)用的新AI模型，其新功能效率更高、更穩(wěn)定，也更多樣化。這些優(yōu)化都會(huì)提高背景濾鏡的質(zhì)量和連貫性，從而提高在產(chǎn)品中的應(yīng)用效果。

舉例來(lái)說(shuō)，優(yōu)化過(guò)的分割模型可以被用來(lái)識(shí)別多人場(chǎng)景和人物的全身，也可以識(shí)別被沙發(fā)、書(shū)桌或餐桌遮擋的全身人像。

除去應(yīng)用在視頻通話以外，通過(guò)虛擬環(huán)境和和現(xiàn)實(shí)世界中的人、物結(jié)合，這項(xiàng)技術(shù)還可以給AR和VR技術(shù)增添新的維度。在建設(shè)元宇宙、營(yíng)造沉浸式體驗(yàn)時(shí)，這項(xiàng)應(yīng)用會(huì)尤其重要。

參考資料：https://ai.facebook.com/blog/creating-better-virtual-backdrops-for-video-calling-remote-presence-and-ar/

Meta開(kāi)發(fā)新虛擬背景處理AI，讓元宇宙中人像不再虛糊