<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          Meta開(kāi)發(fā)新虛擬背景處理AI,讓元宇宙中人像不再虛糊

          共 4033字,需瀏覽 9分鐘

           ·

          2022-02-16 20:24





          ??新智元報(bào)道??

          編輯:袁榭 拉燕

          【新智元導(dǎo)讀】為了讓廣大視頻通話用戶體驗(yàn)更佳,也讓更多AR、VR用戶青睞元宇宙,Meta的AI研發(fā)團(tuán)隊(duì)最近開(kāi)發(fā)了能更好處理虛擬背景的AI模型。
          自新冠疫情開(kāi)始以來(lái),大部分人都已經(jīng)習(xí)慣了在和朋友、同事和家人遠(yuǎn)程視頻通話。視頻聊天的時(shí)候都使用過(guò)虛擬背景。
          ?
          用戶在視頻時(shí)變換背景,能賦予其在虛擬影像中掌控身邊環(huán)境的權(quán)利,減少因環(huán)境帶來(lái)的分心,還能保護(hù)隱私,甚至還能讓用戶在視頻里看起來(lái)更有精氣神。
          ?
          ?
          但有些時(shí)候虛擬背景呈現(xiàn)出來(lái)的效果可能和用戶需求的不一樣。大部分人都經(jīng)歷過(guò)在移動(dòng)的時(shí)候虛擬背景把人臉擋住了,或者是虛擬背景無(wú)法識(shí)別手和桌子之間的邊界。
          ?
          最近,Meta利用強(qiáng)化的AI模型來(lái)分割圖像,優(yōu)化了背景模糊功能,虛擬背景功能和其它Meta產(chǎn)品服務(wù)的AR效果。這樣可以更好的分辨照片和視頻中的不同部分。
          ?
          來(lái)自Meta AI、現(xiàn)實(shí)實(shí)驗(yàn)室和Meta其它部門的研究人員和工程師,組成了一個(gè)跨部門小組,最近開(kāi)發(fā)了新的圖像分割模型,已用在Portal、Messenger和Instagram等很多平臺(tái)的實(shí)時(shí)視頻通話和Spark AR的增強(qiáng)現(xiàn)實(shí)應(yīng)用中。
          ?
          該小組還優(yōu)化了雙人圖像分割模型,已經(jīng)在Instagram和Messenger上應(yīng)用了。
          ?

          如何讓AI改進(jìn)虛擬背景

          ?
          該小組在推進(jìn)圖像分割的優(yōu)化過(guò)程中,主要有以下三大挑戰(zhàn):
          ?
          1.要讓AI學(xué)會(huì)在不同的環(huán)境下也能正常識(shí)別。比如說(shuō)環(huán)境偏暗、人物膚色不同、人物膚色接近背景色、人物不常見(jiàn)的體態(tài)(比方說(shuō)彎腰系鞋帶,或者伸懶腰)、人物被遮擋、人物在移動(dòng)等等。
          ?
          2.要讓邊緣的位置看起來(lái)更加的流暢、穩(wěn)定、連貫。這些特征在目前的研究中討論較少,但是用戶反饋研究表明,這些因素極大影響人們?cè)谑褂酶黝惐尘靶Ч麜r(shí)的體驗(yàn)。
          ?
          3.要確保模型能夠在全世界幾十億部智能手機(jī)中都能靈活、高效的運(yùn)作。只在一小部分最先進(jìn)的手機(jī)中才能使用是不行的,這類手機(jī)往往搭載最新款的處理器。

          而且,該模型必須能支持各種長(zhǎng)寬比的手機(jī),這樣才可以在筆記本電腦、Meta的便攜式視頻通話設(shè)備和人們的手機(jī)的肖像模式、橫向模式中都保證模型的正常使用。
          ?
          用Meta的AI模型處理后的虛擬背景示例,左為頭身像,右為全身像。
          ?

          真實(shí)世界個(gè)人圖像分割模型的挑戰(zhàn)

          ?
          圖像分割的概念不難理解,但獲得高精確度的個(gè)人圖像分割結(jié)果卻很困難。要有好結(jié)果的話,處理圖像的模型必須一致性極高、延遲度極低。

          不正確的分割圖像輸出,會(huì)導(dǎo)致各種讓使用虛擬背景的視訊用戶走神的效果。更重要的是,圖像分割錯(cuò)誤會(huì)導(dǎo)致用戶的真實(shí)物理環(huán)境發(fā)生不必要的暴露。
          ?
          因?yàn)檫@些,圖像分割模型的精度必須達(dá)到交并比90%以上,才能進(jìn)入實(shí)際的市場(chǎng)產(chǎn)品應(yīng)用。交并比是衡量圖像分割預(yù)測(cè)值與基底真實(shí)值重疊部分比值的常用標(biāo)準(zhǔn)度量。
          ?
          由于使用場(chǎng)景與實(shí)例復(fù)雜度之海量,Meta的圖像分割模型要達(dá)到的交并比,最后10%完成起來(lái)遠(yuǎn)比之前的所有部分都更難。

          Meta的軟件工程師們發(fā)現(xiàn),當(dāng)交并比已達(dá)到90%時(shí),圖像的可衡量指標(biāo)趨于飽和,在時(shí)間一致性與空間穩(wěn)定性上難有更好提升。
          ?
          為了克服此障礙,Meta開(kāi)發(fā)了一個(gè)基于視頻的衡量系統(tǒng),與其他幾個(gè)指標(biāo)一起來(lái)解決這額外的難度。
          ?

          為真實(shí)世界應(yīng)用開(kāi)發(fā)AI訓(xùn)練與衡量策略

          ?
          AI模型只能從已交付的數(shù)據(jù)集里學(xué)習(xí)。所以想要訓(xùn)練出高精度的圖像分割模型,光是簡(jiǎn)單錄入一大堆視頻用戶在明亮室內(nèi)正襟危坐的視頻樣本是不行的。樣本類型得盡可能貼近真實(shí)世界地豐富。
          ?
          Meta AI實(shí)驗(yàn)室用了自家的ClusterFit模型,來(lái)從不同性別、膚色、年齡、身體姿勢(shì)、動(dòng)作、復(fù)雜背景、多人數(shù)的海量樣本中提取可用數(shù)據(jù)。
          ?
          靜態(tài)圖像的度量值并不準(zhǔn)確反映模型實(shí)時(shí)處理動(dòng)態(tài)視頻的質(zhì)量,因?yàn)閷?shí)時(shí)模型通常要有依賴時(shí)間信息的追蹤模式。為了測(cè)量模型的實(shí)時(shí)質(zhì)量,Meta AI實(shí)驗(yàn)室設(shè)計(jì)了當(dāng)模型預(yù)測(cè)出畫面時(shí)、計(jì)算每幀畫面的各指標(biāo)的定量性視頻評(píng)估架構(gòu)。
          ?
          與論文中的理想狀況不同,Meta的個(gè)人圖像分割模型是被日常的海量用戶評(píng)判性能。如果有鋸齒、扭曲、或其他不滿意的效果出現(xiàn),其他性能比基準(zhǔn)值好出再多也沒(méi)用。
          ?
          所以Meta AI實(shí)驗(yàn)室直接詢問(wèn)自家產(chǎn)品用戶對(duì)圖像分割效果的評(píng)價(jià)。結(jié)果是邊緣不平滑和模糊對(duì)用戶體驗(yàn)影響最大。
          ?
          針對(duì)此需求,Meta AI實(shí)驗(yàn)室在視頻評(píng)估架構(gòu)中,另添加了「邊緣交并比」這一新指標(biāo)。當(dāng)畫面的普通交并比超過(guò)90%、幾近飽和時(shí),邊緣交并比就是更需注意的指標(biāo)了。
          ?
          而且,畫面時(shí)間一致性不夠,會(huì)帶來(lái)圖形邊緣的混雜效果,這也會(huì)影響用戶體驗(yàn)。Meta AI實(shí)驗(yàn)室用兩種方法來(lái)測(cè)量畫面的時(shí)間一致性。
          ?
          首先,Meta研究人員假設(shè)時(shí)點(diǎn)緊鄰的兩幀畫面,圖像基本一致。所以任何模型上的預(yù)測(cè)差異都代表最終畫面會(huì)有時(shí)間不一致。
          ?
          其次,Meta研究人員從時(shí)點(diǎn)緊鄰的兩幀畫面的前景動(dòng)作入手。前景里的光流能讓模型從第N幀的預(yù)測(cè)值推進(jìn)到第N+1幀。然后研究者就將此預(yù)測(cè)值與真實(shí)的N+1幀數(shù)值對(duì)照。
          ?
          這兩種方法中測(cè)算出的差異度都以交并比這一度量來(lái)體現(xiàn)。
          ?
          Meta AI實(shí)驗(yàn)室使用了來(lái)自30種的100余類人群的1100個(gè)視頻樣本來(lái)輸入AI模型,分類包括所有人類表征性別與菲茨帕特里克量表上的膚色色調(diào)。
          ?
          分析結(jié)果是,Meta的AI模型在所有人群子分類的視像處理效果上都有差不多的顯著準(zhǔn)確性,交并比與置信度都在95%以上,各分類間交并比差異基本都在0.5個(gè)百分點(diǎn)左右,性能優(yōu)異可靠。
          ?
          ?
          不同膚色與性別人群的視頻,Meta的AI模型處理后的交并比數(shù)據(jù)
          ?

          優(yōu)化模型

          ?
          架構(gòu)
          ?
          Meta研究人員使用FBNet V3作為優(yōu)化模型的主干。這是一種由多層混合形成的解編碼結(jié)構(gòu),每一層都有相同的空間分辨率。

          研究人員設(shè)計(jì)了一種配備輕量級(jí)解碼器加重量級(jí)編碼器的架構(gòu),這樣可以擁有比全對(duì)稱設(shè)計(jì)的架構(gòu)更好的性能。生成的架構(gòu)由神經(jīng)架構(gòu)搜索支撐,并對(duì)設(shè)備上運(yùn)行的速度進(jìn)行了高度優(yōu)化。
          ?
          ?
          語(yǔ)義分割模型架構(gòu)。綠色的長(zhǎng)方形代表卷積層,黑色的圓圈代表各層融合點(diǎn)。
          ?
          數(shù)據(jù)學(xué)習(xí)
          ?
          研究人員使用離線大容量的PointRend模型為未注釋的數(shù)據(jù)生成地一個(gè)偽標(biāo)準(zhǔn)實(shí)值標(biāo)簽,以此來(lái)增加訓(xùn)練的數(shù)據(jù)量。同樣地,研究者使用師-生半監(jiān)督模型來(lái)消除偽標(biāo)簽中的偏差。
          ?
          長(zhǎng)寬比相關(guān)的重新采樣
          ?
          傳統(tǒng)的深度學(xué)習(xí)模型會(huì)將圖像重新采樣成一個(gè)小正方形,輸入到神經(jīng)網(wǎng)絡(luò)里。由于重新采樣,圖像會(huì)出現(xiàn)畸變。并且由于每幀圖像具有不同的長(zhǎng)寬比,因此畸變的幅度也會(huì)不相同。
          ?
          畸變的存在、畸變程度的不同,會(huì)導(dǎo)致神經(jīng)網(wǎng)絡(luò)AI學(xué)習(xí)到不穩(wěn)健的低層次特征。這種畸變引起的限制在圖像分割應(yīng)用中會(huì)被放大。
          ?
          如此一來(lái),如果大多數(shù)訓(xùn)練圖像都是肖像比例,那么該模型在實(shí)景圖像和視頻上的表現(xiàn)要差得多。

          為了解決這個(gè)問(wèn)題,研究團(tuán)隊(duì)采用了 Detectron 2 的長(zhǎng)寬比相關(guān)的二次采樣方法,該方法將具有相似長(zhǎng)寬比的圖像分組,并將它們第二次采樣到相同的大小。

          左為長(zhǎng)寬比不調(diào)帶來(lái)畸變的基線圖像,右為AI模型處理后的改進(jìn)圖像
          ?
          自定義補(bǔ)邊框
          ?
          長(zhǎng)寬比相關(guān)的二次采樣法需要將具有相似長(zhǎng)寬比的圖像補(bǔ)邊框,但常用的零補(bǔ)框方法會(huì)產(chǎn)生偽影(artifact)。
          ?
          更糟糕的是,當(dāng)網(wǎng)絡(luò)的深度不斷增加的時(shí)候,該偽影會(huì)擴(kuò)散到其他區(qū)域。過(guò)去的辦法是,使用復(fù)用邊框的手段來(lái)移除這些偽影。

          最新的一項(xiàng)研究中顯示,卷積層中的反射邊框可以通過(guò)最小化偽影傳播的方式來(lái)進(jìn)一步提高模型的質(zhì)量,但相對(duì)應(yīng)地,時(shí)延成本也會(huì)增加。偽影的案例,和如何移除偽影的示例如下。
          ?
          ?
          追蹤
          ?
          時(shí)間不一致,會(huì)讓AI處理圖形時(shí)在幀到幀之間存在預(yù)測(cè)性差異,帶來(lái)閃爍(flicker),它的出現(xiàn)會(huì)極大損害用戶的體驗(yàn)。
          ?
          為了提高時(shí)間一致性,研究人員設(shè)計(jì)了一個(gè)名為「面具偵測(cè)」的檢測(cè)過(guò)程。它從當(dāng)前幀圖像(YUV)中獲取三個(gè)通道,并且還存在第四通道。
          ?
          對(duì)于第一幀圖像,第四通道只是一個(gè)空矩陣,而對(duì)于隨后的幀數(shù),第四通道則是對(duì)上一幀的預(yù)測(cè)。

          研究人員發(fā)現(xiàn),這種利用第四通道跟蹤的策略顯著提高了時(shí)間一致性。同時(shí),他們還采用了最先進(jìn)的跟蹤模型中的一些想法,例如CRVOS和變換不變性CNN等建模策略,來(lái)獲得時(shí)間上較為穩(wěn)定的分割模型。
          ?

          「面具偵測(cè)」法流程圖
          ?
          邊界交叉熵
          ?
          構(gòu)建平滑、清晰的邊界,對(duì)于AR圖像分割的應(yīng)用至關(guān)重要。除了在分割圖像的時(shí)候會(huì)有的標(biāo)準(zhǔn)交叉熵?fù)p失之外,研究人員還必須考慮邊界加權(quán)損失。
          ?
          研究人員發(fā)現(xiàn),對(duì)象的內(nèi)部是更容易被分割的,所以Unet模型與其之后大多數(shù)變體的作者都建議使用三元圖加權(quán)損失來(lái)提升模型的質(zhì)量。
          ?
          然而,三元圖加權(quán)損失有一個(gè)限制,就是三元圖只會(huì)根據(jù)標(biāo)準(zhǔn)實(shí)值來(lái)計(jì)算邊界區(qū)域,因此它對(duì)所有的誤判都不敏感,是一種非對(duì)稱的加權(quán)損失。
          ?
          受「邊界交并比」的啟發(fā),研究人員采用交并比的方法為標(biāo)準(zhǔn)實(shí)值和各種預(yù)測(cè)提取邊界區(qū)域,并在這些區(qū)域中建立交叉熵?fù)p失。在邊界交叉熵上訓(xùn)練的模型,很明顯是優(yōu)于基準(zhǔn)的。
          ?
          如此除了能使最終掩碼輸出中的邊界區(qū)域更清晰之外,應(yīng)用新方法后,新模型的誤報(bào)率更低。
          ?

          ?
          ?
          Meta虛擬背景處理器應(yīng)用的新AI模型,其新功能效率更高、更穩(wěn)定,也更多樣化。這些優(yōu)化都會(huì)提高背景濾鏡的質(zhì)量和連貫性,從而提高在產(chǎn)品中的應(yīng)用效果。
          ?
          舉例來(lái)說(shuō),優(yōu)化過(guò)的分割模型可以被用來(lái)識(shí)別多人場(chǎng)景和人物的全身,也可以識(shí)別被沙發(fā)、書(shū)桌或餐桌遮擋的全身人像。
          ?
          除去應(yīng)用在視頻通話以外,通過(guò)虛擬環(huán)境和和現(xiàn)實(shí)世界中的人、物結(jié)合,這項(xiàng)技術(shù)還可以給AR和VR技術(shù)增添新的維度。在建設(shè)元宇宙、營(yíng)造沉浸式體驗(yàn)時(shí),這項(xiàng)應(yīng)用會(huì)尤其重要。

          ?

          ?

          參考資料:https://ai.facebook.com/blog/creating-better-virtual-backdrops-for-video-calling-remote-presence-and-ar/



          瀏覽 49
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  国产精品MV视频 | 欧美18网站 | 天堂网2018| 99青草在线免费观看视频 | 一本大道中文字幕无码29 |