<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          視頻也能P!谷歌CVPR 2021最新視頻P圖模型omnimatte

          共 3238字,需瀏覽 7分鐘

           ·

          2021-09-07 00:44

          點(diǎn)擊上方視學(xué)算法”,選擇加"星標(biāo)"或“置頂

          重磅干貨,第一時間送達(dá)

          來源:Google AI 、新智元

          【導(dǎo)讀】你是否還在受視頻P圖不能分割主體的苦?是否還在被人說P圖不真實(shí),影子都沒有?谷歌在CVPR 2021發(fā)布的omnimatte將徹底解決你的煩惱,只需一鍵操作,視頻立刻分為背景和前景主體,影子水花都能摳,多個蒙版,視頻想怎么P就怎么P!

          圖像和視頻編輯操作通常依賴于精確的蒙版(matte)操作,即分離前景和背景并能夠合成圖像。
           
          雖然最新的計算機(jī)視覺技術(shù)可以為自然圖像和視頻生成高質(zhì)量的蒙版,允許合成景深、編輯和合成圖像,或者從圖像中移除背景等應(yīng)用場景。
           
           
          最基本的核心邏輯目前CV技術(shù)仍無法做到:也就是被遮蓋或添加的物體可能在新圖像中有新的場景效果,例如陰影、鏡面反射或煙霧,這些通常都沒有被添加到合成圖像中。
           
          這也是PS圖片合成和鑒別中特別需要注意的,不然就會被人說P圖太假了。
           
          Google在CVPR 2021上發(fā)表了一篇文章,主要描述了一種新的蒙版生成方法omnimatte,能夠利用分層神經(jīng)渲染技術(shù)(layered neural rendering)將視頻分層,能夠把包括主體在內(nèi)的所有環(huán)境交互的效果都給提取出來。
           
          https://ai.googleblog.com/2021/08/introducing-omnimattes-new-approach-to.html

          一般的分割模型只能夠提取場景中的主體的mask,例如,一個人和一條狗,但Google提出的方法可以分離和提取與主體相關(guān)的其他細(xì)節(jié),包括投射在地面上的陰影。
           
           
          與分割遮罩(segmentation masks)不同的是,omnimatte能夠捕捉部分透明的柔和效果,比如反射、飛濺或輪胎煙霧。與傳統(tǒng)蒙版一樣,omnimatte是 RGBA 圖像,包括一個alpha 通道。
           
          omnimatte可以在大部分圖像或視頻編輯工具進(jìn)行操作,并且可以在任何使用傳統(tǒng)蒙版的地方使用,例如,將文本插入視頻中的煙跡下,效果真是牛。
           
          為了生成omnimatte,首先將輸入的視頻分成一組層: 每一個層用于一個移動的主體或是用于靜止的背景物體。例如下圖中可以看到,有一個圖層用于人,一個圖層用于狗,還有一個圖層用于背景,當(dāng)合并在一起使用傳統(tǒng)的阿爾法混合方法,這些層可以重新合成這個輸入視頻。
           
           
          除了能夠重新合成視頻,層分解必須能夠在每一層捕獲正確的效果。例如,如果人的陰影出現(xiàn)在狗的圖層中,合并后的圖層雖然仍然能夠重新合成輸入視頻,但是在人和狗之間插入一個額外的元素會產(chǎn)生一個明顯的錯誤。
           
          所以這個難點(diǎn)在于找到一個分解的地方,其中每個主體的層只捕捉主體的效果,從而才能產(chǎn)生一個真正的omnimatte。
           
          解決方案是應(yīng)用Google 先前開發(fā)的分層神經(jīng)渲染方法來訓(xùn)練一個卷積神經(jīng)網(wǎng)絡(luò)分割模板來將主體的分割遮罩和背景噪聲圖像映射到一個omnimatte圖像中。
           
          由于 CNN 的結(jié)構(gòu),它們很自然地傾向于學(xué)習(xí)圖像效果之間的相關(guān)性,而且效果之間的相關(guān)性越強(qiáng),CNN 就越容易學(xué)習(xí)。
           
          例如在上面的視頻中,人和他們的影子之間的空間關(guān)系,以及狗和它的影子之間的空間關(guān)系,在他們從右向左走的過程中保持相似。人和狗的影子或者狗和人的影子之間的關(guān)系變化更大(因此,相關(guān)性更弱)。CNN 首先學(xué)習(xí)更強(qiáng)的相關(guān)性,然后才能正確地分解層。
           
          在預(yù)處理中,用戶選擇主體并為每個主體指定一個層。使用現(xiàn)成的分割網(wǎng)絡(luò)(如 MaskRCNN)提取每個主體的分割遮罩,并使用標(biāo)準(zhǔn)的攝像機(jī)穩(wěn)定工具找到相對于背景的攝像機(jī)轉(zhuǎn)換。
           
          在背景參考幀中定義隨機(jī)噪聲圖像,并利用攝像機(jī)變換進(jìn)行采樣,生成每幀噪聲圖像。噪聲圖像提供是隨機(jī)但一致的圖像特征,隨著時間的推移,能夠?yàn)?CNN 學(xué)習(xí)重建背景顏色提供一個自然的輸入。
           
          渲染的 CNN 采用分割遮罩和每幀噪聲圖像作為輸入,生成 RGB 彩色圖像和 alpha 圖像,用來捕獲每一層的透明度。這些輸出通過傳統(tǒng)的 alpha 混合來產(chǎn)生輸出幀。
           
          CNN 從隨機(jī)初始化權(quán)重開始訓(xùn)練,通過尋找并關(guān)聯(lián)蒙版中未捕捉到的效果(例如陰影、反射或煙霧)與給定的前景層來重建輸入幀,并確保主體的 alpha 大致包括分割蒙版。為了確保前景層只捕獲前景元素而不捕獲靜止背景元素,在前景層 alpha 上也應(yīng)用了稀疏損失(sparsity loss)。
           
           
          并且還需要為每個視頻訓(xùn)練一個新的渲染網(wǎng)絡(luò)。由于網(wǎng)絡(luò)只需要重建單一的輸入視頻,除了分離每個主體的影響,它還能夠捕捉精細(xì)結(jié)構(gòu)和快速運(yùn)動。例如在步行的圖片中,omnimatte能夠捕獲包括投射在公園長椅板條上的影子。
           
           
          在網(wǎng)球的例子,網(wǎng)球的的小陰影,甚至網(wǎng)球都能夠被捕獲。
           
           
          在足球的例子中,運(yùn)動員和球的陰影被分解為合適的層,但是當(dāng)運(yùn)動員的腳被球擋住時有一個小的錯誤。
           
           
          這個基本模型已經(jīng)能夠運(yùn)行的非常666了,但是還可以通過增加 CNN 的輸入來改進(jìn)結(jié)果,例如增加額外的緩沖區(qū),如光流或紋理坐標(biāo)等。
           
          omnimate的應(yīng)用場景也很多,例如可以刪除指定的主體,只需從合成中刪除他們的層,也可以復(fù)制某個物體,也只需要在合成中復(fù)制它們的圖層即可。
           
          下圖演示了如何刪除和復(fù)制主體,視頻已經(jīng)被分解為一個omnimatte,并且馬被復(fù)制了幾次以產(chǎn)生頻閃攝影效果,并且可以看到馬投射在地面和障礙物上的陰影能夠被正確捕捉。
           
           
          一個更強(qiáng)大的應(yīng)用場景是重新計時(retime)這個主體。時間操縱在電影中被廣泛使用,但是通常需要為每個主體單獨(dú)拍攝,并且有一個可控制的拍攝環(huán)境。
           
          通過對omnimatte的分解,僅僅通過獨(dú)立地改變每一層的播放速率,就可以使日常視頻產(chǎn)生重定時效果。
           
          由于omnimatte是標(biāo)準(zhǔn)的 RGBA 圖像,這種重新定時編輯可以使用傳統(tǒng)的視頻編輯軟件。
           
          例如下面的三個主體被分解為三個層,通過簡單地調(diào)整圖層的回放速度,這些小孩兒最初的不同步的跳躍就能對齊,并且從水花的濺落和反射中也看不出修改的痕跡。
           
           
          最后依然是道德性的說明,Google 提醒研究人員應(yīng)該意識到即使是簡單的重新排列也能顯著改變視頻的效果,并且研究人員應(yīng)該對任何操作圖像的技術(shù)的可能應(yīng)用場景負(fù)責(zé),因?yàn)樗赡鼙粸E用來產(chǎn)生虛假和誤導(dǎo)性的信息。
           
          omnimate目前的工作也還有改進(jìn)空間,例如它要求相機(jī)的位置是固定的,并且系統(tǒng)只支持可以被建模為全景的背景。當(dāng)攝像機(jī)位置移動時,全景模型不能準(zhǔn)確捕捉整個背景,一些背景元素可能會打亂前景層的提取。
           
          如果要處理通用的相機(jī)運(yùn)動,如走過一個房間或街道,則需要一個3 d 背景模型。在運(yùn)動物體和運(yùn)動效果下重建三維場景仍然是一個困難的研究挑戰(zhàn)。
           
          并且理論上CNN學(xué)習(xí)相關(guān)性的能力是強(qiáng)大的,但仍然不可解釋,某些應(yīng)該能分解出來的層卻無法分解,雖然現(xiàn)在能夠人工編輯抽取,但最好的方法還是好好解決CNN的問題,提升模型。



          參考資料:

          https://ai.googleblog.com/2021/08/introducing-omnimattes-new-approach-to.html

          努力分享優(yōu)質(zhì)的計算機(jī)視覺相關(guān)內(nèi)容,歡迎關(guān)注:


          點(diǎn)個在看 paper不斷!

          瀏覽 54
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  亚洲天堂2016 | 日本插逼视频 | 婷婷爱综合激情 | 亚洲免费婷婷 | 91扒开双腿猛进入jk白丝 |