
本文經(jīng)ai新媒體量子位(公眾號 id:qbitai)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處本文約1200字,建議閱讀7分鐘
用上輕量級網(wǎng)絡(luò)+監(jiān)督學(xué)習(xí)。
這不,谷歌又給“親兒子”Pixel 6塞福利了,讓手機(jī)摳圖也能細(xì)節(jié)到頭發(fā)絲。看這效果,原本模糊的頭發(fā)輪廓,咻地一下,就變成了纖毫畢現(xiàn)的樣子!連發(fā)絲之間的縫隙也能精準(zhǔn)摳到。這樣一來,就避免了使用人像模式拍照時人物與虛化背景割裂的情況,讓人物照片的縱深感更加逼真。Alpha遮罩+監(jiān)督學(xué)習(xí)
在介紹最新的方法之前,先來了解一下過去手機(jī)的人像模式拍照到底是怎么實現(xiàn)的。傳統(tǒng)方法是使用二進(jìn)制將圖像分割,然后對分離出的背景進(jìn)行虛化,在視覺上產(chǎn)生一種縱深感,由此也就能更加突出人物主體了。雖然帶來的視覺效果非常明顯,但是在細(xì)節(jié)上的表現(xiàn)還不夠強(qiáng)大。由此,谷歌將常用于電影制作和攝影修圖的Alpha遮罩搬到了手機(jī)上,提出了一個全新的神經(jīng)網(wǎng)絡(luò),名叫“Portrait matting”。其中,主干網(wǎng)絡(luò)是MobileNetV3。這是一個輕量級網(wǎng)絡(luò),特點是參數(shù)少、計算量小、推理時間短,在OCR、YOLO v3等任務(wù)上非常常見,具體結(jié)構(gòu)長這樣:在推理時,Portrait matting首先將RGB圖像和低分辨率的Alpha遮罩作為輸入,用MobileNetV3來預(yù)測分辨率更高的Alpha遮罩。然后再利用一個淺層網(wǎng)絡(luò)和一系列殘差塊,來進(jìn)一步提升Alpha遮罩的精細(xì)度。其中,這個淺層網(wǎng)絡(luò)更加依賴于低層特征,由此可以得到高分辨率的結(jié)構(gòu)特征,從而預(yù)測出每個像素的Alpha透明度。通過這種方式,模型能夠細(xì)化初始輸入時的Alpha遮罩,也就實現(xiàn)了如上細(xì)節(jié)到頭發(fā)絲的摳圖效果。谷歌表示,神經(jīng)網(wǎng)絡(luò)Portrait matting可以使用Tensorflow Lite在Pixel 6 上運行。此外,考慮到使用Alpha遮罩摳圖時,背光太強(qiáng)往往會導(dǎo)致細(xì)節(jié)處理不好。谷歌使用了體積視頻捕捉方案The Relightables來生成高質(zhì)量的數(shù)據(jù)集。這是谷歌在2019年提出的一個系統(tǒng),由一個球形籠子組成,裝有331個可編程LED燈和大約100個用于捕獲體積視頻的攝像機(jī)。相比于一般的數(shù)據(jù)集,這種方法可以讓人物主體的光照情況與背景相匹配,由此也就能呈現(xiàn)更為逼真的效果。而且這種方法還能滿足人像被放置在不同場景中時,光線變化的需求。值得一提的,谷歌還在這一方法中使用了監(jiān)督學(xué)習(xí)的策略。這是因為神經(jīng)網(wǎng)絡(luò)在摳圖上的準(zhǔn)確度和泛化能力還有待提升,而純?nèi)斯?biāo)注的工作量又太大了。所以,研究人員利用標(biāo)記好的數(shù)據(jù)集來訓(xùn)練神經(jīng)網(wǎng)絡(luò),從而大量數(shù)據(jù)中來提高模型泛化能力。
One More Thing
用算法來優(yōu)化攝影效果,其實是谷歌的傳統(tǒng)藝能了。HDR+算法更不必說,曾經(jīng)引發(fā)過大眾熱議。這一功能可以在相機(jī)啟動時、沒有按快門的情況下連續(xù)捕捉圖像,并且會緩存最近保存的9張。這些照片將會與按下快門后的圖像一并處理,最終得到一張最優(yōu)的圖像。同時它還能讓Pixel在夜間模式下拍照時,不用像其他手機(jī)那樣長時間停留。由于提升攝影效果不靠硬件,谷歌也將這些功能整合到一個APP上,適用于各種安卓手機(jī)。感興趣的小伙伴,可以去試玩看看or分享自己的體驗~參考鏈接:
https://ai.googleblog.com/2022/01/accurate-alpha-matting-for-portrait.html版權(quán)申明:內(nèi)容來源網(wǎng)絡(luò),版權(quán)歸原創(chuàng)者所有。除非無法確認(rèn),都會標(biāo)明作者及出處,如有侵權(quán),煩請告知,我們會立即刪除并致歉!