CVPR 2021 Short-video Face Parsing Challenge 季軍方案分享

極市導(dǎo)讀
CVPR 2021 Short-video Face Parsing Challenge 大賽已于6月21日圓滿結(jié)束,為cvpr workshop的競賽單元賽事。本文為來自大連理工大學(xué)的大賽季軍的方案分享:訓(xùn)練一個人臉解析模型,能夠?qū)Χ桃曨l人臉進(jìn)行解析分割。 >>加入極市CV技術(shù)交流群,走在計算機(jī)視覺的最前沿
近日,CVPR 2021 Short-video Face Parsing Challenge 大賽已于6月21日圓滿結(jié)束。為cvpr workshop的競賽單元賽事。大賽由PIC,馬達(dá)智數(shù)和北京航空航天大學(xué)聯(lián)合主辦,極市平臺提供技術(shù)支持的國際性賽事。該賽事主要關(guān)注可以應(yīng)用到各場景中的短視頻人臉解析技術(shù)。
本次大賽報名人數(shù)吸引海內(nèi)外共300多支團(tuán)隊參與大賽,相比往期cvpr大賽,報名人數(shù)有較大增長。本次大賽的前三名分別由騰訊、北郵模式識別實驗室及大連理工大學(xué)獲得。我們邀請到了本次大賽的第三名獲獎團(tuán)隊分享他們的工作。
賽題介紹
短視頻涵蓋技能分享、幽默風(fēng)趣、時尚潮流、社會熱點、街頭采訪、公益教育、廣告創(chuàng)意等話題,使得其在社交媒體平臺迅速流行起來。人臉解析是像素級的在人臉肖像中提取語義成分(例如嘴巴、眼睛和鼻子)。人臉解析可以提供比人臉輪廓和人臉關(guān)鍵點更加精細(xì)的信息,是一項更具挑戰(zhàn)性的任務(wù)。
在本次比賽中,我們將訓(xùn)練一個人臉解析模型,能夠?qū)Χ桃曨l人臉進(jìn)行解析分割。評價指標(biāo)為 Davis J/F score and temporal decay。
賽題分析
本次比賽的數(shù)據(jù)集由馬達(dá)智數(shù)從數(shù)據(jù)庫中挑選了總計1890段視頻,每段視頻約為20張圖像。每段視頻每秒抽取一幀,并對所有圖像進(jìn)行了采樣和標(biāo)注,劃分為訓(xùn)練集、驗證集和測試集三部分。需要劃分的類別總共有17類(不含背景類)。經(jīng)過對圖像數(shù)據(jù)的分析可以總結(jié)出該數(shù)據(jù)集有以下特點:
圖像人像區(qū)域占比較小
部分圖像中的目標(biāo)區(qū)域在整體圖像中的占比較小,直接進(jìn)行分割的話,一方面會引入過多的背景信息,另一方面隨著模型的下采樣,目標(biāo)區(qū)域的信息會造成嚴(yán)重的丟失。
一些圖像只有部分人臉 數(shù)據(jù)集的場景覆蓋范圍較廣,部分圖像中存在只有部分人臉的情況。
數(shù)據(jù)存在一定的標(biāo)注錯誤 數(shù)據(jù)集中對于人臉的左右眼,左右眼影,左右耳,左右眉毛分別標(biāo)注,數(shù)據(jù)集中存在少量的標(biāo)注錯誤。
部分圖像質(zhì)量較差 部分?jǐn)?shù)據(jù)存在分辨率較低,亮度度過高/低,運(yùn)動模糊和失焦等問題。
解決方案
考慮到人像區(qū)域占比小的問題,我們先將人臉區(qū)域裁剪出來然后進(jìn)行分割,減少背景帶來的噪聲。因此我們采用了一個目標(biāo)檢測加語義分割的兩階段的做法來完成此次任務(wù),使用PaddleDetection和PaddleSeg作為codebase。

第一階段:目標(biāo)檢測裁剪人臉
我們訓(xùn)練一個目標(biāo)檢測器來裁剪人臉,因為我們只需要能把人臉檢測出來,不需要檢的很準(zhǔn),只需要盡可能的保證人臉都能夠檢測出來就可以,即需要一個高召回率。
我們利用數(shù)據(jù)集的標(biāo)注mask,構(gòu)造出人臉區(qū)域的邊界框數(shù)據(jù)集,檢測模型采用Cascade-RCNN-DCN-ResNet50-FPN,采用1x訓(xùn)練策略,數(shù)據(jù)增強(qiáng)使用水平翻轉(zhuǎn),其他都采用常規(guī)設(shè)置,沒有任何trick。
將檢測出的目標(biāo)區(qū)域裁剪出來,作為下一階段的輸入數(shù)據(jù)。
第二階段:人臉語義分割
數(shù)據(jù)增廣
1)在做分割的時候大家都會加翻轉(zhuǎn),但是對于這個任務(wù)而言,人臉是鏡像對稱的,如果圖像水平翻轉(zhuǎn)后,mask也跟著翻轉(zhuǎn)就會造成歧義 。比如左眼翻轉(zhuǎn)到右眼,但是由于鏡像對稱,它的label應(yīng)該變成右眼,所以我們再水平翻轉(zhuǎn)后再把鏡像的部件翻轉(zhuǎn)回來。
2)數(shù)據(jù)集中有部分人臉的情況,因此對完整人臉區(qū)域從上下左右四個方向,以1/3、2/3進(jìn)行隨機(jī)裁剪。
3)另外采用了隨機(jī)小角度旋轉(zhuǎn)和色彩抖動。
模型設(shè)計
在語義分割階段,我們的Baseline為OCRNet-SEHRNet-w48,為了優(yōu)化邊緣分割結(jié)果引入了邊緣監(jiān)督,我們在Baseline的頭部添加了一個和OCRHead并行的EdgeHead,利用邊緣信息進(jìn)一步加強(qiáng)模型的分割精度。
OCRHead就和原始OCR一致,我們嘗試過加入Panotic-FPN,但效果不好,就直接用原始的OCR了。我們主要設(shè)計了一個EdgeHead,在原有基礎(chǔ)上拉出一個分支,去分割邊緣,再將edge feature 和 seg feature 融合送入Decoder分割。另外,我們還采用Edge Attention Loss來加強(qiáng)模型再邊緣處的分割精度,Edge Attention Loss指的是在計算分割loss的時候,依據(jù)生成的邊緣mask,只計算在邊緣區(qū)域的多分類損失。我們還參考了Matting任務(wù)的思想,在最后的decoder輸出,上采樣到原尺寸后,在full resolution的尺寸上加入幾層DenseLayer去refine分割結(jié)果。
損失函數(shù)設(shè)計
模型的損失構(gòu)成如下式所示,總體分為兩部分, 和 為分割監(jiān)督損 失, 和 為邊緣監(jiān)督損失。
其中, 為 HRNet 的輸出進(jìn)行粗分割的損失, EANet 頭部輸出進(jìn)行分割的損失。分割監(jiān)督損失為 CrossEntropy Loss 和 LovaszSoftmax Loss. 為 BCE Loss, 為 Edge Attention Loss, 如上述所示,只計算邊緣區(qū) 域的多分類損失。
模型集成 我們評估了將edge feature與seg feature的Add和Cat的融合方式,實驗表明,Cat的融合方式性能更好。
我們簡單的進(jìn)行了三個模型的硬投票。三個模型分別是 OCRNet,EANet 和 EANet 。其中 OCRNet 為我們的 Baseline, Add 和 Cat 表示不同的融合方式的 EANet。
一些Tricks
1)使用大尺寸進(jìn)行推理,我們在訓(xùn)練時采用448 * 448的尺寸,在推理時采用480 * 480的尺寸,小尺寸訓(xùn)練,大尺寸推理。
2)我們使用PaddleSeg實現(xiàn)的模型,但是我們發(fā)現(xiàn),PaddleSeg在推理階段是先對模型輸出的logit取argmax獲得hard label然后再用最近鄰插值恢復(fù)到原圖,這樣的推理模式在大尺寸圖上會產(chǎn)生嚴(yán)重的鋸齒,因此我們改進(jìn)推理方式,先對logits雙線性插值到原圖獲得soft logits然后再取argmax得到最終的分割結(jié)果,這個方式提升了一個點
后處理上我們還采用GrabCut,利用得到的分割結(jié)果作為語義進(jìn)一步refine。下圖為使用GrabCut的對比圖。
實驗結(jié)果


總結(jié)
除了上述的方案,我們還進(jìn)行了嘗試了Mutli-Scale,Pseudo-Labelling等,骨干模型上嘗試過SwinTransformer + OCR等,分割范式嘗試過MaskRCNN等,但并沒有帶來明顯的性能提升。另外,我們嘗試過利用幀間信息,將上一幀的預(yù)測mask與當(dāng)前幀的圖像拼接起來送入模型分割,該方法在val上有接近兩個點的提升,但在test上并沒有有效的提升,可能的原因是由于某一幀分割不準(zhǔn),造成誤差傳播到后續(xù)的幀上了。
團(tuán)隊介紹
團(tuán)隊成員均來自于大連理工大學(xué),團(tuán)隊成員分別為:劉瀟、司曉飛、謝江濤。
如果覺得有用,就請分享到朋友圈吧!
公眾號后臺回復(fù)“CVPR21檢測”獲取CVPR2021目標(biāo)檢測論文下載~

# CV技術(shù)社群邀請函 #
備注:姓名-學(xué)校/公司-研究方向-城市(如:小極-北大-目標(biāo)檢測-深圳)
即可申請加入極市目標(biāo)檢測/圖像分割/工業(yè)檢測/人臉/醫(yī)學(xué)影像/3D/SLAM/自動駕駛/超分辨率/姿態(tài)估計/ReID/GAN/圖像增強(qiáng)/OCR/視頻理解等技術(shù)交流群
每月大咖直播分享、真實項目需求對接、求職內(nèi)推、算法競賽、干貨資訊匯總、與 10000+來自港科大、北大、清華、中科院、CMU、騰訊、百度等名校名企視覺開發(fā)者互動交流~

