遮擋人臉問(wèn)題 | 詳細(xì)解讀Attention-Based方法解決遮擋人臉識(shí)別問(wèn)題(附論文下載)


1簡(jiǎn)介
在非約束性環(huán)境(如大量人群)中捕獲的人臉照片,仍然對(duì)當(dāng)前的人臉識(shí)別方法構(gòu)成挑戰(zhàn),因?yàn)槿四樈?jīng)常被前景中的物體或人遮擋。然而,很少有研究涉及到識(shí)別部分面孔的任務(wù)。

本文提出了一種新的遮擋人臉識(shí)別方法,能夠識(shí)別不同遮擋區(qū)域的人臉。通過(guò)將一個(gè)ResNet中間特征映射的attentional pooling與一個(gè)單獨(dú)的聚合模塊相結(jié)合來(lái)實(shí)現(xiàn)這一點(diǎn)。為了保證attention map的多樣性,并處理被遮擋的部分,作者進(jìn)一步對(duì)遮擋Face的常見(jiàn)損失函數(shù)進(jìn)行了調(diào)整。實(shí)驗(yàn)表明,在多個(gè)benchmark下本文方法的性能優(yōu)于所有baseline。
本文工作貢獻(xiàn)可以概括為以下幾點(diǎn):
以ResNet為例,利用attentional pooling和聚合網(wǎng)絡(luò)提出了一種新的擴(kuò)展,并使用2種適用于部分FR的常見(jiàn)損失函數(shù)進(jìn)行訓(xùn)練;
在多個(gè)局部FR的詳盡分析中表明,本文的改進(jìn)大大提高了識(shí)別性能。
2方法
2.1 Network Architecture

下圖描述了partial FR方法,分為3個(gè)模塊:Extract、Attend和Aggregate。
Extract模塊從輸入圖像中提取特征圖和attention maps ,其中K表示attention maps的個(gè)數(shù)。
在Attend模塊中,使用重新校準(zhǔn)的attention maps將特征圖合并為K個(gè)中間特征向量。
Aggregate模塊將這些中間特征向量映射到聯(lián)合特征空間中,得到最終特征向量$f\in R^{256}。

1 Extract
受Comparator networks啟發(fā),作者使用了一個(gè)刪減的ResNet-50架構(gòu),它在第4個(gè)block之后結(jié)束。因此,只進(jìn)行了3次空間降采樣,得到了大小為20×20的特征圖,其中區(qū)域仍然具有很好的可區(qū)分性。與Comparator networks不同的是,在第3個(gè)block之后分離ResNet,以允許2個(gè)分支專注于各自的任務(wù)。而在第4個(gè)block之后直接得到F,然后再加上一個(gè)1×1的卷積以及ReLU激活函數(shù)獲取a。具體架構(gòu)總結(jié)如表1所示。

生成的attention maps應(yīng)滿足以下2個(gè)關(guān)鍵屬性:
attention maps應(yīng)是互斥的,即不同的attention maps聚焦于人臉圖像的不同區(qū)域; attention maps的激活與區(qū)域的可見(jiàn)性相關(guān)。
值得注意的是,implicitly-defined attention maps激活并不一定遵循人類定義的面部標(biāo)志(如眼睛或鼻子)的直覺(jué)。
2 Attend
和Comparator networks一樣,attention maps A需要重新校準(zhǔn)。Xie等人提出了基于集的FR歸一化A的attentional pooling方法,對(duì)集合內(nèi)的所有圖像分別進(jìn)行歸一化,從而確保從A中激活程度最大的圖像中提取出各自的信息。
本文作者只考慮一個(gè)單一的圖像,并期望不同的attention maps是相關(guān)的,因?yàn)檫@些主要取決于臉部的區(qū)域,即,如果眼睛被遮擋,相應(yīng)的attention maps應(yīng)該包含低激活值。因此,建議使用無(wú)參數(shù)的重新標(biāo)定:
首先,用sigmoid函數(shù)對(duì)A進(jìn)行normalize。這樣,每個(gè)attention maps的每個(gè)像素分別歸一化為(0,1);此外,先使用Global Average Pooling (GAP),然后使用,計(jì)算一個(gè)向量$s\in R^K}表示每個(gè)attention maps的重要性:

索引表示第個(gè)attention maps的第行和第列的像素。通過(guò)引入GAP獲得了所有attention maps的全局信息,并利用softmax函數(shù)將其轉(zhuǎn)化為指示各attention maps重要性的概率分布。接下來(lái),將第個(gè)自歸一化的attention maps 與其相應(yīng)的重要性相乘,得到最終的重新校準(zhǔn)的attention maps 。

因此,在重新校準(zhǔn)中將每個(gè)attention maps中的局部信息與跨attention maps的全局信息結(jié)合在一起。
重新校準(zhǔn)后,應(yīng)用attentional pooling,得到K個(gè)特征描述子:

這樣,第個(gè)特征描述符中就包含了對(duì)應(yīng)attention maps 激活時(shí)的信息。
3 Aggregate
用Aggregate模塊來(lái)總結(jié)partial FR模型。由于所有的特征描述符依賴于它們對(duì)應(yīng)的attention maps 聚焦于內(nèi)的不同區(qū)域,所以不可能進(jìn)行直接聚合。因此,將每個(gè)分別映射到一個(gè)聯(lián)合特征空間,每個(gè)使用一個(gè)單獨(dú)的全連接層。
注意,由于每個(gè)都在不同的特征空間中,所以權(quán)重不是共享的。由于同樣對(duì)身份信息進(jìn)行編碼,所以通過(guò)計(jì)算平均值得到最終的特征向量:

2.2 Loss Functions
為了訓(xùn)練模型,作者使用3個(gè)損失的加權(quán)和,其描述如下:

用、和表示超參數(shù)來(lái)平衡損失,為所有可訓(xùn)練權(quán)重的范數(shù)。
1 Weighted Cross-Entropy
為了處理一些代表被遮擋區(qū)域的向量,從而降低相關(guān)性,作者提出了一種加權(quán)的softmax CrossEntropy(CE)。對(duì)于CE損失添加一個(gè)全連接層到每個(gè)特征向量匹配訓(xùn)練數(shù)據(jù)集中類的數(shù)量。通過(guò)這種方法得到了K CE損失。為了得到最終加權(quán)CE損失,對(duì)每個(gè)及其重要性進(jìn)行了scale:

通過(guò)這種方式,該網(wǎng)絡(luò)學(xué)習(xí)強(qiáng)調(diào)代表可見(jiàn)人臉區(qū)域的attention maps,同時(shí)減輕代表遮擋區(qū)域的attention maps的影響。需要注意的是,由于最后一個(gè)全連接層的權(quán)值是共享的,所以每個(gè)的轉(zhuǎn)換是相等的,因此,要保證它們同樣編碼身份信息,即位于相同的特征空間。此外,由于訓(xùn)練數(shù)據(jù)集中有大量的類,作為瓶頸層提高了網(wǎng)絡(luò)的泛化能力。
2 Weighted Diversity Regularizer
多樣性正則化的目的是確保attention maps的多樣性,因?yàn)槿绻贿M(jìn)行正則化,網(wǎng)絡(luò)容易傾向于只使用一個(gè)attention maps或生成K個(gè)相同的attention maps。因此作者使用多樣性正則化算法來(lái)懲罰不同attention maps之間的相互重疊。首先,使用softmax函數(shù)將每個(gè)attention maps 自歸一化為概率分布:

接下來(lái),計(jì)算所有的像素級(jí)最大值,并得到所有像素的和。對(duì)于互不重疊的attention maps,這個(gè)和接近于1,可以計(jì)算加權(quán)多樣性損失如下:

3實(shí)驗(yàn)


表2描述了LFW數(shù)據(jù)集上不同benchmark protocols的聚合精度。當(dāng)考慮一個(gè)ResNet-50(沒(méi)有微調(diào)),它在訓(xùn)練期間從未暴露于部分臉,可以觀察到標(biāo)準(zhǔn)FR模型非常容易受到partial faces的影響。通過(guò)對(duì)partial faces進(jìn)行微調(diào),該模型在partial protocols上表現(xiàn)得更好。ResNet-50在非non-centered protocols上的性能優(yōu)于ResNet-41,但在centered protocols上的性能較差。作者認(rèn)為這是由于ResNet-50包含更多可訓(xùn)練參數(shù)。因此,由于中心不是數(shù)據(jù)擴(kuò)充的一部分,它更容易對(duì)訓(xùn)練過(guò)程中呈現(xiàn)的空間信息進(jìn)行過(guò)擬合。

在圖中,中心部分面非遮擋區(qū)域a的影響:partial - cross protocol。雖然識(shí)別左眼-右眼的準(zhǔn)確性只受到a的輕微影響,但驗(yàn)證左眼-嘴是否屬于同一身份被認(rèn)為是最具挑戰(zhàn)性的??偟膩?lái)說(shuō)可以得出結(jié)論,本文模型比所有centered: partial-cross的baseline更穩(wěn)健。
4參考
[1].ATTENTION-BASED PARTIAL FACE RECOGNITION
[2].https://github.com/stefhoer/PartialLFW
5推薦閱讀

效率新秀 | 詳細(xì)解讀:如何讓EfficientNet更加高效、速度更快

Tansformer | 詳細(xì)解讀:如何在CNN模型中插入Transformer后速度不變精度劇增?

最強(qiáng)Transformer | 太頂流!Scaling ViT將ImageNet Top-1 Acc刷到90.45%啦?。?!
本文論文原文獲取方式,掃描下方二維碼
回復(fù)【PFR】即可獲取論文
長(zhǎng)按掃描下方二維碼添加小助手。
可以一起討論遇到的問(wèn)題
聲明:轉(zhuǎn)載請(qǐng)說(shuō)明出處
掃描下方二維碼關(guān)注【集智書(shū)童】公眾號(hào),獲取更多實(shí)踐項(xiàng)目源碼和論文解讀,非常期待你我的相遇,讓我們以夢(mèng)為馬,砥礪前行!

