<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          (附論文)Attention-Based方法解決遮擋人臉識別問題

          共 3494字,需瀏覽 7分鐘

           ·

          2021-06-21 15:02

          點(diǎn)擊左上方藍(lán)字關(guān)注我們



          全網(wǎng)搜集目標(biāo)檢測相關(guān),人工篩選最優(yōu)價值內(nèi)容

          編者薦語
          文章提出了一種新的遮擋人臉識別方法,能夠識別不同遮擋區(qū)域的人臉。原理是將一個ResNet中間特征映射的attentional pooling與一個單獨(dú)的聚合模塊相結(jié)合。



          鏈接:https://pan.baidu.com/s/1Mz_z26ue85Y8COP9huZllQ 

          提取碼:f778


          1簡介

          在非約束性環(huán)境(如大量人群)中捕獲的人臉照片,仍然對當(dāng)前的人臉識別方法構(gòu)成挑戰(zhàn),因?yàn)槿四樈?jīng)常被前景中的物體或人遮擋。然而,很少有研究涉及到識別部分面孔的任務(wù)。

          本文提出了一種新的遮擋人臉識別方法,能夠識別不同遮擋區(qū)域的人臉。通過將一個ResNet中間特征映射的attentional pooling與一個單獨(dú)的聚合模塊相結(jié)合來實(shí)現(xiàn)這一點(diǎn)。為了保證attention map的多樣性,并處理被遮擋的部分,作者進(jìn)一步對遮擋Face的常見損失函數(shù)進(jìn)行了調(diào)整。實(shí)驗(yàn)表明,在多個benchmark下本文方法的性能優(yōu)于所有baseline。

          本文工作貢獻(xiàn)可以概括為以下幾點(diǎn):

          • 以ResNet為例,利用attentional pooling和聚合網(wǎng)絡(luò)提出了一種新的擴(kuò)展,并使用2種適用于部分FR的常見損失函數(shù)進(jìn)行訓(xùn)練;

          • 在多個局部FR的詳盡分析中表明,本文的改進(jìn)大大提高了識別性能。

          2方法

          2.1 Network Architecture

          下圖描述了partial FR方法,分為3個模塊:Extract、Attend和Aggregate。

          Extract模塊從輸入圖像中提取特征圖和attention maps  ,其中K表示attention maps的個數(shù)。

          在Attend模塊中,使用重新校準(zhǔn)的attention maps將特征圖合并為K個中間特征向量。

          Aggregate模塊將這些中間特征向量映射到聯(lián)合特征空間中,得到最終特征向量$f\in R^{256}。

          1 Extract

          受Comparator networks啟發(fā),作者使用了一個刪減的ResNet-50架構(gòu),它在第4個block之后結(jié)束。因此,只進(jìn)行了3次空間降采樣,得到了大小為20×20的特征圖,其中區(qū)域仍然具有很好的可區(qū)分性。與Comparator networks不同的是,在第3個block之后分離ResNet,以允許2個分支專注于各自的任務(wù)。而在第4個block之后直接得到F,然后再加上一個1×1的卷積以及ReLU激活函數(shù)獲取a。具體架構(gòu)總結(jié)如表1所示。

          生成的attention maps應(yīng)滿足以下2個關(guān)鍵屬性:

          1. attention maps應(yīng)是互斥的,即不同的attention maps聚焦于人臉圖像的不同區(qū)域;
          2. attention maps的激活與區(qū)域的可見性相關(guān)。

          值得注意的是,implicitly-defined attention maps激活并不一定遵循人類定義的面部標(biāo)志(如眼睛或鼻子)的直覺。

          2 Attend

          和Comparator networks一樣,attention maps A需要重新校準(zhǔn)。Xie等人提出了基于集的FR歸一化A的attentional pooling方法,對集合內(nèi)的所有圖像分別進(jìn)行歸一化,從而確保從A中激活程度最大的圖像中提取出各自的信息。

          本文作者只考慮一個單一的圖像,并期望不同的attention maps是相關(guān)的,因?yàn)檫@些主要取決于臉部的區(qū)域,即,如果眼睛被遮擋,相應(yīng)的attention maps應(yīng)該包含低激活值。因此,建議使用無參數(shù)的重新標(biāo)定:

          首先,用sigmoid函數(shù)對A進(jìn)行normalize。這樣,每個attention maps的每個像素分別歸一化為(0,1);此外,先使用Global Average Pooling (GAP),然后使用,計(jì)算一個向量$s\in R^K}表示每個attention maps的重要性:

          索引表示第個attention maps的第行和第列的像素。通過引入GAP獲得了所有attention maps的全局信息,并利用softmax函數(shù)將其轉(zhuǎn)化為指示各attention maps重要性的概率分布。接下來,將第個自歸一化的attention maps 與其相應(yīng)的重要性相乘,得到最終的重新校準(zhǔn)的attention maps 。

          因此,在重新校準(zhǔn)中將每個attention maps中的局部信息與跨attention maps的全局信息結(jié)合在一起。

          重新校準(zhǔn)后,應(yīng)用attentional pooling,得到K個特征描述子:

          這樣,第個特征描述符中就包含了對應(yīng)attention maps 激活時的信息。

          3 Aggregate

          用Aggregate模塊來總結(jié)partial FR模型。由于所有的特征描述符依賴于它們對應(yīng)的attention maps 聚焦于內(nèi)的不同區(qū)域,所以不可能進(jìn)行直接聚合。因此,將每個分別映射到一個聯(lián)合特征空間,每個使用一個單獨(dú)的全連接層。

          注意,由于每個都在不同的特征空間中,所以權(quán)重不是共享的。由于同樣對身份信息進(jìn)行編碼,所以通過計(jì)算平均值得到最終的特征向量:

          2.2 Loss Functions

          為了訓(xùn)練模型,作者使用3個損失的加權(quán)和,其描述如下:

          、表示超參數(shù)來平衡損失,為所有可訓(xùn)練權(quán)重的范數(shù)。

          1 Weighted Cross-Entropy

          為了處理一些代表被遮擋區(qū)域的向量,從而降低相關(guān)性,作者提出了一種加權(quán)的softmax CrossEntropy(CE)。對于CE損失添加一個全連接層到每個特征向量匹配訓(xùn)練數(shù)據(jù)集中類的數(shù)量。通過這種方法得到了K CE損失。為了得到最終加權(quán)CE損失,對每個及其重要性進(jìn)行了scale:

          通過這種方式,該網(wǎng)絡(luò)學(xué)習(xí)強(qiáng)調(diào)代表可見人臉區(qū)域的attention maps,同時減輕代表遮擋區(qū)域的attention maps的影響。需要注意的是,由于最后一個全連接層的權(quán)值是共享的,所以每個的轉(zhuǎn)換是相等的,因此,要保證它們同樣編碼身份信息,即位于相同的特征空間。此外,由于訓(xùn)練數(shù)據(jù)集中有大量的類,作為瓶頸層提高了網(wǎng)絡(luò)的泛化能力。

          2 Weighted Diversity Regularizer

          多樣性正則化的目的是確保attention maps的多樣性,因?yàn)槿绻贿M(jìn)行正則化,網(wǎng)絡(luò)容易傾向于只使用一個attention maps或生成K個相同的attention maps。因此作者使用多樣性正則化算法來懲罰不同attention maps之間的相互重疊。首先,使用softmax函數(shù)將每個attention maps 自歸一化為概率分布:

          接下來,計(jì)算所有的像素級最大值,并得到所有像素的和。對于互不重疊的attention maps,這個和接近于1,可以計(jì)算加權(quán)多樣性損失如下:

          3實(shí)驗(yàn)

          表2描述了LFW數(shù)據(jù)集上不同benchmark protocols的聚合精度。當(dāng)考慮一個ResNet-50(沒有微調(diào)),它在訓(xùn)練期間從未暴露于部分臉,可以觀察到標(biāo)準(zhǔn)FR模型非常容易受到partial faces的影響。通過對partial faces進(jìn)行微調(diào),該模型在partial protocols上表現(xiàn)得更好。ResNet-50在非non-centered protocols上的性能優(yōu)于ResNet-41,但在centered protocols上的性能較差。作者認(rèn)為這是由于ResNet-50包含更多可訓(xùn)練參數(shù)。因此,由于中心不是數(shù)據(jù)擴(kuò)充的一部分,它更容易對訓(xùn)練過程中呈現(xiàn)的空間信息進(jìn)行過擬合。

          在圖中,中心部分面非遮擋區(qū)域a的影響:partial - cross protocol。雖然識別左眼-右眼的準(zhǔn)確性只受到a的輕微影響,但驗(yàn)證左眼-嘴是否屬于同一身份被認(rèn)為是最具挑戰(zhàn)性的??偟膩碚f可以得出結(jié)論,本文模型比所有centered: partial-cross的baseline更穩(wěn)健。

          4參考

          [1].ATTENTION-BASED PARTIAL FACE RECOGNITION
          [2].https://github.com/stefhoer/PartialLFW


          END



          雙一流大學(xué)研究生團(tuán)隊(duì)創(chuàng)建,專注于目標(biāo)檢測與深度學(xué)習(xí),希望可以將分享變成一種習(xí)慣!

          整理不易,點(diǎn)贊三連↓

          瀏覽 98
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  自拍偷拍精品视频 | 网红鹿少女演绎点外卖视频 | 天天操天天日天天插 | 天天射夜夜操 | 青青艹av|