<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          ICCV 2021 口罩人物身份鑒別全球挑戰(zhàn)賽冠軍方案分享

          共 6712字,需瀏覽 14分鐘

           ·

          2021-11-27 05:45

          ↑ 點擊藍字?關注極市平臺

          作者丨阿里云多媒體 AI 團隊
          編輯丨極市平臺

          極市導讀

          ?

          今年阿里云多媒體 AI 團隊參加了 MFR 口罩人物身份鑒別全球挑戰(zhàn)賽,并在總共5個賽道中,一舉拿下1個冠軍、1個亞軍和2個季軍。本文為該團隊的冠軍方案分享,詳細介紹了他們在數據、模型、損失函數等方面的解決方案。?>>加入極市CV技術交流群,走在計算機視覺的最前沿



          1. 引言

          10月11-17日,萬眾期待的國際計算機視覺大會 ICCV 2021 (International Conference on Computer Vision) 在線上如期舉行,受到全球計算機視覺領域研究者的廣泛關注。

          今年阿里云多媒體 AI 團隊(由阿里云視頻云和達摩院視覺團隊組成)參加了 MFR 口罩人物身份鑒別全球挑戰(zhàn)賽,并在總共5個賽道中,一舉拿下1個冠軍、1個亞軍和2個季軍,展現了我們在人物身份鑒別領域深厚的技術積淀和業(yè)界領先的技術優(yōu)勢。

          2. 競賽介紹

          MFR口罩人物身份鑒別全球挑戰(zhàn)賽是由帝國理工學院、清華大學和InsightFace.AI聯合舉辦的一次全球范圍內的挑戰(zhàn)賽,主要為了解決新冠疫情期間佩戴口罩給人物身份鑒別算法帶來的挑戰(zhàn)。競賽從6月1日開始至10月11日結束,歷時4個多月,共吸引了來自全球近400支隊伍參賽,是目前為止人物身份鑒別領域規(guī)模最大、參與人數最多的權威賽事。據官方統(tǒng)計,此次競賽收到的總提交次數超過10000次,各支隊伍競爭異常激烈。

          2.1 訓練數據集

          此次競賽的訓練數據集只能使用官方提供的3個數據集,不允許使用其它額外數據集以及預訓練模型,以保證各算法對比的公平公正性。官方提供的3個數據集,分別是ms1m小規(guī)模數據集、glint360k中等規(guī)模數據集和webface260m大規(guī)模數據集,各數據集包含的人物ID數和圖片數如下表所示:


          2.2 評測數據集

          此次競賽的評測數據集包含的正負樣本對規(guī)模在萬億量級,是當前業(yè)界規(guī)模最大、包含信息最全的權威評測數據集。值得注意的是所有評測數據集均不對外開放,只提供接口在后臺進行自動測評,避免算法過擬合測試數據集。

          InsightFace賽道評測數據集的詳細統(tǒng)計信息如下表所示:


          WebFace260M賽道評測數據集的詳細統(tǒng)計信息如下表所示:

          2.3 評測指標

          此次競賽的評測指標不僅有性能方面的指標,而且還包含特征維度和推理時間的限制,因此更加貼近真實業(yè)務場景。詳細的評測指標如下表所示:






          3. 解決方案

          下面,我們將從數據、模型、損失函數等方面,對我們的解決方案進行逐一解構。

          3.1 基于自學習的數據清洗

          眾所周知,人物身份鑒別相關的訓練數據集中廣泛存在著噪聲數據,例如同一人物圖片分散到不同人物ID下、多個人物圖片混合在同一人物ID下,數據集中的噪聲會對識別模型的性能產生較大影響。針對上述問題,我們提出了基于自學習的數據清洗框架,如下圖所示:



          首先,我們使用原始數據訓練初始模型M0,然后使用該模型進行特征提取、ID合并、類間清洗和類內清洗等一系列操作。對于每個人物ID,我們使用DBSCAN聚類算法去計算中心特征,然后使用中心特征進行相似度檢索,這一步使用的高維向量特征檢索引擎是達摩院自研的Proxima,它可以快速、精準地召回Doc中與Query記錄相似度最高的topK個結果。緊接著,我們使用清洗完成的數據集,訓練新的模型M1,然后重復數據清洗及新模型訓練過程,通過不斷進行迭代自學習方式,使得數據質量越來越高,模型性能也隨之越來越強。具體來看,類間清洗和類內清洗的示意圖如下圖所示:



          值得注意的是,我們的清洗流程中先進行類間清洗、再進行類內清洗,與CAST[1]數據清洗框架不同,這樣在完成類間清洗后可以更新新的ID中心特征,使得整個清洗過程更加完備,清洗效果也更好。為了驗證數據清洗對最終性能的影響,我們在ms1m數據集上做了一系列對比實驗,結果如下表所示:



          表中的閾值指的是類內清洗的相似度閾值,可以看出當閾值設置過低(如0.05)時,噪聲沒有被清洗干凈,因此性能表現不是最佳;而當閾值設置過高(如0.50)時,噪聲被清洗的同時難樣本也被清洗了,導致模型泛化能力變弱,在評測數據集上性能反而下降。因此選擇一個中間閾值0.25,既清洗了大量噪聲,又保留了困難樣本,在各項評測指標上均達到最佳性能。此外,我們還畫出了不同相似度閾值與剩余圖片數的關系,如下圖所示:



          3.2 戴口罩數據生成

          為解決戴口罩數據不足的問題,一種可行的方案是在已有的無口罩圖像上繪制口罩。然而,目前大部分的繪制方案屬于位置貼圖式,這種方案生成的戴口罩圖像不夠真實且缺乏靈活性。因此,我們借鑒PRNet[2,3]的思路,采用一種圖像融合方案[4]來獲取更符合真實情況的戴口罩圖像,如下圖所示,



          該方案的原理是將口罩圖像和原圖像通過3D重建分別生成UV Texture Map,然后借助紋理空間合成戴口罩圖像。在數據生成過程中,我們使用了8種類型的口罩,意味著我們可在已有的數據集上對應生成8種不同風格的戴口罩圖像?;赨V映射的方案克服了傳統(tǒng)平面投影方式中原圖像和口罩圖像間的不理想銜接和變形等問題。此外,由于渲染過程的存在,戴口罩圖像可以獲得不同的渲染效果,比如調整口罩角度及光照效果等。生成的戴口罩圖像示例如下圖所示:



          在生成戴口罩數據訓練模型的過程中,我們發(fā)現戴口罩數據的比例對模型性能有不同程度的影響。因此,我們將戴口罩數據占比分別設置為5%、10%、15%、20%和25%,實驗結果如下表所示:



          從上表中發(fā)現,當戴口罩數據比例為5%時,模型在MR-ALL評測集上的性能最高;當戴口罩數據比例調整至25%時,對Mask戴口罩評測集的性能提升明顯,但在MR-ALL上的性能下降明顯。這說明當混合戴口罩數據和正常數據進行訓練時,其比例是影響模型性能的重要參數。最終,我們選擇戴口罩數據比例為15%,在戴口罩和正常數據上的性能達到一個較好平衡。

          3.3 基于NAS的骨干網絡

          不同骨干網絡對特征提取的能力差異較大,在人物身份鑒別領域,業(yè)界常用的基線骨干網絡是在ArcFace[5]中提出的IR-100。在此次競賽中,我們采用達摩院提出的Zero-shot NAS (Zen-NAS[6]) 范式,在模型空間搜索具有更強表征能力的骨干網絡。Zen-NAS區(qū)別于傳統(tǒng)NAS方法,它使用Zen-Score代替搜索模型的性能評測分數,值得注意的是Zen-Score與模型最終的性能指標成正比關系,因此整個搜索過程非常高效。Zen-NAS的核心算法結構如下圖所示:



          我們基于IR-SE基線骨干網絡,使用Zen-NAS搜索3個模型結構相關的變量,分別是:Input層的通道數、Block層的通道數和不同Block層堆疊的次數,限制條件是搜索出的骨干網絡滿足各賽道的推理時間約束。一個有趣的發(fā)現是:Zen-NAS搜索出的骨干網絡,在ms1m小數據集賽道上的性能表現與IR-SE-100幾乎無差異,但在WebFace260M這樣的大數據集賽道,性能表現會明顯優(yōu)于基線。原因可能是搜索空間增大后,NAS可搜索的范圍隨之增大,搜索到更強大模型的概率也隨之增加。

          3.4 損失函數

          此次競賽我們采用的基線損失函數為Curricular Loss[7],該損失函數在訓練過程中模擬課程學習的思想,按照樣本從易到難的順序進行訓練。然而,由于訓練數據集通常是極度不平衡的,熱門人物包含的圖片數多達數千張,而冷門人物包含的圖片數往往只有1張。為解決數據不均衡帶來的長尾問題,我們將Balanced Softmax Loss[8]的思想引入Curricular Loss中,提出一個新的損失函數:Balanced Curricular Loss,其表達式如下圖所示:

          在ms1m賽道上,我們對比了Balanced Curricular Loss (BCL) 與原始Curricular Loss (CL) 的性能,結果如下表所示:


          可以看出Balanced Curricular Loss相對于Curricular Loss,無論在Mask還是MR-ALL上的指標均有較大幅度的提升,充分證明了其有效性。


          3.5 知識蒸餾

          由于此次比賽對模型的推理時間有約束,模型超時會被直接取消成績。因此,我們采用知識蒸餾的方式,將大模型強大的表征能力傳遞給小模型,然后使用小模型進行推理,以滿足推理時間的要求。此次競賽我們采用的知識蒸餾框架如下圖所示:



          其中,蒸餾損失采用最簡單的L2 Loss,用以傳遞教師模型的特征信息,同時學生模型使用Balanced Curricular Loss訓練,最終的損失函數是蒸餾損失與訓練損失的加權和。經過知識蒸餾后,學生模型在評測數據集上的部分指標,甚至超過了教師模型,同時推理時間大大縮短,在ms1m小數據集賽道的性能有較大提升。

          3.6 模型和數據同時并行

          WebFace260M大數據集賽道的訓練數據ID數量>200萬、總圖片數>4000萬,導致傳統(tǒng)的多機多卡數據并行訓練方式已難以容納完整的模型。Partial FC[9]采用將FC層均勻分散到不同GPU上,每個GPU負責計算存儲在自己顯存單元的sub FC層結果,最終通過所有GPU間的同步通信操作,得到近似的full FC層結果。Partial FC的示意圖如下所示:



          采用Partial FC,可同時使用模型并行與數據并行,使得之前無法訓練的大模型可以正常訓練,另外可采用負樣本采樣的方式,進一步加大訓練的batch size,縮短模型訓練周期。

          3.7 其它技巧

          在整個競賽過程中,我們先后嘗試了不同數據增強、標簽重構及學習率改變等策略,其中有效的策略如下圖所示:





          4. 競賽結果

          此次競賽我們mind_ft隊在InsightFace和WebFace260M共5個賽道中獲得1個冠軍(WebFace260M SFR)、1個亞軍(InsightFace unconstrained)和2個季軍(WebFace260M Main和InsightFace ms1m)。其中,WebFace260M賽道官方排行榜的最終結果截圖如下所示:



          在競賽結束之后的Workshop中,我們受邀在全球范圍內分享此次競賽的解決方案。此外,我們在此次競賽中投稿的論文,也被同步收錄于ICCV 2021 Workshop[10]。最后,展示一下我們在此次競賽中收獲的榮譽證書:



          5. EssentialMC2 介紹與開源

          EssentialMC2,實體時空關系推理多媒體認知計算,是達摩院MinD-數智媒體組對于視頻理解技術的一個長期研究結果沉淀的核心算法架構。核心內容包括表征學習MHRL、關系推理MECR2和開集學習MOSL3三大基礎模塊,三者分別對應從基礎表征、關系推理和學習方法三個方面對視頻理解算法框架進行優(yōu)化?;谶@三大基礎模塊,我們總結了一套適合于大規(guī)模視頻理解算法研發(fā)訓練的代碼框架,并進行開源,開源工作中包含了組內近期發(fā)表的優(yōu)秀論文和算法賽事結果。



          essmc2是EssentialMC2配套的一整套適合大規(guī)模視頻理解算法研發(fā)訓練的深度學習訓練框架代碼包,開源的主要目標是希望提供大量可驗證的算法和預訓練模型,支持使用者以較低成本快速試錯,同時希望在視頻理解領域內建立一個有影響力的開源生態(tài),吸引更多貢獻者參與項目建設。essmc2的主要設計思路是“配置即對象”,通過簡要明了的配置文件配合注冊器的設計模式(Registry),可以將眾多模型定義文件、優(yōu)化器、數據集、預處理pipeline等參數以配置文件的形式快速構造出對象并使用,本質上貼合深度學習的日常使用中不斷調參不斷實驗的場景。同時通過一致性的視角實現單機和分布式的無縫切換,使用者僅需定義一次,便可在單機單卡、單機多卡、分布式環(huán)境下進行切換,同時實現簡單易用與高可移植性的特性。

          目前essmc2的開源工作已經發(fā)布了第一個可用版本,歡迎大家試用,后續(xù)我們會增加更多算法和預訓練模型。

          鏈接地址:https://github.com/alibaba/EssentialMC2。

          本文作者:

          王莽,阿里巴巴達摩院多模態(tài)理解&數智媒體組算法專家,2017年博士畢業(yè)于中國科學技術大學信息科學技術學院。研究方向包括視頻內容精細化理解及結構化、視頻多模態(tài)推理、視頻智能摘要等。相關工作發(fā)表在ICCV、AAAI等國際頂級會議上,申請國內外專利10+篇,相關技術成果通過阿里云視頻云對外提供服務,日均處理視頻時長>10萬小時。

          參考文獻:

          [1] Zheng Zhu, et al. Webface260m: A benchmark unveilingthe power of million-scale deep face recognition. CVPR 2021.

          [2] Yao Feng, et al. Joint 3d face reconstruction and dense alignment with position map regression network. ECCV, 2018.

          [3] Jun Wang et al. Facex-zoo: A pytorch toolbox for face recognition. arxiv, abs/2101.04407, 2021.

          [4] Jiankang Deng et al. Masked Face Recognition Challenge: The InsightFace Track Report. arXiv, abs/2108.08191, 2021.

          [5] Jiankang Deng, et al. Arcface: Additive angular margin loss for deep face recognition. CVPR 2019.

          [6] Ming Lin, et al. Zen-NAS: A Zero-Shot NAS for High-Performance Image Recognition. ICCV 2021.

          [7] Yuge Huang et al. Curricularface: Adaptive curriculum learning loss for deep face recognition. CVPR 2020.

          [8] Jiawei Ren et al. Balanced meta-softmax for long-tailed visual recognition. NeurIPS, 2020.

          [9] Xiang An, et al. Partial fc: Training 10 million identities on a single machine. ICCV 2021.

          [10] Tao Feng, et al. Towards Mask-robust Face Recognition. ICCV 2021.

          如果覺得有用,就請分享到朋友圈吧!

          △點擊卡片關注極市平臺,獲取最新CV干貨

          公眾號后臺回復“transformer”獲取最新Transformer綜述論文下載~


          極市干貨
          課程/比賽:珠港澳人工智能算法大賽保姆級零基礎人工智能教程
          算法trick目標檢測比賽中的tricks集錦從39個kaggle競賽中總結出來的圖像分割的Tips和Tricks
          技術綜述:一文弄懂各種loss function工業(yè)圖像異常檢測最新研究總結(2019-2020)


          #?CV技術社群邀請函?#

          △長按添加極市小助手
          添加極市小助手微信(ID : cvmart4)

          備注:姓名-學校/公司-研究方向-城市(如:小極-北大-目標檢測-深圳)


          即可申請加入極市目標檢測/圖像分割/工業(yè)檢測/人臉/醫(yī)學影像/3D/SLAM/自動駕駛/超分辨率/姿態(tài)估計/ReID/GAN/圖像增強/OCR/視頻理解等技術交流群


          每月大咖直播分享、真實項目需求對接、求職內推、算法競賽、干貨資訊匯總、與?10000+來自港科大、北大、清華、中科院、CMU、騰訊、百度等名校名企視覺開發(fā)者互動交流~



          覺得有用麻煩給個在看啦~??
          瀏覽 38
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  黄片影院黄片 | 麻豆三金片 | 网站黄片免费看 | 日本免码特级毛片 | 大香蕉伊人久 |