深度學(xué)習(xí)行人重識(shí)別綜述與展望,TPAMI 2021 最新文章
點(diǎn)擊上方“小白學(xué)視覺”,選擇加"星標(biāo)"或“置頂”
重磅干貨,第一時(shí)間送達(dá)
作者 |?葉茫 武漢大學(xué)
編輯 | CV君
轉(zhuǎn)自?|?我愛計(jì)算機(jī)視覺(微信id:aicvml)
摘要:行人重識(shí)別(Person Re-Identification,簡稱Re-ID),是一種利用計(jì)算機(jī)視覺技術(shù)來檢索圖像或者視頻序列中是否存在特定行人的AI技術(shù),在智慧城市等監(jiān)控場景中具有重要的應(yīng)用意義和前景。本文介紹我們最新的IEEE TPAMI綜述論文 《Deep Learning for Person Re-identification: A Survey and Outlook》,該文作者來自武漢大學(xué)、起源人工智能研究院(IIAI)、北理工、英國薩里大學(xué)、Salesforce亞洲研究院。
綜述:全面調(diào)研了近年來深度學(xué)習(xí)在 Re-ID 領(lǐng)域的進(jìn)展,囊括了近幾年三大視覺頂會(huì)上的大部分文章(如有遺漏,請諒解)。主要包括 Closed-world Re-ID 與 Open-world Re-ID 的研究進(jìn)展,常用數(shù)據(jù)集和評價(jià)指標(biāo)的概述,并分析了現(xiàn)有方法的不足和改進(jìn)點(diǎn)。
展望:1) 一個(gè)新的評價(jià)指標(biāo) mINP,用來評價(jià)找到最困難匹配行人所需要的代價(jià);2) 一個(gè)強(qiáng)有力的 AGW 方法,在四種不同類型的 Re-ID 任務(wù),包括 12個(gè)數(shù)據(jù)集中取得了較好的效果;3) 從五個(gè)不同的方面討論了未來 Re-ID 研究的重點(diǎn)和難點(diǎn),僅供大家參考。
最新版本論文地址:https://arxiv.org/abs/2001.04193v2
論文代碼和評價(jià)指標(biāo)開源地址:https://github.com/mangye16/ReID-Survey
? ? ??01??? ??
前言
數(shù)據(jù)采集,一般來源于監(jiān)控?cái)z像機(jī)的原始視頻數(shù)據(jù);
行人框生成,從視頻數(shù)據(jù)中,通過人工方式或者行人檢測或跟蹤方式將行人從圖中裁切出來,圖像中行人將會(huì)占據(jù)大部分面積;
訓(xùn)練數(shù)據(jù)標(biāo)注,包含相機(jī)標(biāo)簽和行人標(biāo)簽等其他信息;
重識(shí)別模型訓(xùn)練,設(shè)計(jì)模型(主要指深度學(xué)習(xí)模型),讓它從訓(xùn)練數(shù)據(jù)中盡可能挖掘“如何識(shí)別不同行人的隱藏特征表達(dá)模式”;
行人檢索,將訓(xùn)練好的模型應(yīng)用到測試場景中,檢驗(yàn)該模型的實(shí)際效果。

圖 1. 構(gòu)建行人重識(shí)別系統(tǒng)的五個(gè)主要步驟。包括:1)數(shù)據(jù)采集,2)行人框生成,3)訓(xùn)練數(shù)據(jù)標(biāo)注;4)重識(shí)別模型訓(xùn)練,5)行人檢索

? ? ??02??? ??
通過圖像或視頻,可見光(RGB)攝像機(jī)捕捉行人;
行人由 bounding boxes 框出;
有足夠多的被標(biāo)注訓(xùn)練數(shù)據(jù);
標(biāo)注的數(shù)據(jù)標(biāo)簽通常都是正確的;
query person 必須出現(xiàn)在 gallery set 中。
2.1 特征學(xué)習(xí)方法

全局特征學(xué)習(xí):利用全身的全局圖像來進(jìn)行特征學(xué)習(xí),常見的改進(jìn)思路有Attention 機(jī)制,多尺度融合等; 局部特征學(xué)習(xí):利用局部圖像區(qū)域(行人部件或者簡單的垂直區(qū)域劃分)來進(jìn)行特征學(xué)習(xí),并聚合生成最后的行人特征表示; 輔助特征學(xué)習(xí):利用一些輔助信息來增強(qiáng)特征學(xué)習(xí)的效果,如語義信息(比如行人屬性等)、視角信息(行人在圖像中呈現(xiàn)的不同方位信息)、域信息(比如每一個(gè)攝像頭下的數(shù)據(jù)表示一類域)、GAN 生成的信息(比如生成行人圖像)、數(shù)據(jù)增強(qiáng)等; 視頻特征學(xué)習(xí):利用一些視頻數(shù)據(jù)提取時(shí)序特征,并且融合多幀圖像信息來構(gòu)建行人特征表達(dá) 特定的網(wǎng)絡(luò)設(shè)計(jì):利用 Re-ID 任務(wù)的特性,設(shè)計(jì)一些細(xì)粒度,多尺度等相關(guān)的網(wǎng)絡(luò)結(jié)構(gòu),使其更適用于 Re-ID 的場景。
2.2 度量學(xué)習(xí)方法

Identity Loss:?將 Re-ID 的訓(xùn)練過程當(dāng)成圖像分類問題,同一個(gè)行人的不同圖片當(dāng)成一個(gè)類別,常見的有 Softmax 交叉熵?fù)p失函數(shù); Verification Loss:將 Re-ID 的訓(xùn)練當(dāng)成圖像匹配問題,是否屬于同一個(gè)行人來進(jìn)行二分類學(xué)習(xí),常見的有對比損失函數(shù),二分類損失函數(shù); Triplet Loss:將 Re-ID 的訓(xùn)練當(dāng)成圖像檢索問題,同一個(gè)行人圖片的特征距離要小于不同行人的特征距離,以及其各種改進(jìn); 訓(xùn)練策略的改進(jìn):自適應(yīng)的采樣方式(樣本不均衡,難易程度)以及不同的權(quán)重分配策略
2.3 排序優(yōu)化

2.4 數(shù)據(jù)集和評價(jià)
? ? ??03??? ??
多模態(tài)數(shù)據(jù),所采集的數(shù)據(jù)不是單一的可見光模態(tài);
端到端的行人檢索(End-to-end Person Search),沒有預(yù)先檢測或跟蹤好的行人圖片/視頻;
無監(jiān)督和半監(jiān)督學(xué)習(xí),標(biāo)注數(shù)據(jù)有限或者無標(biāo)注的新場景;
噪聲標(biāo)注的數(shù)據(jù),即使有標(biāo)注,但是數(shù)據(jù)采集和標(biāo)注過程中存在噪聲或錯(cuò)誤;
一些其他 Open-set 場景,查詢行人找不到,群體重識(shí)別,動(dòng)態(tài)的多攝像頭網(wǎng)絡(luò)等。
3.1 多模態(tài)(異構(gòu))數(shù)據(jù)
基于深度圖像 Re-ID:旨在利用深度圖信息的匹配(融合或跨模態(tài)匹配),在很多人機(jī)交互的室內(nèi)場景應(yīng)用中非常重要; 文本到圖像 Re-ID:旨在利用文字語言描述來搜索特定的行人圖像,解決實(shí)際場景中查詢行人圖像缺失等問題; 可見光到紅外 Re-ID:旨在跨模態(tài)匹配白天的可見光圖像到夜晚的紅外行人圖像,也有一些方法直接解決低照度的重識(shí)別任務(wù); 跨分辨率 Re-ID:不同高低分辨率行人圖像匹配,旨在解決不同距離攝像頭下行人分辨率差異巨大等問題
總體而言,異構(gòu)的行人重識(shí)別問題需要解決的一大難題是不同模態(tài)數(shù)據(jù)之間的差異性問題
3.2 端到端Re-ID(End-to-end Person Search)
純圖像/視頻的 Re-ID;從原始 raw 圖像或者視頻中直接檢索出行人; 多攝像頭跟蹤的 Re-ID;跨攝像頭跟蹤,也是很多產(chǎn)業(yè)化應(yīng)用的重點(diǎn)。
3.3 半監(jiān)督和無監(jiān)督的 Re-ID
無監(jiān)督 Re-ID:主要包括一些跨攝像頭標(biāo)簽估計(jì)(聚類或圖匹配等)的方法,以及一些其他監(jiān)督信息挖掘的方法(如local patch相似性等); 無監(jiān)督域自適應(yīng) Re-ID:包括一些目標(biāo)域圖像數(shù)據(jù)生成和一些目標(biāo)域監(jiān)督信息挖掘等方式。
如下表所示:

3.4 噪聲魯棒的Re-ID
Partial Re-ID:解決行人圖像區(qū)域部分被遮擋的行人重識(shí)別問題; Noise Sample:主要針對行人圖像或視頻中檢測、跟蹤產(chǎn)生的錯(cuò)誤或偏差 Noise Label:主要針對行人標(biāo)簽標(biāo)注產(chǎn)生的錯(cuò)誤
3.5 Open-set Re-ID and Beyond
? ? ??04??? ??
展望
4.1 新的評價(jià)指標(biāo)mINP:

4.2 新的基準(zhǔn)方法AGW
Non-local注意力機(jī)制的融合;
Generalized-mean (GeM) Pooling的細(xì)粒度特征提取;
加權(quán)正則化的三元組損失(Weighted Regularization Triplet (WRT) loss)

在審稿人的建議下,我們在四種不同類型的任務(wù)(圖像Re-ID, 視頻Re-ID,跨模態(tài)紅外Re-ID和Partial Re-ID)的12個(gè)數(shù)據(jù)集上均對我們提出的新指標(biāo)mINP和AGW方法進(jìn)行了測評,在大多數(shù)情況下,我們的方法都能夠取得比較好的效果。具體的實(shí)驗(yàn)結(jié)果和分析可以參考我們的論文和補(bǔ)充材料,希望我們的方法和評價(jià)指標(biāo)能對大家有一些幫助。
4.3 對未來一些研究方向的思考
不可控的數(shù)據(jù)采集:不確定多種模態(tài)混合的 Re-ID,而不是固定的模態(tài)設(shè)置;換裝的 Re-ID,2020 年已經(jīng)有好幾個(gè)新的數(shù)據(jù)集; 減少人工標(biāo)注依賴:人機(jī)交互的主動(dòng)學(xué)習(xí),選擇性的標(biāo)注;從虛擬數(shù)據(jù)進(jìn)行學(xué)習(xí)(Learning from virtual data),如何解決虛擬數(shù)據(jù)中的domain gap; 面向 Re-ID 通用網(wǎng)絡(luò)設(shè)計(jì):Domain Generalized Re-ID,如何設(shè)計(jì)一種在未知場景中也表現(xiàn)優(yōu)異的模型,如何利用自動(dòng)化機(jī)器學(xué)習(xí)來設(shè)計(jì)針對 Re-ID 任務(wù)的網(wǎng)絡(luò)模型; 動(dòng)態(tài)的模型更新:如何以小的代價(jià)將學(xué)習(xí)好的網(wǎng)絡(luò)模型微調(diào)至新攝像頭場景中;如何高效的利用新采集的數(shù)據(jù)(Newly Arriving Data)來更新之前已訓(xùn)練好的模型; 高效的模型部署:輕量型快速的行人重識(shí)別算法設(shè)計(jì),自適應(yīng)的針對不同類型的硬件配置(小型的移動(dòng)手機(jī)和大型服務(wù)器)調(diào)整模型。
交流群
歡迎加入公眾號讀者群一起和同行交流,目前有SLAM、三維視覺、傳感器、自動(dòng)駕駛、計(jì)算攝影、檢測、分割、識(shí)別、醫(yī)學(xué)影像、GAN、算法競賽等微信群(以后會(huì)逐漸細(xì)分),請掃描下面微信號加群,備注:”昵稱+學(xué)校/公司+研究方向“,例如:”張三?+?上海交大?+?視覺SLAM“。請按照格式備注,否則不予通過。添加成功后會(huì)根據(jù)研究方向邀請進(jìn)入相關(guān)微信群。請勿在群內(nèi)發(fā)送廣告,否則會(huì)請出群,謝謝理解~


