深度學(xué)習(xí)行人重識(shí)別綜述與展望
點(diǎn)擊上方“小白學(xué)視覺(jué)”,選擇加"星標(biāo)"或“置頂”
重磅干貨,第一時(shí)間送達(dá)
地址 | https://zhuanlan.zhihu.com/p/342249413
摘要:行人重識(shí)別(Person Re-Identification,簡(jiǎn)稱Re-ID),是一種利用計(jì)算機(jī)視覺(jué)技術(shù)來(lái)檢索圖像或者視頻序列中是否存在特定行人的AI技術(shù),在智慧城市等監(jiān)控場(chǎng)景中具有重要的應(yīng)用意義和前景。本文介紹我們最新的IEEE TPAMI綜述論文 《Deep Learning for Person Re-identification: A Survey and Outlook》,該文作者來(lái)自武漢大學(xué)、起源人工智能研究院(IIAI)、北理工、英國(guó)薩里大學(xué)、Salesforce亞洲研究院。
首先非常感謝領(lǐng)域內(nèi)的前輩和各位大佬,為該綜述提供了非常充實(shí)的素材和基礎(chǔ)。
這里先總結(jié)該綜述的幾個(gè)主要貢獻(xiàn)點(diǎn):
綜述:全面調(diào)研了近年來(lái)深度學(xué)習(xí)在Re-ID領(lǐng)域的進(jìn)展,囊括了近幾年三大視覺(jué)頂會(huì)上的大部分文章(如有遺漏,請(qǐng)諒解)。主要包括Closed-world Re-ID與Open-world Re-ID的研究進(jìn)展,常用數(shù)據(jù)集和評(píng)價(jià)指標(biāo)的概述,并分析了現(xiàn)有方法的不足和改進(jìn)點(diǎn)。
展望:1) 一個(gè)新的評(píng)價(jià)指標(biāo)mINP,用來(lái)評(píng)價(jià)找到最困難匹配行人所需要的代價(jià);2) 一個(gè)強(qiáng)有力的AGW方法,在四種不同類型的Re-ID任務(wù),包括12個(gè)數(shù)據(jù)集中取得了較好的效果;3) 從五個(gè)不同的方面討論了未來(lái)Re-ID研究的重點(diǎn)和難點(diǎn),僅供大家參考。
最新版本論文地址:https://arxiv.org/abs/2001.04193v2
論文代碼和評(píng)價(jià)指標(biāo)開(kāi)源地址:github.com/mangye16/ReI
根據(jù)個(gè)人理解,本文總結(jié)Re-ID技術(shù)的五大步驟:1)數(shù)據(jù)采集,一般來(lái)源于監(jiān)控?cái)z像機(jī)的原始視頻數(shù)據(jù);2)行人框生成,從視頻數(shù)據(jù)中,通過(guò)人工方式或者行人檢測(cè)或跟蹤方式將行人從圖中裁切出來(lái),圖像中行人將會(huì)占據(jù)大部分面積;3)訓(xùn)練數(shù)據(jù)標(biāo)注,包含相機(jī)標(biāo)簽和行人標(biāo)簽等其他信息;4)重識(shí)別模型訓(xùn)練,設(shè)計(jì)模型(主要指深度學(xué)習(xí)模型),讓它從訓(xùn)練數(shù)據(jù)中盡可能挖掘“如何識(shí)別不同行人的隱藏特征表達(dá)模式”;5)行人檢索,將訓(xùn)練好的模型應(yīng)用到測(cè)試場(chǎng)景中,檢驗(yàn)該模型的實(shí)際效果。如下圖所示:

全文的綜述和展望都是圍繞這五個(gè)步驟來(lái)展開(kāi)和討論的。針對(duì)以上五個(gè)步驟的一些約束條件,本文將ReID技術(shù)分為 Closed-world 和Open-world 兩大子集。Closed-world概括為大家常見(jiàn)的標(biāo)注完整的有監(jiān)督的行人重識(shí)別方法,Open-world概括為多模態(tài)數(shù)據(jù),端到端的行人檢索,無(wú)監(jiān)督或半監(jiān)督學(xué)習(xí),噪聲標(biāo)注和一些Open-set的其他場(chǎng)景。

2. Closed-world Re-ID
這一章節(jié)主要介紹大家常用的封閉世界(Closed-world)Re-ID設(shè)置,一般包含以下假設(shè):(1)通過(guò)圖像或視頻,可見(jiàn)光(RGB)攝像機(jī)捕捉行人;(2)行人由bounding boxes框出;(3)有足夠多的被標(biāo)注訓(xùn)練數(shù)據(jù);(4)標(biāo)注的數(shù)據(jù)標(biāo)簽通常都是正確的;(5)query person必須出現(xiàn)在gallery set 中。根據(jù)方法設(shè)計(jì)流程,將其分為特征學(xué)習(xí),度量學(xué)習(xí)和排序優(yōu)化三個(gè)部分。研究人員的方法通常針對(duì)這三方面進(jìn)行改進(jìn),側(cè)重點(diǎn)不同。有的是提出了新穎的特征學(xué)習(xí)方法,有的提出有效的度量損失函數(shù),也有的是在測(cè)試檢索階段進(jìn)行優(yōu)化。在本章節(jié)末尾,還概括了現(xiàn)有的常用數(shù)據(jù)集和評(píng)價(jià)指標(biāo),以及現(xiàn)有SOTA的優(yōu)缺點(diǎn)分析。
2.1 特征學(xué)習(xí)方法

全局特征學(xué)習(xí),利用全身的全局圖像來(lái)進(jìn)行特征學(xué)習(xí),常見(jiàn)的改進(jìn)思路有Attention機(jī)制,多尺度融合等;
局部特征學(xué)習(xí),利用局部圖像區(qū)域(行人部件或者簡(jiǎn)單的垂直區(qū)域劃分)來(lái)進(jìn)行特征學(xué)習(xí),并聚合生成最后的行人特征表示;
輔助特征學(xué)習(xí),利用一些輔助信息來(lái)增強(qiáng)特征學(xué)習(xí)的效果,如語(yǔ)義信息(比如行人屬性等)、視角信息(行人在圖像中呈現(xiàn)的不同方位信息)、域信息(比如每一個(gè)攝像頭下的數(shù)據(jù)表示一類域)、GAN生成的信息(比如生成行人圖像)、數(shù)據(jù)增強(qiáng)等;
視頻特征學(xué)習(xí):利用一些視頻數(shù)據(jù)提提取時(shí)序特征,并且融合多幀圖像信息來(lái)構(gòu)建行人特征表達(dá)
特定的網(wǎng)絡(luò)設(shè)計(jì):利用Re-ID任務(wù)的特性,設(shè)計(jì)一些細(xì)粒度,多尺度等相關(guān)的網(wǎng)絡(luò)結(jié)構(gòu),使其更適用于Re-ID的場(chǎng)景。
2.2 度量學(xué)習(xí)方法

早期的度量學(xué)習(xí)主要是設(shè)計(jì)不同類型的距離/相似度度量矩陣。深度學(xué)習(xí)時(shí)代,主要包括不同類型的損失函數(shù)的設(shè)計(jì)及采樣策略的改進(jìn):
Identity Loss: 將Re-ID的訓(xùn)練過(guò)程當(dāng)成圖像分類問(wèn)題,同一個(gè)行人的不同圖片當(dāng)成一個(gè)類別,常見(jiàn)的有Softmax交叉熵?fù)p失函數(shù);
Verification Loss:將Re-ID的訓(xùn)練當(dāng)成圖像匹配問(wèn)題,是否屬于同一個(gè)行人來(lái)進(jìn)行二分類學(xué)習(xí),常見(jiàn)的有對(duì)比損失函數(shù),二分類損失函數(shù);
Triplet Loss:將Re-ID的訓(xùn)練當(dāng)成圖像檢索問(wèn)題,同一個(gè)行人圖片的特征距離要小于不同行人的特征距離,以及其各種改進(jìn);
訓(xùn)練策略的改進(jìn):自適應(yīng)的采樣方式(樣本不均衡,難易程度)以及不同的權(quán)重分配策略
2.3 排序優(yōu)化
用學(xué)習(xí)好的Re-ID特征得到初始的檢索排序結(jié)果后,利用圖片之間的相似性關(guān)系來(lái)進(jìn)行初始的檢索結(jié)果優(yōu)化,主要包括重排序(re-ranking)和排序融合(rank fusion)等。

2.4 數(shù)據(jù)集和評(píng)價(jià)
主要包括現(xiàn)有的一些常用圖像和視頻數(shù)據(jù)集的概括,以及現(xiàn)有方法SOTA的一些總結(jié)和分析,希望綜述里面的一些分析能夠在大家進(jìn)行模型設(shè)計(jì)時(shí)提供一些思路和幫助。具體分析詳見(jiàn)原文。
3. Open-World Re-ID
由于常規(guī)的 Closed-world Re-ID 在有監(jiān)督的實(shí)驗(yàn)場(chǎng)景中已經(jīng)達(dá)到或接近瓶頸了,現(xiàn)在很多的研究都更偏向于 Open-World Re-ID 場(chǎng)景,也是當(dāng)前Re-ID研究的熱點(diǎn)。根據(jù)Re-ID系統(tǒng)設(shè)計(jì)的五個(gè)步驟,本章節(jié)也從以下五個(gè)方面介紹:1)多模態(tài)數(shù)據(jù),所采集的數(shù)據(jù)不是單一的可見(jiàn)光模態(tài);2)端到端的行人檢索(End-to-end Person Search),沒(méi)有預(yù)先檢測(cè)或跟蹤好的行人圖片/視頻;3)無(wú)監(jiān)督和半監(jiān)督學(xué)習(xí),標(biāo)注數(shù)據(jù)有限或者無(wú)標(biāo)注的新場(chǎng)景;4)噪聲標(biāo)注的數(shù)據(jù),即使有標(biāo)注,但是數(shù)據(jù)采集和標(biāo)注過(guò)程中存在噪聲或錯(cuò)誤;5)一些其他Open-set場(chǎng)景,查詢行人找不到,群體重識(shí)別,動(dòng)態(tài)的多攝像頭網(wǎng)絡(luò)等。
3.1 多模態(tài)(異構(gòu))數(shù)據(jù)
基于深度圖像Re-ID:旨在利用深度圖信息的匹配(融合或跨模態(tài)匹配),在很多人機(jī)交互的室內(nèi)場(chǎng)景應(yīng)用中非常重要;
文本到圖像Re-ID;旨在利用文字語(yǔ)言描述來(lái)搜索特定的行人圖像,解決實(shí)際場(chǎng)景中查詢行人圖像缺失等問(wèn)題;
可見(jiàn)光到紅外Re-ID:旨在跨模態(tài)匹配白天的可見(jiàn)光圖像到夜晚的紅外行人圖像,也有一些方法直接解決低照度的重識(shí)別任務(wù);
跨分辨率Re-ID;不同高低分辨率行人圖像匹配,旨在解決不同距離攝像頭下行人分辨率差異巨大等問(wèn)題
總體而言,異構(gòu)的行人重識(shí)別問(wèn)題需要解決的一大難題是不同模態(tài)數(shù)據(jù)之間的差異性問(wèn)題
3.2 端到端Re-ID(End-to-end Person Search)
純圖像/視頻的Re-ID;從原始raw 圖像或者視頻中直接檢索出行人;
多攝像頭跟蹤的Re-ID;跨攝像頭跟蹤,也是很多產(chǎn)業(yè)化應(yīng)用的重點(diǎn)。
3.3 半監(jiān)督和無(wú)監(jiān)督的Re-ID
為了緩解對(duì)標(biāo)注數(shù)據(jù)的依賴,半監(jiān)督和無(wú)監(jiān)督/自監(jiān)督現(xiàn)在成為了當(dāng)前研究的熱點(diǎn),在CV頂會(huì)上呈爆炸之勢(shì)。本文也主要分成兩個(gè)部分:無(wú)監(jiān)督Re-ID(不需要標(biāo)注的源域)和無(wú)監(jiān)督域自適應(yīng)Re-ID(需要標(biāo)注的源域數(shù)據(jù)或模型):
無(wú)監(jiān)督Re-ID:主要包括一些跨攝像頭標(biāo)簽估計(jì)(聚類或圖匹配等)的方法,以及一些其他監(jiān)督信息挖掘的方法(如local patch相似性等);
無(wú)監(jiān)督域自適應(yīng)Re-ID:包括一些目標(biāo)域圖像數(shù)據(jù)生成和一些目標(biāo)域監(jiān)督信息挖掘等方式。
考慮到無(wú)監(jiān)督學(xué)習(xí)也是現(xiàn)在研究的熱點(diǎn),本文也對(duì)現(xiàn)有的SOTA做了一個(gè)簡(jiǎn)單的總結(jié)和分析,可以看到現(xiàn)在的無(wú)監(jiān)督學(xué)習(xí)方法已經(jīng)是效果驚人了,未來(lái)可期。如下表所示:

3.4 噪聲魯棒的Re-ID
主要針對(duì)標(biāo)注數(shù)據(jù)或者數(shù)據(jù)采集中產(chǎn)生的一些噪聲或錯(cuò)誤等,方法包括:
Partial Re-ID:解決行人圖像區(qū)域部分被遮擋的行人重識(shí)別問(wèn)題;
Noise Sample:主要針對(duì)行人圖像或視頻中檢測(cè)、跟蹤產(chǎn)生的錯(cuò)誤或偏差
Noise Label:主要針對(duì)行人標(biāo)簽標(biāo)注產(chǎn)生的錯(cuò)誤
3.5 Open-set Re-ID and Beyond
主要針對(duì)一些其他開(kāi)放場(chǎng)景進(jìn)行一些探討,如1)gallery set 中query 行人沒(méi)有出現(xiàn)的場(chǎng)景;2)Group Re-ID:行人群體匹配的問(wèn)題;3)動(dòng)態(tài)的多攝像頭網(wǎng)絡(luò)匹配等問(wèn)題
4. 展望
4.1 新的評(píng)價(jià)指標(biāo)mINP:
考慮到實(shí)際場(chǎng)景中,目標(biāo)人物具有隱匿性,很多時(shí)候要找到其困難目標(biāo)都非常難,給偵查工作帶來(lái)麻煩。mINP主要目的是為了衡量Re-ID算法用來(lái)找到最難匹配樣本所要付出的代價(jià),

其計(jì)算方式跟mAP一樣非常簡(jiǎn)單,應(yīng)該還是對(duì)評(píng)價(jià)Re-ID效果有一定補(bǔ)充作用。簡(jiǎn)單來(lái)講,排名倒數(shù)第一的正確樣本位置越靠后,人工排查干預(yù)的代價(jià)越大,mINP的值越小。這里感謝Fast-ReID(github.com/JDAI-CV/fast )項(xiàng)目對(duì)我們?cè)u(píng)價(jià)指標(biāo)和方法的集成。
4.2 新的基準(zhǔn)方法AGW
主要是在@羅浩 的Bag of tricks(感謝)上做的一些改進(jìn),主要包括:1)Non-local注意力機(jī)制的融合;2)Generalized-mean (GeM) Pooling的細(xì)粒度特征提取;3)加權(quán)正則化的三元組損失(Weighted Regularization Triplet (WRT) loss):

在審稿人的建議下,我們?cè)?span style="outline: 0px;font-weight: 600;">四種不同類型的任務(wù)(圖像Re-ID, 視頻Re-ID,跨模態(tài)紅外Re-ID和Partial Re-ID)的12個(gè)數(shù)據(jù)集上均對(duì)我們提出的新指標(biāo)mINP和AGW方法進(jìn)行了測(cè)評(píng),在大多數(shù)情況下,我們的方法都能夠取得比較好的效果。具體的實(shí)驗(yàn)結(jié)果和分析可以參考我們的論文和補(bǔ)充材料,希望我們的方法和評(píng)價(jià)指標(biāo)能對(duì)大家有一些幫助。
4.3 對(duì)未來(lái)一些研究方向的思考
這一部分也是緊扣前面提出的五個(gè)步驟,針對(duì)五個(gè)步驟未來(lái)亟待解決的關(guān)鍵問(wèn)題或者熱點(diǎn)問(wèn)題進(jìn)行歸納。由于每個(gè)人理解上的認(rèn)知偏差,這里的建議僅供大家參考:
不可控的數(shù)據(jù)采集:不確定多種模態(tài)混合的Re-ID,而不是固定的模態(tài)設(shè)置;換裝的Re-ID,2020年已經(jīng)有好幾個(gè)新的數(shù)據(jù)集;
減少人工標(biāo)注依賴:人機(jī)交互的主動(dòng)學(xué)習(xí),選擇性的標(biāo)注;從虛擬數(shù)據(jù)進(jìn)行學(xué)習(xí)(Learning from virtual data),如何解決虛擬數(shù)據(jù)中的domain gap;
面向Re-ID通用網(wǎng)絡(luò)設(shè)計(jì):Domain Generalized Re-ID,如何設(shè)計(jì)一種在未知場(chǎng)景中也表現(xiàn)優(yōu)異的模型,如何利用自動(dòng)化機(jī)器學(xué)習(xí)來(lái)設(shè)計(jì)針對(duì)Re-ID任務(wù)的網(wǎng)絡(luò)模型;
動(dòng)態(tài)的模型更新:如何以小的代價(jià)將學(xué)習(xí)好的網(wǎng)絡(luò)模型微調(diào)至新攝像頭場(chǎng)景中;如何高效的利用新采集的數(shù)據(jù)(Newly Arriving Data)來(lái)更新之前已訓(xùn)練好的模型;
高效的模型部署:輕量型快速的行人重識(shí)別算法設(shè)計(jì),自適應(yīng)的針對(duì)不同類型的硬件配置(小型的移動(dòng)手機(jī)和大型服務(wù)器)調(diào)整模型。
好消息!
小白學(xué)視覺(jué)知識(shí)星球
開(kāi)始面向外開(kāi)放啦??????
下載1:OpenCV-Contrib擴(kuò)展模塊中文版教程 在「小白學(xué)視覺(jué)」公眾號(hào)后臺(tái)回復(fù):擴(kuò)展模塊中文教程,即可下載全網(wǎng)第一份OpenCV擴(kuò)展模塊教程中文版,涵蓋擴(kuò)展模塊安裝、SFM算法、立體視覺(jué)、目標(biāo)跟蹤、生物視覺(jué)、超分辨率處理等二十多章內(nèi)容。 下載2:Python視覺(jué)實(shí)戰(zhàn)項(xiàng)目52講 在「小白學(xué)視覺(jué)」公眾號(hào)后臺(tái)回復(fù):Python視覺(jué)實(shí)戰(zhàn)項(xiàng)目,即可下載包括圖像分割、口罩檢測(cè)、車道線檢測(cè)、車輛計(jì)數(shù)、添加眼線、車牌識(shí)別、字符識(shí)別、情緒檢測(cè)、文本內(nèi)容提取、面部識(shí)別等31個(gè)視覺(jué)實(shí)戰(zhàn)項(xiàng)目,助力快速學(xué)校計(jì)算機(jī)視覺(jué)。 下載3:OpenCV實(shí)戰(zhàn)項(xiàng)目20講 在「小白學(xué)視覺(jué)」公眾號(hào)后臺(tái)回復(fù):OpenCV實(shí)戰(zhàn)項(xiàng)目20講,即可下載含有20個(gè)基于OpenCV實(shí)現(xiàn)20個(gè)實(shí)戰(zhàn)項(xiàng)目,實(shí)現(xiàn)OpenCV學(xué)習(xí)進(jìn)階。 交流群
歡迎加入公眾號(hào)讀者群一起和同行交流,目前有SLAM、三維視覺(jué)、傳感器、自動(dòng)駕駛、計(jì)算攝影、檢測(cè)、分割、識(shí)別、醫(yī)學(xué)影像、GAN、算法競(jìng)賽等微信群(以后會(huì)逐漸細(xì)分),請(qǐng)掃描下面微信號(hào)加群,備注:”昵稱+學(xué)校/公司+研究方向“,例如:”張三 + 上海交大 + 視覺(jué)SLAM“。請(qǐng)按照格式備注,否則不予通過(guò)。添加成功后會(huì)根據(jù)研究方向邀請(qǐng)進(jìn)入相關(guān)微信群。請(qǐng)勿在群內(nèi)發(fā)送廣告,否則會(huì)請(qǐng)出群,謝謝理解~
