【CV】關(guān)注度越來越高的行人重識別,有哪些熱點?
By 超神經(jīng)
內(nèi)容提要:行人重識別技術(shù),廣泛應(yīng)用于智慧城市、自動駕駛等場景中,近年取得飛速發(fā)展。這也得益于訓練數(shù)據(jù)規(guī)模的擴大、深度學習的發(fā)展。
關(guān)鍵詞:行人重識別 數(shù)據(jù)集 前沿技術(shù)
在茫茫人海中,你能不能一眼就找到想找的那個人?
如今,這個任務(wù)對于計算機來說,可能是小菜一碟了。而這得益于近年行人重識別技術(shù)的飛速發(fā)展。
行人重識別(Person Re-identification),也稱行人再識別,簡稱 ReID,是利用計算機視覺技術(shù),判斷圖像或者視頻序列中,是否存在特定行人的技術(shù)。直觀點來說,就是能夠通過穿著、體態(tài)、發(fā)型等特征,識別出不同場景中的同一個目標人物,因此它也被稱作跨境追蹤技術(shù)。

行人重識別被稱為人臉識別之后的「殺手級應(yīng)用」
行人重識別已經(jīng)成為人臉識別之后,計算機視覺領(lǐng)域的一個重點研究方向。
盡管人臉識別技術(shù)已經(jīng)十分成熟,但在很多情況下,比如人群密集、或監(jiān)控攝像頭分辨率低、拍攝角度較偏等,人臉常常無法被有效識別。行人重識別便成為了重要補充。
因此,人臉重識別近年來也得到越來越多的關(guān)注,其相關(guān)應(yīng)用也日益廣泛。
了解一項技術(shù),我們首先要了解它解決的問題是什么,如何取得突破,發(fā)展到什么階段了,又存在哪些挑戰(zhàn)。接下來,我們將進行全面解析。
行人重識別用在哪兒?
首先,上文中已提到,行人重識別是人臉識別技術(shù)的一個重要補充。
人臉識別的前提是:清晰的正臉照。但在圖像只有背面、或其它看不到人臉的角度時,人臉識別便失效了。這時候,行人重識別便可通過姿態(tài)、衣著等特征,繼續(xù)追蹤目標人物。
目前,行人重識別技術(shù)在安防領(lǐng)域、自動駕駛等領(lǐng)域都有著廣泛的應(yīng)用。比如:
智能安防:警方辦案人員能夠借助 ReID 幫助快速篩查可疑人員;
智能尋人系統(tǒng):在人流量較大的場所如機場、火車站,通過 ReID 尋找走失兒童和老人;
智能商業(yè):ReID 可以根據(jù)行人外觀的照片,實時動態(tài)跟蹤用戶軌跡,以此了解了解用戶在商場的興趣所在,以便優(yōu)化用戶體驗;
自動駕駛系統(tǒng):通過 ReID,能夠更好地識別行人,提升自動駕駛安全性。

某安防領(lǐng)域解決方案提供商,借助 ReID 快速尋回走失少年
技術(shù)突破的關(guān)鍵:大規(guī)模數(shù)據(jù)集
根據(jù)相關(guān)研究者總結(jié),實現(xiàn)行人重識別技術(shù),一般需要以下五個步驟:
數(shù)據(jù)收集;
包圍框生成;
訓練數(shù)據(jù)標注;
模型訓練;
行人檢索
其中,數(shù)據(jù)收集作為第一步,是整個行人重識別研究的基礎(chǔ)。近年來,行人重識別之所以取得重大突破,離不開大規(guī)模數(shù)據(jù)集的推動與支撐。
本篇將介紹幾個行人檢測常用數(shù)據(jù)集,以供大家研究和訓練模型。
INRIA Person Dataset 行人檢測數(shù)據(jù)集
INRIA Person 數(shù)據(jù)集目前是最流行的、使用最多的靜態(tài)行人檢測數(shù)據(jù)集之一,由 INRIA(法國國家信息與自動化研究所)于 2005 年發(fā)布。該數(shù)據(jù)集用來對圖像和視頻中的直立行人進行檢測。
該數(shù)據(jù)集包含兩類格式的數(shù)據(jù)。
第一類:原始圖像和相應(yīng)的直立行人標注;
第二類:標準化為 64x128 像素的直立行人正類和對應(yīng)圖片的負類圖像。
數(shù)據(jù)集中每張圖片上只標出身高 > 100cm 的直立的人
該數(shù)據(jù)集基本信息如下:
INRIA Person Dataset
發(fā)布機構(gòu): INRIA
包含數(shù)量:訓練集與測試集共 2573 張圖像
數(shù)據(jù)格式:正樣本為 .png 格式,負樣本為 .jpg 格式
數(shù)據(jù)大?。?/strong>969MB
更新時間:2005 年
下載地址:https://hyper.ai/datasets/5331
相關(guān)論文:
https://lear.inrialpes.fr/people/triggs/pubs/Dalal-cvpr05.pdf
UCSD Pedestrian 行人視頻數(shù)據(jù)集
UCSD Pedestrian 行人視頻數(shù)據(jù)由加州大學和香港城市大學收集整理,于 2013 年 2 月發(fā)布。
該數(shù)據(jù)集用于運動分割和人群計數(shù)。數(shù)據(jù)集包含了 UCSD(加州大學圣迭戈分校)人行道上行人的視頻,均來自一個固定的攝像機。
其中,所有視頻為 8 位灰度,尺寸 238×158,10 幀/秒。原始視頻是 740×480,30 幀/秒,如果有需求可以提供。
視頻目錄包含兩個場景的視頻(分為 vidf 和 vidd 兩個目錄)。每個場景都在自己的 vidX 目錄中,并被分割成一組 .png 片段。

數(shù)據(jù)集示例
該數(shù)據(jù)集基本信息如下:
UCSD Pedestrian Dataset
發(fā)布機構(gòu): UCSD,香港城市大學
包含數(shù)量:長度約 10 小時的視頻
數(shù)據(jù)格式:.png
數(shù)據(jù)大小:vidf:787MB;vidd:672MB
更新時間:2013 年 2 月
下載地址:https://hyper.ai/datasets/9370
相關(guān)論文:
http://visal.cs.cityu.edu.hk/static/downloads/crowddoc/README-vids.pdf
Caltech Pedestrian Detection Benchmark
Caltech Pedestrian Detection Benchmark 數(shù)據(jù)庫,由加州理工學院于 2009 年發(fā)布,并且每年都持續(xù)更新。
該數(shù)據(jù)庫是目前規(guī)模較大的行人數(shù)據(jù)庫,包含約 10 個小時的視頻,主要由行駛在城市中正常交通環(huán)境的車輛的車載攝像頭拍攝,視頻的分辨率為 640x480,30 幀/秒。
視頻中標注了共計約 250000 幀(約 137 分鐘),350000 個矩形框,2300 個行人,另外還對矩形框之間的時間對應(yīng)關(guān)系及其遮擋的情況進行標注。

該數(shù)據(jù)集基本信息如下:
Caltech Pedestrian Dataset
發(fā)布機構(gòu): 加州理工學院
包含數(shù)量:訓練集與測試集共2573 張圖像
數(shù)據(jù)格式:.jpg
數(shù)據(jù)大?。?/strong>11.12GB
更新時間:2019 年 7 月
下載地址:https://hyper.ai/datasets/5334
相關(guān)論文:
http://www.vision.caltech.edu/Image_Datasets/CaltechPedestrians/files/CVPR09pedestrians.pdf
先進方法有哪些?
行人重識別領(lǐng)域的研究已有近三十年,近年來,該技術(shù)得益于數(shù)據(jù)集的大規(guī)?;?、深度學習的發(fā)展,取得了長足的發(fā)展。
我們在此例舉兩個最新提出的方法,以供大家學習與參考。
消除不同攝像機的風格差異問題
在計算機視覺國際頂會 CVPR 2020 中,中科院發(fā)表的論文《Unity Style Transfer for Person Re-Identification》(《行人重識別的一致風格轉(zhuǎn)移》)中,提出了一種 UnityStyle 自適應(yīng)方法,該方法可以統(tǒng)一不同攝像機之間的風格差異。

論文地址:http://r6a.cn/dbWQ
無論是同一攝像頭還是不同攝像頭,在拍攝畫面時,受時間,光照,天氣等影響,都會產(chǎn)生較大的差異,為目標查詢帶來困難。
為了解決這個問題,研究團隊首先創(chuàng)建了 UnityGAN 來學習相機之間的風格變化,為每個相機生成形狀穩(wěn)定的 styleunity 圖像,將其稱之為 UnityStyle 圖像。
同時,他們使用 UnityStyle 圖像來消除不同圖像之間的風格差異,使得 query(查詢目標)和 gallery(圖像庫)之間更好地匹配。
然后,他們將所提出的方法應(yīng)用于重新識別模型,期望獲得更具有風格魯棒性的深度特征用于查詢。

團隊在廣泛使用的基準數(shù)據(jù)集上進行了大量的實驗來評估所提框架的性能,實驗結(jié)果證實了所提模型的優(yōu)越性。
解決行人遮擋問題
曠視研究院在 CVPR 2020 中發(fā)表的論文《High-Order Information Matters: Learning Relation and Topology for Occluded Person Re-Identification》中,解決了該領(lǐng)域中,經(jīng)常出現(xiàn)也最具挑戰(zhàn)性的問題——行人遮擋問題。

論文地址:https://arxiv.org/pdf/2003.08177.pdf
該論文中,曠視研究院提出的框架,包括:
一個一階語義模塊(S),它可以取人體關(guān)鍵點區(qū)域的語義特征;
一個高階關(guān)系模塊(R),它能對不同語義局部特征之間的關(guān)系信息進行建模;
一個高階人類拓撲模塊(T),它可以學習到魯棒的對齊能力,并預(yù)測兩幅圖像之間的相似性。
這三個模塊以端到端的方式進行聯(lián)合訓練。

論文中對高階信息和拓撲關(guān)系的說明
此前,我們還曾在《史上最火 ECCV 已開幕,這些論文都太有意思了》中介紹了,由華中科技大學,中山大學,騰訊優(yōu)圖實驗室發(fā)表的論文《請別打擾我:在其他行人干擾下的行人重識別》,該論文提出的方法,解決了擁擠場景中、背景行人干擾或人體遮擋造成的錯誤檢索結(jié)果問題。感興趣的同學,可以再次回顧。
熱點技術(shù),尚存難點
目前,行人重識別仍然面臨不小的挑戰(zhàn),包括數(shù)據(jù)、效率、性能等方面。
拿數(shù)據(jù)方面來說,不同場景(如室內(nèi)和室外)、不同季節(jié)風格的變換、不同時間(如白天和晚上)光線差異等,獲取的視頻數(shù)據(jù)都會有很大差異,這些都是行人重識別的干擾因素。這些干擾因素不僅影響模型識別準確度,也會影響識別效率。

非可控環(huán)境下行人識別存在的難點
因此,盡管在現(xiàn)有應(yīng)有案例中,我們看到行人重識別甚至已經(jīng)超過了人類的分辨能力,但仍然有很多問題需要解決。
轉(zhuǎn)至以下鏈接:https://hyper.ai/datasets,搜索「行人」,或點擊閱讀原文,可獲取更多行人檢測數(shù)據(jù)集。
—— 完 ——
往期精彩回顧
獲取一折本站知識星球優(yōu)惠券,復(fù)制鏈接直接打開:
https://t.zsxq.com/662nyZF
本站qq群1003271085。
加入微信群請掃碼進群(如果是博士或者準備讀博士請說明):
