密集場(chǎng)景下的行人跟蹤替代算法,頭部跟蹤算法 | CVPR 2021
點(diǎn)擊下方“AI算法與圖像處理”,一起進(jìn)步!
重磅干貨,第一時(shí)間送達(dá)
報(bào)告鏈接:https://www.bilibili.com/video/BV1Ug411M7Kt/
https://arxiv.org/abs/2103.13516 https://github.com/Sentient07/HeadHunter
大家好,以后我將開(kāi)一個(gè)新的系列,這個(gè)系列的內(nèi)容,主要是從發(fā)過(guò)頂會(huì)的大佬們公開(kāi)的報(bào)告中總結(jié)(大部分都是英文的),計(jì)劃將一些優(yōu)秀的工作報(bào)告視頻,整理成圖文,供大家一起學(xué)習(xí)。一起學(xué)習(xí)頂會(huì)大佬們?nèi)绾巫鲅芯?,如何分析?wèn)題,解決問(wèn)題,并驗(yàn)證結(jié)果的正確性以及宣傳包裝自己的科研成果 (highlight 創(chuàng)新點(diǎn))。
計(jì)劃更新頻率一周一篇
求分享,求點(diǎn)贊支持,一起努力做一個(gè) 合格的算法工程師!

這篇文章是CVPR 2021 的最新論文,文章的標(biāo)題:

文章的主要內(nèi)容是提出了一種行人跟蹤的替代算法,嘗試跟蹤行人中最清晰可見(jiàn)的部位(頭部)來(lái)代替跟蹤人體,因?yàn)槿梭w存在嚴(yán)重的遮擋現(xiàn)象。同時(shí)貢獻(xiàn)了一個(gè)新的數(shù)據(jù)集 Crowd of Heads Dataset (CroHD) ,并且提出了一個(gè)新的評(píng)價(jià)跟蹤器的指標(biāo) IDEucl 。
在活動(dòng)識(shí)別、異常檢測(cè)、機(jī)器人導(dǎo)航、視覺(jué)監(jiān)控、安全規(guī)劃等領(lǐng)域有著廣泛的應(yīng)用
摘要
在擁擠的視頻序列中跟蹤人是視覺(jué)場(chǎng)景理解的重要組成部分。不斷增加的人群密度挑戰(zhàn)了人類的可見(jiàn)度,限制了現(xiàn)有行人跟蹤器對(duì)更高人群密度的可擴(kuò)展性。為此,我們提出用人頭群數(shù)據(jù)集(Crowd of Heads Dataset,CroHD)恢復(fù)人頭跟蹤,該數(shù)據(jù)集由9個(gè)11463幀的序列組成,包含2276838個(gè)人頭和5230個(gè)在不同場(chǎng)景中注釋的軌跡。在評(píng)價(jià)方面,我們提出了一個(gè)新的指標(biāo)IDEucl來(lái)衡量一個(gè)算法在圖像坐標(biāo)空間中保持最長(zhǎng)距離唯一身份的有效性,從而建立了行人擁擠運(yùn)動(dòng)與跟蹤算法性能之間的對(duì)應(yīng)關(guān)系。此外,我們還提出了一種新的頭部檢測(cè)器HeadHunter,它是為擁擠場(chǎng)景中的小頭部檢測(cè)而設(shè)計(jì)的。我們擴(kuò)展了一個(gè)粒子濾波和基于顏色直方圖的頭部跟蹤再識(shí)別模塊的HeadHunter。為了建立一個(gè)強(qiáng)大的基線,我們將我們的跟蹤器與CroHD上現(xiàn)有的最先進(jìn)的行人跟蹤器進(jìn)行了比較,并展示了其優(yōu)越性,特別是在保持身份的跟蹤指標(biāo)方面。我們相信,我們的研究成果將有助于在密集人群中進(jìn)行行人追蹤,因?yàn)槲覀冇幸粋€(gè)輕便的頭部探測(cè)器和一個(gè)能有效保存身份的跟蹤器。

主要內(nèi)容
在這項(xiàng)工作中,提出了一種在密集人群中進(jìn)行跟蹤的替代方法,通過(guò)視頻最明顯的部位來(lái)跟蹤行人,即頭部。不斷增加的人群密度,對(duì)人的能見(jiàn)度來(lái)說(shuō)是個(gè)挑戰(zhàn)。
將現(xiàn)有的行人跟蹤器的可拓展性,由于了更高人群密度中的遮擋問(wèn)題,大大降低了目標(biāo)檢測(cè)器的性能。(存在的問(wèn)題)
為了應(yīng)對(duì)這些挑戰(zhàn),同時(shí)在擁擠的人群環(huán)境中有效跟蹤人,作者重新思考了多目標(biāo)跟蹤任務(wù),通過(guò)清晰可見(jiàn)的部位來(lái)跟蹤人類(解決方案)。
為此,我們提出了一個(gè)新的數(shù)據(jù)集。crow hd crowd of heads 數(shù)據(jù)集,是由標(biāo)簽的行人頭部組成,用于跟蹤分布在五個(gè)場(chǎng)景中在不同照明環(huán)境下的全高清分辨率密集人群(解決方案)。

而現(xiàn)有的跟蹤是跟蹤算法的有說(shuō)服力的性能指標(biāo),他們沒(méi)有量化跟蹤器能夠在圖像坐標(biāo)空間中保留身份的真實(shí)情況的比例(存在的問(wèn)題)。為了彌補(bǔ)這一差距,我們提出 IDEucl 一個(gè)度量標(biāo)準(zhǔn)(解決方案),該度量基于它在圖像坐標(biāo)空間中保持一致身份的效率,為了直觀地理解我們的指標(biāo),請(qǐng)考慮上面顯示的示例,圖中兩個(gè)跟蹤器 a 和 b 計(jì)算相同ground truth 軌跡的不同身份。

跟蹤器 a 在前 150 幀中提交了三個(gè)身份切換,而另一方面,跟蹤器 b 在前 150 幀保持一致的身份,但在后 150 幀中提交了三個(gè)身份切換。然而,現(xiàn)有的指標(biāo)報(bào)告了,兩個(gè)跟蹤器的分?jǐn)?shù)相同,因此無(wú)法區(qū)分。它們作為我們提議的 ide ucl 措施 ,顯示了基于圖像坐標(biāo)空間y軸上中行進(jìn)距離的跟蹤器,它能夠區(qū)分兩個(gè)跟蹤器并報(bào)告跟蹤器 a 的分?jǐn)?shù)為 0.3,跟蹤器 b 的分?jǐn)?shù)為 0.67(驗(yàn)證猜想)。


作為補(bǔ)充,我們?cè)赾row hd 上開(kāi)發(fā)了一個(gè)頭部檢測(cè)器baseline,稱為HeadHunter,它更適合在擁擠的人群中進(jìn)行頭部檢測(cè)。HeadHunter是一個(gè)端到端的 two-stage 具有三個(gè)功能特點(diǎn)的檢測(cè)器(解決方案)。首先它使用特征金字塔網(wǎng)絡(luò)在多個(gè)尺度上提取特征,使用 resnet 50 作為backbone。圖像中外貌和頭部是同質(zhì)的,并且經(jīng)常在擁擠的場(chǎng)景中像無(wú)關(guān)緊要對(duì)象(通常是背景),因此我們?cè)黾恿艘粋€(gè)每個(gè)單獨(dú)的 fpns 之上的context-sensitive prediction module,因?yàn)闄z測(cè)行人頭部是檢測(cè)許多小尺寸的問(wèn)題,相鄰放置的目標(biāo),我們?cè)谔卣魃鲜褂棉D(zhuǎn)置卷積,跨越所有金字塔層級(jí)以提升每個(gè)特征圖的空間分辨率。最后,我們使用帶區(qū)域提議網(wǎng)絡(luò)(rpn)的faster rcnn 頭,rpn 生成目標(biāo)提議(object proposals),而回歸和分類頭每個(gè)分別提供位置偏移和置信度分?jǐn)?shù),通過(guò)三個(gè)主要組件的簡(jiǎn)單組裝,我們的頭部檢測(cè)器實(shí)現(xiàn)了scut head 數(shù)據(jù)集的state-of-the-art 結(jié)果。


本文采用粒子濾波框架和基于顏色直方圖的HeadHunter Re-ID 模塊對(duì)獵頭進(jìn)行擴(kuò)展,HeadHunter的工作原理可以概括為四個(gè)主要步驟
從 HeadHunter 中提取特征
從之前的視頻幀中回歸和預(yù)測(cè)部位的位置
Re-ID:基于顏色直方圖的匹配
初始化新的檢測(cè)
首先從前一幀初始化的headhunter軌跡中提取給定幀的特征,然后基于運(yùn)動(dòng)模型進(jìn)行回歸,并在新的幀中,根據(jù)它們的重要度權(quán)重估計(jì)它們的位置,然后使用基于顏色直方圖的re-identification來(lái)最小化身份切換,最后對(duì)于沒(méi)有粒子匹配的建議,在當(dāng)前幀中初始化新的檢測(cè)
結(jié)果

在CroHD和MOTChallenge之間對(duì)比相同的序列
ours 是在CroHD上評(píng)估,而others 實(shí)在MOTChallenge上評(píng)估
s-MOTA , s-IDF1, s-MT:由于各自檢測(cè)器的MODA導(dǎo)致各自的得分尺度不一致
我們的方法大大優(yōu)于其他方法
我們討論了我們工作中最有趣的結(jié)果頭部跟蹤器和全身跟蹤器之間的比較,我們?cè)贑roHD和MOTChallenge數(shù)據(jù)集之間對(duì)比相同的序列,相同的序列確保跟蹤器在場(chǎng)景中相同行人的全身和頭部邊界框上進(jìn)行評(píng)估為了進(jìn)行比較,我們?cè)u(píng)估了 HeadHunter t在CroHD數(shù)據(jù)集 ground truth 上的表現(xiàn),同時(shí)評(píng)估了mott challenge數(shù)據(jù)集ground truth 上公布的最新方法,因?yàn)槲覀兪褂昧伺c其他方法不同的目標(biāo)探測(cè)器。性能指標(biāo)之間的直接比較是不公平的,因此對(duì)于每個(gè)序列,我們測(cè)量了跟蹤得分相對(duì)于他們的目標(biāo)探測(cè)器得分,以獲得我們的方法大大優(yōu)于其他方法,表明跟蹤頭部檢測(cè)更適合于跟蹤環(huán)境中涉及行人密度高。
努力分享優(yōu)質(zhì)的計(jì)算機(jī)視覺(jué)相關(guān)內(nèi)容,歡迎關(guān)注:
個(gè)人微信(如果沒(méi)有備注不拉群!) 請(qǐng)注明:地區(qū)+學(xué)校/企業(yè)+研究方向+昵稱
下載1:何愷明頂會(huì)分享
在「AI算法與圖像處理」公眾號(hào)后臺(tái)回復(fù):何愷明,即可下載。總共有6份PDF,涉及 ResNet、Mask RCNN等經(jīng)典工作的總結(jié)分析
下載2:終身受益的編程指南:Google編程風(fēng)格指南
在「AI算法與圖像處理」公眾號(hào)后臺(tái)回復(fù):c++,即可下載。歷經(jīng)十年考驗(yàn),最權(quán)威的編程規(guī)范!
下載3 CVPR2021 在「AI算法與圖像處理」公眾號(hào)后臺(tái)回復(fù):CVPR,即可下載1467篇CVPR 2020論文 和 CVPR 2021 最新論文
點(diǎn)亮
,告訴大家你也在看
