第二屆精細(xì)視頻理解挑戰(zhàn)賽(DeeperAction):聚焦行為識(shí)別和異常檢測(cè)

由南京大學(xué)、中國(guó)科學(xué)院深圳先進(jìn)技術(shù)研究院、商湯科技、上海人工智能實(shí)驗(yàn)室聯(lián)合舉辦的第二屆精細(xì)視頻理解挑戰(zhàn)賽(DeeperAction)明日開(kāi)啟,快來(lái)挑戰(zhàn)吧!
本次ECCV 2022的DeeperAction挑戰(zhàn)賽旨在推動(dòng)人類動(dòng)作理解領(lǐng)域研究從傳統(tǒng)的動(dòng)作識(shí)別轉(zhuǎn)向更深入的動(dòng)作理解任務(wù),本次挑戰(zhàn)賽任務(wù)關(guān)注視頻動(dòng)作的詳細(xì)理解和真實(shí)視頻的異常識(shí)別。
具體來(lái)說(shuō),組織者提出了五個(gè)基于不同任務(wù)下的具有高質(zhì)量標(biāo)注的視頻數(shù)據(jù)集,并在此基礎(chǔ)上組織了針對(duì)動(dòng)作理解和異常識(shí)別任務(wù)的五個(gè)賽道的挑戰(zhàn)賽,歡迎大家踴躍參賽!
挑戰(zhàn)賽主頁(yè):https://deeperaction.github.io/
重要日程
組織單位
Track 1:FineAction挑戰(zhàn)賽:時(shí)序動(dòng)作定位?
FineAction數(shù)據(jù)集視頻樣例
論文鏈接:https://arxiv.org/abs/2105.11107
數(shù)據(jù)集主頁(yè):https://deeperaction.github.io/datasets/fineaction.html
賽道簡(jiǎn)介:https://codalab.lisn.upsaclay.fr/competitions/4386
當(dāng)前,大部分動(dòng)作定位數(shù)據(jù)集僅對(duì)行為進(jìn)行粗略定義,如ActivityNet中的籃球訓(xùn)練(Layup drill in basketball)并未被拆分成扣籃或投籃這樣更為精細(xì)的動(dòng)作類別。
然而,粗糙的動(dòng)作類別往往與上下文背景高度相似,造成標(biāo)注動(dòng)作的時(shí)序界限不清晰。
為了填補(bǔ)這一空缺,組織者提出了FineAction這一新基準(zhǔn),包含近 17K 個(gè)未修剪視頻,139K個(gè)精細(xì)動(dòng)作時(shí)序標(biāo)注,為 106 個(gè)動(dòng)作類別進(jìn)行了更明確的動(dòng)作類別定義和更精確的時(shí)序標(biāo)注。該數(shù)據(jù)集的構(gòu)建,為精細(xì)化時(shí)序動(dòng)作定位的研究帶來(lái)新的挑戰(zhàn)與機(jī)遇。
Track 2:MultiSports挑戰(zhàn)賽:時(shí)空動(dòng)作檢測(cè)

MultiSports數(shù)據(jù)集視頻樣例
論文鏈接:https://arxiv.org/abs/2105.07404
數(shù)據(jù)集主頁(yè):https://deeperaction.github.io/datasets/multisports.html
賽道簡(jiǎn)介:https://codalab.lisn.upsaclay.fr/competitions/3736
當(dāng)前時(shí)空動(dòng)作檢測(cè)基準(zhǔn)主要分為兩類:一類是以J-HMBD和UCF101-24為代表的稠密標(biāo)注的高度抽象動(dòng)作數(shù)據(jù)集,這些數(shù)據(jù)集中往往是單人重復(fù)一些簡(jiǎn)單動(dòng)作;
另一類是以AVA和DALY為代表的稀疏標(biāo)注的數(shù)據(jù)集,這些數(shù)據(jù)集中的動(dòng)作缺少明確的邊界,對(duì)于建??焖賱?dòng)作來(lái)說(shuō)不太合適。
為了推動(dòng)時(shí)空動(dòng)作檢測(cè)研究,組織者提出了MultiSports這一新基準(zhǔn)。這一數(shù)據(jù)集有著25fps稠密標(biāo)注,且數(shù)據(jù)集規(guī)模大,有大量多人同時(shí)運(yùn)動(dòng)場(chǎng)景和明確的動(dòng)作界限,部分動(dòng)作(如足球的“pass”和“l(fā)ong ball”)需要較長(zhǎng)的時(shí)序背景才能進(jìn)行區(qū)分,這也對(duì)時(shí)空動(dòng)作檢測(cè)模型提出了更高的要求。
Track 3:SportsMOT挑戰(zhàn)賽:運(yùn)動(dòng)場(chǎng)景中的多目標(biāo)跟蹤

SportsMOT數(shù)據(jù)集視頻樣例
數(shù)據(jù)集主頁(yè):https://deeperaction.github.io/datasets/sportsmot.html
賽道簡(jiǎn)介:https://codalab.lisn.upsaclay.fr/competitions/4433
多目標(biāo)跟蹤(MOT)是計(jì)算機(jī)視覺(jué)中的一項(xiàng)基本任務(wù),目的是估計(jì)視頻序列中的目標(biāo)(如行人和車輛)邊界框和身份。
目前的人體跟蹤MOT數(shù)據(jù)集主要關(guān)注擁擠街道場(chǎng)景中的行人(如MOT17/20)或靜態(tài)場(chǎng)景中的舞者(DanceTrack)。而真實(shí)的運(yùn)動(dòng)場(chǎng)景中往往存在背景圖像復(fù)雜、運(yùn)動(dòng)員運(yùn)動(dòng)迅速、相機(jī)鏡頭快速移動(dòng)等情況,現(xiàn)有的MOT數(shù)據(jù)集缺少這類數(shù)據(jù),無(wú)法應(yīng)對(duì)日益劇增的運(yùn)動(dòng)分析要求。
為此,我們提出了一個(gè)大規(guī)模多目標(biāo)跟蹤數(shù)據(jù)集SportsMOT,它由3個(gè)類別(即籃球、足球和排球)的240個(gè)視頻片段組成。目標(biāo)是在各種運(yùn)動(dòng)場(chǎng)景中跟蹤場(chǎng)上的球員(不跟蹤觀眾、裁判和教練等)。我們希望SportsMOT能鼓勵(lì)社區(qū)更多地關(guān)注復(fù)雜的體育場(chǎng)景。
Track 4:Kinetics-TPS挑戰(zhàn)賽:基于人體部位中層語(yǔ)義的視頻行為解析
Kinetics-TPS數(shù)據(jù)集視頻樣例
數(shù)據(jù)集主頁(yè):https://deeperaction.github.io/datasets/kineticstps.html
賽道簡(jiǎn)介:https://codalab.lisn.upsaclay.fr/competitions/4392
傳統(tǒng)的動(dòng)作識(shí)別往往被視為高層語(yǔ)義的視頻分類任務(wù)(例如:Kinetics400,ActivityNet等),然而這些視頻數(shù)據(jù)集忽視了對(duì)人類行為動(dòng)作的細(xì)節(jié)以及中層語(yǔ)義信息的理解。
為了填補(bǔ)這一空缺,我們提出了Kinetics-TPS這一全新數(shù)據(jù)集。
與現(xiàn)有數(shù)據(jù)集不同,本數(shù)據(jù)集(共24 個(gè)人類行為類別)提供了視頻幀級(jí)別的身體部位標(biāo)注,包括身體10個(gè)部位的7.9M個(gè)標(biāo)注,7.9M個(gè)部位狀態(tài)(即身體部位如何移動(dòng)),以及0.5M個(gè)交互物體,這為更為細(xì)致的視頻行為理解提供可能。
Track 5:UrbanPipe挑戰(zhàn)賽:細(xì)粒度管道視頻異常識(shí)別
UrbanPipe數(shù)據(jù)集視頻樣例
數(shù)據(jù)集主頁(yè):https://deeperaction.github.io/datasets/urbanpipe.html
賽道簡(jiǎn)介:https://codalab.lisn.upsaclay.fr/competitions/4439
視頻異常分析在工業(yè)應(yīng)用中有廣泛需求,尤其在城市管道系統(tǒng)中。城市管道作為城市的重要基礎(chǔ)設(shè)施之一,為保證其正常運(yùn)行,我們需要對(duì)管道缺陷進(jìn)行智能檢測(cè)和定位。
在本次挑戰(zhàn)賽中,我們重點(diǎn)關(guān)注面向復(fù)雜城市管道視頻的細(xì)粒度和多標(biāo)簽缺陷識(shí)別。我們收集了UrbanPipe這一新數(shù)據(jù)集,其數(shù)據(jù)來(lái)自真實(shí)城市管道系統(tǒng)中的QV管道檢測(cè)視頻,并由專業(yè)的工程師標(biāo)注。
本數(shù)據(jù)集包括9600個(gè)視頻,管道類別包括1個(gè)正常類和16個(gè)缺陷類。所有視頻的總時(shí)長(zhǎng)超過(guò)55小時(shí)。每個(gè)視頻的時(shí)長(zhǎng)從0.7秒到177.4秒不等,標(biāo)注的缺陷類別個(gè)數(shù)從1到5個(gè)不等,平均每個(gè)視頻時(shí)長(zhǎng)20.7秒、有1.4個(gè)缺陷類別。視頻按2:1的比例分為訓(xùn)練集和測(cè)試集。我們的目標(biāo)是給定一個(gè)QV視頻,預(yù)測(cè)出這個(gè)視頻中的多個(gè)缺陷類別。
公眾號(hào)后臺(tái)回復(fù)“CVPR 2022”獲取論文合集打包下載~

#?CV技術(shù)社群邀請(qǐng)函?#

備注:姓名-學(xué)校/公司-研究方向-城市(如:小極-北大-目標(biāo)檢測(cè)-深圳)
即可申請(qǐng)加入極市目標(biāo)檢測(cè)/圖像分割/工業(yè)檢測(cè)/人臉/醫(yī)學(xué)影像/3D/SLAM/自動(dòng)駕駛/超分辨率/姿態(tài)估計(jì)/ReID/GAN/圖像增強(qiáng)/OCR/視頻理解等技術(shù)交流群
每月大咖直播分享、真實(shí)項(xiàng)目需求對(duì)接、求職內(nèi)推、算法競(jìng)賽、干貨資訊匯總、與?10000+來(lái)自港科大、北大、清華、中科院、CMU、騰訊、百度等名校名企視覺(jué)開(kāi)發(fā)者互動(dòng)交流~




