ACM第一名:基于軌跡感知多模態(tài)特征的視頻關(guān)系檢測(cè)
點(diǎn)擊上方“小白學(xué)視覺”,選擇加"星標(biāo)"或“置頂”
重磅干貨,第一時(shí)間送達(dá)

視頻關(guān)系檢測(cè)問題是指對(duì)視頻中不同對(duì)象之間的關(guān)系進(jìn)行檢測(cè),如空間關(guān)系、動(dòng)作關(guān)系等。在本文中,作者提出了基于軌跡感知的多模態(tài)特征的視頻關(guān)系檢測(cè)來解決這一問題??紤]到視頻視覺關(guān)系檢測(cè)的復(fù)雜性,作者將該任務(wù)分解為三個(gè)子任務(wù):目標(biāo)檢測(cè)、軌跡建議和關(guān)系預(yù)測(cè)。作者采用最先進(jìn)的目標(biāo)檢測(cè)方法來保證目標(biāo)軌跡檢測(cè)的準(zhǔn)確性和多模態(tài)特征表示來幫助預(yù)測(cè)目標(biāo)之間的關(guān)系。作者的方法以11.74%的mAP在ACM多媒體2020的視頻關(guān)系理解大挑戰(zhàn)的視頻關(guān)系檢測(cè)任務(wù)中獲得第一名,大大超過了其他方法。
本文提出了一種視頻關(guān)系檢測(cè)方法。作者按照[11]的方案,建立了一個(gè)目標(biāo)軌跡檢測(cè)模塊和一個(gè)關(guān)系預(yù)測(cè)模塊的系統(tǒng)。對(duì)于目標(biāo)軌跡檢測(cè)器,作者首先使用最先進(jìn)的檢測(cè)器級(jí)聯(lián)RCNN[1],以ResNeSt101[17]為骨干,對(duì)每個(gè)視頻幀進(jìn)行目標(biāo)檢測(cè)。然后作者使用seq-NMS[3]改進(jìn)的動(dòng)態(tài)規(guī)劃算法來關(guān)聯(lián)所有幀的目標(biāo)檢測(cè)結(jié)果,并為每個(gè)目標(biāo)生成軌跡。對(duì)于關(guān)系預(yù)測(cè)器,作者結(jié)合運(yùn)動(dòng)特征、視覺特征、語言特征和位置掩模特征對(duì)每對(duì)軌跡進(jìn)行預(yù)測(cè)。多模態(tài)特征的使用有助于提高關(guān)系預(yù)測(cè)的準(zhǔn)確性。作者的方法框架如圖1所示,作者的方法在ACM Multimedia 2020的視頻關(guān)系理解大挑戰(zhàn)[12]視頻關(guān)系檢測(cè)任務(wù)中取得了第一名。

作者的方法框架

十字框架鏈接方式

預(yù)測(cè)網(wǎng)絡(luò)的關(guān)系

作者在維多測(cè)試集上的詳細(xì)評(píng)估分?jǐn)?shù)(%)

與最新的VidOR驗(yàn)證集方法的比較(%)
在本文中,作者提出了軌跡感知的多模態(tài)特征用于視頻關(guān)系檢測(cè)。最后,作者獲得了11.74%的mAP,在ACM多媒體2020視頻關(guān)系理解大挑戰(zhàn)的視頻關(guān)系檢測(cè)任務(wù)中排名第一。
論文鏈接:https://arxiv.org/pdf/2101.08165.pdf
每日?qǐng)?jiān)持論文分享不易,如果喜歡我們的內(nèi)容,希望可以推薦或者轉(zhuǎn)發(fā)給周圍的同學(xué)。
- END?-
交流群
歡迎加入公眾號(hào)讀者群一起和同行交流,目前有SLAM、三維視覺、傳感器、自動(dòng)駕駛、計(jì)算攝影、檢測(cè)、分割、識(shí)別、醫(yī)學(xué)影像、GAN、算法競(jìng)賽等微信群(以后會(huì)逐漸細(xì)分),請(qǐng)掃描下面微信號(hào)加群,備注:”昵稱+學(xué)校/公司+研究方向“,例如:”張三?+?上海交大?+?視覺SLAM“。請(qǐng)按照格式備注,否則不予通過。添加成功后會(huì)根據(jù)研究方向邀請(qǐng)進(jìn)入相關(guān)微信群。請(qǐng)勿在群內(nèi)發(fā)送廣告,否則會(huì)請(qǐng)出群,謝謝理解~

