MPASNET:用于視頻場景中無監(jiān)督深度人群分割的運(yùn)動先驗(yàn)感知SIAMESE網(wǎng)絡(luò)
點(diǎn)擊上方“小白學(xué)視覺”,選擇加"星標(biāo)"或“置頂”
重磅干貨,第一時間送達(dá)

人群分割是擁擠場景分析的基礎(chǔ)任務(wù),獲取精細(xì)的像素級分割圖是人們非常希望實(shí)現(xiàn)的。然而,這仍然是一個具有挑戰(zhàn)性的問題,因?yàn)楝F(xiàn)有的方法要么需要密集的像素級注釋來訓(xùn)練深度學(xué)習(xí)模型,要么僅僅從光學(xué)或粒子流與物理模型生成粗略的分割地圖。在本文中,作者提出了運(yùn)動先驗(yàn)感知Siamese網(wǎng)絡(luò)(MPASNET)用于無監(jiān)督人群語義分割。這個模型不僅消除了注釋的需要,而且產(chǎn)生了高質(zhì)量的分割圖。特別地,作者首先分析幀間的相干運(yùn)動模式,然后對集合粒子采用圓形區(qū)域合并策略生成偽標(biāo)記。此外,作者為MPASNET配備了siamese分支,用于增強(qiáng)不變正則化和siamese特征聚合。在基準(zhǔn)數(shù)據(jù)集上的實(shí)驗(yàn)表明,作者的模型在mIoU方面的性能優(yōu)于目前最先進(jìn)的模型12%以上。

MPASNET與以往方法的比較
據(jù)作者所知,這項(xiàng)工作是第一個專注于人群分割的基于無監(jiān)督深度學(xué)習(xí)的模型。作者的貢獻(xiàn)總結(jié)如下:
作者重新討論了基于運(yùn)動相似度的方法,并提出了以集體運(yùn)動粒子為中心的掩模圓形區(qū)域合并來產(chǎn)生近似的標(biāo)注用于深度人群分割。
作者設(shè)計(jì)了一個端到端的暹羅網(wǎng)絡(luò)和相關(guān)的損耗函數(shù)來學(xué)習(xí)自生成的偽標(biāo)簽。
作者在兩個有代表性的數(shù)據(jù)集上評估了作者的無監(jiān)督方法,顯著優(yōu)于最先進(jìn)的方法。

提出的MPASNET結(jié)構(gòu)。(a)以增廣圖像為輸入的暹羅分支。(b)暹羅特征聚合。(c)運(yùn)動引導(dǎo)圓形區(qū)域合并的偽標(biāo)記。(d)分割頭。

與最新方法的定性比較。(一)原始幀。(b) CM[4]提取的運(yùn)動粒子。(c) CrowdRL的分割結(jié)果。(d) CM合成的圓形區(qū)域合并偽標(biāo)簽。(e) MPASNET分割結(jié)果。(f)地面真理。作者的方法比其他方法有了明顯的改進(jìn)。

在IoU方面與最新方法的定量比較。MPASNET*表示沒有siamese分支的訓(xùn)練MPASNET(即沒有augmented - invariant regularization and siamese feature aggregation)。

每個成分的影響。AIR:增廣不變正則化。SFA:Siamese特性聚合。Dice:Dice損失。CE:交叉熵?fù)p失。
在本文中,作者提出了用于無監(jiān)督深度人群語義分割的MPASNET。與現(xiàn)有的方法不同,作者的模型利用運(yùn)動先驗(yàn)生成偽標(biāo)簽,無需人工操作,從而學(xué)習(xí)在缺乏地面真相的情況下生成高質(zhì)量分割地圖。實(shí)驗(yàn)表明,與最先進(jìn)的無監(jiān)督方法相比,作者的框架取得了實(shí)質(zhì)性的改進(jìn)。
論文鏈接:https://arxiv.org/pdf/2101.08609.pdf
- END -
交流群
歡迎加入公眾號讀者群一起和同行交流,目前有SLAM、三維視覺、傳感器、自動駕駛、計(jì)算攝影、檢測、分割、識別、醫(yī)學(xué)影像、GAN、算法競賽等微信群(以后會逐漸細(xì)分),請掃描下面微信號加群,備注:”昵稱+學(xué)校/公司+研究方向“,例如:”張三?+?上海交大?+?視覺SLAM“。請按照格式備注,否則不予通過。添加成功后會根據(jù)研究方向邀請進(jìn)入相關(guān)微信群。請勿在群內(nèi)發(fā)送廣告,否則會請出群,謝謝理解~

