輕量級(jí)RGB-D顯著目標(biāo)檢測(cè)的中層融合


摘要
不同于現(xiàn)有大多數(shù)模型通常采用雙流或單流結(jié)構(gòu),作者提出采用中層融合結(jié)構(gòu)設(shè)計(jì)輕型RGB-D SOD模型,由于中層融合結(jié)構(gòu)可以同時(shí)利用雙流結(jié)構(gòu)的模態(tài)共享信息和模態(tài)特定信息,并且可以顯著降低單流結(jié)構(gòu)的網(wǎng)絡(luò)參數(shù)。在此基礎(chǔ)上,設(shè)計(jì)了一種新型的信息感知多模態(tài)特征融合模塊,以有效地捕獲交叉模態(tài)互補(bǔ)信息。然后,設(shè)計(jì)了一種輕量級(jí)特征級(jí)和決策級(jí)特征融合(LFDF)模塊,以更少的參數(shù)聚集不同階段的特征級(jí)和決策級(jí)顯著性信息。在中層融合結(jié)構(gòu)中加入了IMFF和LFDF模塊,該模型只有3.9M參數(shù),運(yùn)行速度為33幀/秒。在多個(gè)基準(zhǔn)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果驗(yàn)證了該方法的有效性和優(yōu)越性。

這項(xiàng)工作的主要貢獻(xiàn)如下:
(1)通過對(duì)中級(jí)特征融合的回顧,提出了一種輕型RGB-D SOD模型,該模型效率高、精度好、模型尺寸小,有助于SOD的實(shí)際應(yīng)用。
(2)設(shè)計(jì)了一種新的信息感知多模態(tài)特征融合(IMFF)模塊,利用RGB圖像和深度圖像中所有的區(qū)分性顯著性信息。與大多數(shù)現(xiàn)有模型采用簡(jiǎn)單的融合策略(例如,串聯(lián)和元素級(jí)加)不同,作者提出的IMFF模塊根據(jù)多模態(tài)特征所包含的信息量進(jìn)行融合。
(3)提出了一種輕量級(jí)的特征級(jí)和決策級(jí)特征融合(LFDF)模塊,以更少的參數(shù)有效地聚合不同階段的特征級(jí)和決策級(jí)顯著性信息,實(shí)現(xiàn)更好的顯著性預(yù)測(cè)。

框架結(jié)構(gòu)

大多數(shù)現(xiàn)有RGB-D SOD方法的架構(gòu)。(a)二束結(jié)構(gòu)。(b)及(c)單流結(jié)構(gòu)。(d)作者提出的模型的中層融合結(jié)構(gòu)。

提出的輕量級(jí)RGB-D SOD模型的框架。

作者提出的IMFF模塊的架構(gòu)。

實(shí)驗(yàn)結(jié)果

由不同模型生成的顯著性地圖的可視化。
結(jié)論
在本文中,作者提出了第一個(gè)基于中層融合結(jié)構(gòu)的輕量級(jí)RGB-D SOD模型。通過重新訪問中層融合結(jié)構(gòu),該模型顯著降低了網(wǎng)絡(luò)參數(shù)。此外,本文提出的IMFF模塊利用RGB和深度圖像中不同局部區(qū)域的信息量,可以有效地捕獲參數(shù)較少的交叉模態(tài)互補(bǔ)信息。同時(shí),所提出的LFDF模塊通過特征層和決策層信息的交叉層聯(lián)合融合,可以有效提取交叉層的互補(bǔ)信息?;谥袑尤诤辖Y(jié)構(gòu),該模型只有3.9M參數(shù),運(yùn)行速度為33幀/秒。此外,在多個(gè)基準(zhǔn)上的實(shí)驗(yàn)結(jié)果表明,本文提出的IMFF和LFDF模塊可以在一定程度上彌補(bǔ)由于減小參數(shù)引起的性能下降。
論文鏈接:https://arxiv.org/pdf/2104.11543.pdf
?------------------------------------------------
雙一流高校研究生團(tuán)隊(duì)創(chuàng)建,專注于目標(biāo)檢測(cè)與深度學(xué)習(xí),希望可以將分享變成我們的習(xí)慣。
整理不易,點(diǎn)贊三連!
