MMA-UNet | 一種多模態(tài)非對稱融合網(wǎng)絡(luò),提高紅外與可見圖像融合性能 !
共 14228字,需瀏覽 29分鐘
·
2024-05-09 09:00
多模態(tài)圖像融合(MMIF)將來自不同模態(tài)的有用信息映射到相同的表示空間中,從而產(chǎn)生信息豐富的融合圖像。然而,現(xiàn)有的融合算法傾向于對稱地融合多模態(tài)圖像,這導(dǎo)致融合結(jié)果在某些區(qū)域丟失淺層信息或偏向于單一模態(tài)。
在本文中,作者分析了不同模態(tài)中信息空間分布的差異,并證明了在同一個網(wǎng)絡(luò)中編碼特征不利于實現(xiàn)多模態(tài)圖像的深度特征空間同時對齊。為了克服這個問題,作者提出了一個多模態(tài)非對稱UNet(MMA-UNet)。
作者分別為不同的模態(tài)單獨(dú)訓(xùn)練了專門的特征編碼器,并實施了一種跨尺度融合策略,以保持不同模態(tài)的特征在相同的表示空間內(nèi),確保了平衡的信息融合過程。
此外,作者還進(jìn)行了大量的融合及下游任務(wù)實驗,以證明MMA-UNet在融合紅外和可見圖像信息方面的效率,產(chǎn)生了視覺自然且語義豐富的融合結(jié)果。其性能超越了現(xiàn)有的比較融合方法。
1. Introduction
紅外與可見光圖像融合(IVIF)技術(shù)將不同模態(tài)傳感器捕獲的有用信息整合在一起,以對目標(biāo)場景進(jìn)行全面的解釋(Sang等人,2014年;Wang等人,2015年;Wang等人,2016年;Wang等人,2017年;Wang等人,2018年;Wang等人,2019年)。可見光圖像(VI)有效地捕捉目標(biāo)場景的全局細(xì)節(jié)和顏色信息,而紅外圖像(IR)擅長突出溫度信息。通過有效地融合這兩種模態(tài)的信息,可以實現(xiàn)對各種光照條件和復(fù)雜環(huán)境的全面感知。此外,IVIF可以有效地輔助下游任務(wù),如目標(biāo)檢測、語義分割以及深度估計等。
近年來,IVIF被廣泛分為兩大類:從多模態(tài)圖像中提取特征的傳統(tǒng)圖像處理方法和訓(xùn)練高性能圖像融合模型的神經(jīng)網(wǎng)絡(luò)架構(gòu)。
為了追求更強(qiáng)的泛化能力和融合精度,最近的努力主要集中在神經(jīng)網(wǎng)絡(luò)架構(gòu)上。IVIF是圖像處理領(lǐng)域的一個非典型圖像逆問題,沒有由真實情況指導(dǎo)。因此,在IVIF中難以引入有效的深度學(xué)習(xí)監(jiān)督學(xué)習(xí)范式。然而,現(xiàn)有的無監(jiān)督IVIF方法可以實現(xiàn)吸引人的融合結(jié)果。然而,在多模態(tài)圖像間信息空間分布不一致的情況下進(jìn)行融合仍然是一個未解決的問題。
由于潛在問題,在單一框架內(nèi)融合不同模態(tài)的圖像可能會導(dǎo)致源圖像信息的丟失或偏向于單一模態(tài)的特征。例如,趙等人(Zhao et al., 2019)提出了一種雙分支特征分解IVIF,利用Transformer和卷積層分別提取圖像的全局和局部特征。然而,特征分解模式僅使網(wǎng)絡(luò)能夠從多模態(tài)圖像中學(xué)習(xí)到顯著的細(xì)節(jié)或能量,而沒有考慮它們之間的特征交互,導(dǎo)致融合結(jié)果中多模態(tài)信息分布不均勻。李等人(Li et al., 2020)引入了圖交互模塊以促進(jìn)跨模態(tài)特征交互學(xué)習(xí)。在特征交互之前,必須提取不同模態(tài)圖像的淺層特征。
然而,由于忽略了多模態(tài)圖像之間信息空間分布的不一致性,不能確保在交互學(xué)習(xí)期間輸入到圖交互模塊的多模態(tài)特征位于相同的表示空間內(nèi)。這導(dǎo)致了交互學(xué)習(xí)策略性能的下降。此外,一些研究者(Wang et al., 2019)在特征提取過程中引入了注意力機(jī)制以實現(xiàn)跨模態(tài)感知。這種方法涉及分別為每種模態(tài)的特征生成注意力圖,然后交叉引導(dǎo)多模態(tài)特征的重構(gòu)。
然而,交互式引導(dǎo)可能并不一定有助于有效的特征提取。當(dāng)一個模態(tài)圖像的信息內(nèi)容較小時,生成的注意力圖可能會在識別有用特征時誤導(dǎo)網(wǎng)絡(luò)。羅等人(Luo et al., 2019)提出了一種基于分離表示學(xué)習(xí)的融合方法,以實現(xiàn)圖像的去糾纏表示,并在多模態(tài)圖像中區(qū)分共有和私有特征。
他們遵循多模態(tài)圖像只共享相同共有特征的原則,并使用公式“私有特征 + 共有特征 = 源圖像”來約束網(wǎng)絡(luò)。然而,由于不同模態(tài)捕獲同一場景的固有差異,圖像之間的共有特征可能并不完全相等。它們表示同一事物的相似方面,如在VI中的細(xì)節(jié)和IR中的微弱紋理。總之,上述方法,無論是從全局-局部、跨模態(tài)特征交互、跨注意力引導(dǎo),還是共有-私有特征的角度,都沒有考慮多模態(tài)特征之間信息空間分布的差異。因此,需要復(fù)雜或固定的范式來推理更優(yōu)的融合性能。
在本研究中,作者重新考慮了針對IVIF的多模態(tài)特征提取方法,并設(shè)計了一種簡單有效的非對稱融合結(jié)構(gòu),以克服多模態(tài)圖像中信息空間分布不一致的問題。
作者分析了多模態(tài)特征在空間分布上的差異,并觀察到相同網(wǎng)絡(luò)在不同模態(tài)圖像中達(dá)到深度語義空間的速率存在差異。主要貢獻(xiàn)總結(jié)如下:
-
針對IVIF,作者提出了一種多模態(tài)非對稱UNet(MMA-UNet)架構(gòu),與現(xiàn)有的復(fù)雜范式相比,該方法在融合多模態(tài)特征時更為簡單和高效。 -
作者發(fā)現(xiàn)了紅外(IR)和可見光(VI)之間空間信息分布的差異,并推導(dǎo)出了一個非對稱網(wǎng)絡(luò)。所提出的方法有效地在相同的表示空間中保留了不同模態(tài)的特征,為MMIF提出了一種新的融合范式。 -
作者在現(xiàn)有的公共數(shù)據(jù)集上驗證了MMA-UNet的有效性和優(yōu)越性,在下游任務(wù)上其性能超過了現(xiàn)有的最先進(jìn)算法。
Motivation
現(xiàn)有的IVIF算法主要關(guān)注于高效學(xué)習(xí)多模態(tài)特征交互,而忽略了多模態(tài)圖像中空間信息分布的不一致性。因此,作者重新思考了多模態(tài)融合范式。首先,分別在IR和VI數(shù)據(jù)集上訓(xùn)練了兩個獨(dú)特的UNets,分別表示為IR-UNet和VI-UNet。然后,作者計算了兩個UNets編碼器提取特征的中心核對齊(CKA)(Zhou等人,2017)相似性。如圖1(a)和(b)所示,請注意,層的總數(shù)量遠(yuǎn)大于UNet所述的深度。后者僅考慮網(wǎng)絡(luò)中的卷積層,但作者包括所有中間表示。具體來說,對于UNet框架,第一個卷積塊包含7層特征中間表示,第二到第五個卷積塊包含11層特征中間表示。神經(jīng)網(wǎng)絡(luò)傾向于最初學(xué)習(xí)淺層特征,隨著網(wǎng)絡(luò)深度的增加,它們逐漸深入到更深的語義空間進(jìn)行特征學(xué)習(xí)。淺層特征大多是相似的。然而,隨著網(wǎng)絡(luò)深度的增加,深層和淺層特征之間的差異增加。IR在前22層捕獲淺層特征,因為它們與周圍特征具有更大的相似性,如圖1(a)所示。當(dāng)網(wǎng)絡(luò)深度超過22層時,提取的特征與周圍特征有顯著差異,在圖1中表現(xiàn)為更深的顏色。相反,VI的特征提取網(wǎng)絡(luò)從第12層開始顯示出其獨(dú)特性,并且后續(xù)特征之間的差異持續(xù)增加。因此,作者觀察到在相同架構(gòu)下,VI比IR更快地達(dá)到深層語義空間,并且在作者的網(wǎng)絡(luò)中,VI可以比IR快10層提取淺層信息。
一些研究(Zhou等人,2017;Liu等人,2019)報告稱,多模態(tài)圖像可用于在MMIF中區(qū)分公共特征和私有特征。公共特征具有高相似性,而私有特征則不具備。如圖1(c)所示,作者計算了VI和IR各層特征之間的CKA相似性。IR的前30層特征與VI的前20層特征高度相似,表明IR私有特征的提取速度慢于VI。此外,這再次驗證了上述結(jié)論,即VI比IR更快地達(dá)到深層語義空間。
2. Related Work
作者先從兩個主要領(lǐng)域回顧相關(guān)工作:首先,作者討論基于深度學(xué)習(xí)的圖像分類的最新進(jìn)展;其次,作者涵蓋關(guān)于少樣本學(xué)習(xí)及其在目標(biāo)檢測中應(yīng)用的研究。
Infrared and Visible Image Fusion Methods
現(xiàn)有的基于深度學(xué)習(xí)的IVIF算法主要分為兩類:生成模型和編碼模型。生成模型主要基于生成對抗網(wǎng)絡(luò)(GAN)和擴(kuò)散。它們旨在從潛在空間學(xué)習(xí)數(shù)據(jù)分布,并通過生成數(shù)據(jù)模擬目標(biāo)數(shù)據(jù)的分布。例如,Liu等人(2019)提出了一種面向目標(biāo)的雙對抗學(xué)習(xí)策略,以生成對下游任務(wù)有益的融合結(jié)果。他們設(shè)計了目標(biāo)和細(xì)節(jié)判別器分別從IR和VI學(xué)習(xí)目標(biāo)特征。
為了解決基于GAN模型中訓(xùn)練穩(wěn)定性弱和缺乏可解釋性的問題,Zhao等人(2019)為IVIF引入了去噪擴(kuò)散模型,將融合任務(wù)定義為無條件生成的子問題和一個最大似然子問題。相反,編碼模型不生成新的數(shù)據(jù)樣本,而是從原始輸入數(shù)據(jù)中提取關(guān)鍵特征,將原始數(shù)據(jù)映射到一個更緊湊的表示空間。例如,Ma等人[22]將Swin Transformer引入到圖像融合中,融入了注意力引導(dǎo)的跨域模塊。這種設(shè)計有效地整合了多模態(tài)的互補(bǔ)信息和全局交互信息。
為了增強(qiáng)特征提取的可解釋性,Li等人[10]提出了一種基于表示學(xué)習(xí)的圖像融合框架,建立了數(shù)學(xué)公式和網(wǎng)絡(luò)架構(gòu)之間的聯(lián)系以增強(qiáng)特征提取的可解釋性。他們利用低秩表示學(xué)習(xí)理論建立圖像分解模型,有效地避免了耗時網(wǎng)絡(luò)設(shè)計。由于圖像融合框架的不斷完善,一些研究行人開始分析融合模型在促進(jìn)下游任務(wù)方面的性能。出現(xiàn)了許多多任務(wù)聯(lián)合學(xué)習(xí)方法[15, 34]。例如,融合與目標(biāo)檢測[15],融合與語義分割[17, 34],融合與顯著目標(biāo)檢測[40],以及融合與低光增強(qiáng)[33]。它們通常通過融合結(jié)果在下游任務(wù)上的性能反饋來指導(dǎo)融合網(wǎng)絡(luò)的學(xué)習(xí)。此外,由于多模態(tài)傳感器在成像過程中存在空間變形和不對齊,一些研究提出了“配準(zhǔn)與融合”模型(Shi等人,2017;Wang等人,2018;Wang等人,2019),以有效地避免算法對配準(zhǔn)數(shù)據(jù)對的過度依賴。
3. Method and Analysis
在本節(jié)中,作者首先提供了MMA-UNet的所有組件和損失函數(shù)的詳細(xì)信息。然后,進(jìn)一步分析了非對稱架構(gòu)設(shè)計的原則和可行性以及指導(dǎo)機(jī)制。
IR-UNet and VI-UNet
在第一階段,分別使用紅外(IR)和可見光(VI)獨(dú)立訓(xùn)練了兩個不同的UNet模型。請注意,首先訓(xùn)練的是IR-UNet,然后是VI-UNet訓(xùn)練。如圖2所示,為了訓(xùn)練VI-UNet,作者引入了原始的UNet架構(gòu)(Wang等人,2018年)并通過將輸入和輸出轉(zhuǎn)換為三個通道來進(jìn)行微調(diào)。為了訓(xùn)練IR-UNet,作者利用來自VI的信息來輔助IR-UNet學(xué)習(xí)IR特征,從而加速網(wǎng)絡(luò)的特征提取過程。具體來說,自動編碼器的一部分與VI-UNet是一致的。唯一的區(qū)別在于編碼器的特征提取階段,作者在那里采用Squeeze-and-Excitation(SE塊)(He等人,2016年)來獲得VI信息的注意力圖,然后將它們與IR特征圖進(jìn)行逐元素相乘。這個過程可以將VI捕獲的顯著信息注入到IR特征中,以輔助IR-UNet網(wǎng)絡(luò)提取特征。值得注意的是,在IR-UNet的訓(xùn)練過程中,VI-UNet的參數(shù)被凍結(jié)。為了分別訓(xùn)練這兩個UNet模型,引入了均方誤差(MSE)作為損失函數(shù),以實現(xiàn)圖像分解和重建,使用以下公式:
其中 和 分別表示圖像的高度和寬度, 表示輸入圖像, 表示輸出圖像。
Asymmetric UNet
第二階段涉及融合和重建。與普通的融合方法(Wang等人,2019年)相反,作者采用了非對稱架構(gòu)。由于不同模態(tài)的圖像具有獨(dú)特的信息空間分布,因此在同一架構(gòu)中,提取深層語義特征的卷積層數(shù)也應(yīng)根據(jù)不同模態(tài)而變化。因此,作者設(shè)計了一個非對稱的UNet架構(gòu),通過結(jié)合CKA相似性結(jié)果,使得具有相同信息空間分布的不同模態(tài)特征可以進(jìn)行融合。
具體來說,如圖2所示,作者使用了IR-UNet和VI-UNet的編碼器來提取IR和VI的低 Level 和深層語義特征。隨后,作者將VI-UNet的前四層特征與IR-UNet的最后四層特征進(jìn)行融合。例如,作者將VI-UNet的前四層特征與IR-UNet的最后四層特征融合,生成四組融合特征圖。對于融合策略,作者首先將VI的特征圖下采樣以匹配IR的特征圖大小。然后對添加的特征執(zhí)行特征加法和通道注意力操作(Vaswani等人,2017年),這放大了重要特征并抑制了不相關(guān)特征。最后,作者重建融合特征以獲得融合圖像。
對于解碼器的前三層,作者使用卷積和像素Shuffle操作進(jìn)行上采樣。解碼器的最后一層在原始基礎(chǔ)上添加了一個 卷積核。在第二階段,作者引入了MSE、結(jié)構(gòu)相似性指數(shù)測量(SSIM)和L1范數(shù)來計算相關(guān)的損失函數(shù)。SSIM計算如下:
其中 和 代表兩張不同的圖像。 代表圖像 的均值, 代表圖像 的標(biāo)準(zhǔn)差, 代表圖像 和 的協(xié)方差。 和 是用于防止公式分母接近0的常數(shù)。因此,結(jié)構(gòu)損失, 的計算公式如下:
細(xì)節(jié)損失, ,表達(dá)如下:
其中 是一個索貝爾算子。
總損失函數(shù), ,可以表達(dá)為:
其中F代表融合圖像。
Analysis for Multi-modal Feature Extraction
先前的研究(Wang等人,2018;Wang等人,2019;Wang等人,2019)沒有討論在相同框架下不同模態(tài)的特征提取速率的差異。為此,作者對VI-UNet和IR-UNet的特征圖進(jìn)行了視覺分析。圖3(a)展示了不同層次特征圖的加和結(jié)果。在淺層中,編碼器提取像素級特征,如樹葉和草的紋理以及行人的細(xì)節(jié)。同時,這種淺層信息可以在不同模態(tài)的圖像中被識別。當(dāng)兩個模態(tài)的相同層次執(zhí)行加法操作時,結(jié)果變得冗余。對于MMIF任務(wù),關(guān)注從不同模態(tài)獲得的互補(bǔ)信息至關(guān)重要。對于公共特征,應(yīng)優(yōu)先提取由VI傳感器捕獲的像素,因為它們更接近人類視覺系統(tǒng)(HVS)。此外,處理來自多個模態(tài)的大量相似特征會削弱模型的表示能力,從而影響其性能和泛化能力。相反,非對稱融合對應(yīng)于MMIF的概念,它整合了來自不同模態(tài)圖像的有用信息并消除冗余信息。它融合了IR輻射信息同時保留了VI細(xì)節(jié)。隨著層數(shù)的增加,編碼器提取的特征變得更加抽象。在特征提取深度上存在不平衡,其中一個模態(tài)提取的特征更抽象,而另一個模態(tài)的特征相對較淺。因此,直接融合可能導(dǎo)致模型過度依賴抽象特征,導(dǎo)致信息不平衡。在相同層的融合結(jié)果中失去了來自IR的特征信息,而從非對稱融合策略獲得的結(jié)果中,多個模態(tài)的互補(bǔ)特征得到了很好的保留,如圖3(b)所示。
Analysis for Guidance Mechanism
由于不同模態(tài)的空間信息分布不一致,同一框架內(nèi)提取深層語義特征的速度存在差異。為了加快從紅外圖像(IR)中提取深層語義信息的速度,作者利用視覺圖像(VI)特征來指導(dǎo)每一層IR特征的重建。作者比較了使用兩種不同訓(xùn)練方法獲得的兩組CKA相似性。如圖4所示,在沒有引導(dǎo)機(jī)制的IR-UNet中,僅在30層之后出現(xiàn)了顯著的語義信息分歧。然而,引入引導(dǎo)機(jī)制后,IR-UNet在第22層之后開始展現(xiàn)出深層語義特征。這一實驗現(xiàn)象表明,引導(dǎo)機(jī)制促進(jìn)了跨模態(tài)知識轉(zhuǎn)移,使IR-UNet能夠更快地學(xué)習(xí)與任務(wù)相關(guān)的語義特征,并加速模型的過擬合速度。
4. Experiment
-
實驗部分的開頭。
Experimental Setting
在兩塊NVIDIA GeForce RTX 3090 GPU和一塊64核心的Intel Xeon Platinum 8350C CPU上進(jìn)行了實驗。VI-UNet和IR-UNet的實驗設(shè)置相同。作者選擇了AdamW優(yōu)化器來調(diào)整訓(xùn)練參數(shù)。基礎(chǔ)學(xué)習(xí)率最初設(shè)定為 ,權(quán)重衰減設(shè)定為 。采用了余弦退火策略來自適應(yīng)地調(diào)整學(xué)習(xí)率。在數(shù)據(jù)增強(qiáng)方面,作者采用了隨機(jī)尺寸裁剪。此外,融合框架的實驗設(shè)置與IR-UNet略有不同。基礎(chǔ)學(xué)習(xí)率改為 。在損失函數(shù)中, 和 分別設(shè)置為 和 。
Dataset and Evaluation Metrics
作者選擇了M3FD(劉等,2017)和MSRS(劉等,2017)作為實驗的數(shù)據(jù)集。具體來說,作者從M3FD和MSRS中分別選取了4200和1083對圖像作為訓(xùn)練集。至于測試集,有300對M3FD圖像和361對MSRS圖像。
為了驗證MMA-UNet在融合性能上的優(yōu)越性,作者選擇了七種最先進(jìn)的(SoTA)比較方法。這些比較方法涵蓋了所有流行的多模態(tài)融合(MMF)框架,包括算法展開模型(LRRNet)(劉等,2017),混合模型(CDDFuse)(王等,2017),基于CNN的模型(MFEIF)(劉等,2017),基于Transformer的模型(TGFuse)(王等,2017),基于GNN的模型(IGNet)(王等,2017),基于GAN的模型(TarDAL)(劉等,2017),以及基于擴(kuò)散的模型(DDFM)(王等,2017)。
作者選擇了五種流行的客觀評價指標(biāo)來對不同融合方法進(jìn)行定性評估,包括Chen-Blum度量( ),基于邊緣的相似性度量( ),視覺信息保真度(VIF),結(jié)構(gòu)相似性指數(shù)(SSIM)和峰值信噪比(PSNR)(王等,2017;王等,2017)。對于這些指標(biāo),分?jǐn)?shù)越高代表融合圖像的質(zhì)量越好。
在檢測任務(wù)中,作者使用了M3FD提供的標(biāo)記圖像對,并按照6:3:1的比例將它們劃分為訓(xùn)練集、驗證集和測試集。作者采用了主流的檢測網(wǎng)絡(luò),YOLOv7(Redmon等,2016),來檢測融合結(jié)果。在分割任務(wù)中,作者使用了MSRS提供的訓(xùn)練集和測試集來進(jìn)行分割網(wǎng)絡(luò)的訓(xùn)練和測試實驗(王等,2017)。為了確保實驗的嚴(yán)格性,所有下游任務(wù)模型的實驗設(shè)置嚴(yán)格遵循原文中提供的條件。
Qualitative Analysis
融合分析. 如圖5所示,在細(xì)節(jié)和結(jié)構(gòu)信息方面,MMA-UNet優(yōu)于比較方法。例如,在第一組融合圖像中用圓圈標(biāo)記的區(qū)域,當(dāng)被濃煙遮擋時,MMA-UNet能夠很好地保留由IR捕獲的山脈邊緣輪廓和詳細(xì)紋理信息。此外,在第二組融合結(jié)果中,當(dāng)VI過曝時,MMA-UNet能夠很好地保留IR中的房屋結(jié)構(gòu)并消除過曝。這都是由于在相同特征空間的非對稱融合,實現(xiàn)了不同模態(tài)的信息平衡。最后,IGNet、MFEIF和DDFM在兩組融合結(jié)果中都不同程度地丟失了細(xì)節(jié)信息并降低了對比度。
檢測分析. 圖6展示了MMA-UNet與比較方法在檢測實驗中的對比。在這種情境中,VI中的煙霧遮擋了內(nèi)部的行人信息。因此,融合方法需要識別提取干擾特征的像素,并從IR中捕捉最有價值的的熱能信息。如圖6所示,檢測器在使用MMA-UNet時獲得了最高的準(zhǔn)確度,這表明了所提出算法對下游任務(wù)的有益效果。
分割分析. 圖7展示了不同方法生成的融合圖像的語義分割結(jié)果。正如兩組實驗所示,只有MMA-UNet始終提供最準(zhǔn)確的目標(biāo)信息,并且在捕捉遠(yuǎn)處黑暗中隱藏的行人信息方面表現(xiàn)出強(qiáng)大的能力。這表明所提出的非對稱結(jié)構(gòu)有效地保留了來自不同模態(tài)圖像的互補(bǔ)信息。對于其他算法,由于冗余信息,例如從VI捕捉更詳細(xì)但更弱且更多干擾的像素信息,分割失敗的情況會發(fā)生。
Quantitative Analysis
融合分析。表1列出了兩個公共測試數(shù)據(jù)集中五個客觀度量的平均值。總體而言,無論使用MSRS還是M3FD,MMA-UNet都取得了最佳性能。具體來說,兩個度量標(biāo)準(zhǔn)SSIM和 始終表現(xiàn)出最好的值,表明MMA-UNet能夠保留源圖像的結(jié)構(gòu)和對比度,并生成與HVS最一致的融合結(jié)果。VIF和PSNR的排名略有波動,但始終表現(xiàn)出高性能。優(yōu)秀的PSNR和VIF值證明作者的融合結(jié)果具有強(qiáng)大的魯棒性和高信息保真度。對于兩個數(shù)據(jù)集, 排名第三,MMA-UNet展現(xiàn)出穩(wěn)定的邊緣信息保持能力。
檢測分析。表2展示了包括源圖像在內(nèi)的所有方法在M3FD中各類別的檢測準(zhǔn)確性。MMA-UNet在[email protected]和AP@[0.5:0.95]方面表現(xiàn)出優(yōu)于其他方法的檢測準(zhǔn)確性。由于各種復(fù)雜環(huán)境常常影響單一模態(tài)的檢測性能,而MMIF可以增強(qiáng)檢測魯棒性,因此融合圖像通常能獲得更好的檢測準(zhǔn)確性。此外,MMA-UNet在各種類別中展現(xiàn)出優(yōu)秀的檢測準(zhǔn)確性,特別是對于人類,表明在人類身上保持了優(yōu)秀的細(xì)節(jié)和結(jié)構(gòu)信息。
表1:在M3FD和MSRS數(shù)據(jù)集上,MMA-UNet與七種SoTA方法的定量比較。排名第一、二、三分別用紅色、藍(lán)色和綠色字體表示。
表2:在MSRS數(shù)據(jù)集上,比較方法和MMA-UNet在各類別上的分割準(zhǔn)確性。排名第一、二、三分別用紅色、藍(lán)色和綠色字體表示。
圖3:V11代表UNet第一卷積層的中間特征表示。同樣適用于IR1、IR2、IR3和V2。V1+IR1表示將兩個特征相加以獲得融合圖。V1+IR2、V12+IR2、V12+IR3同理。為了簡化表示,作者省略了采樣操作。
分割分析。表3展示了包括源圖像在內(nèi)的所有方法在MSRS數(shù)據(jù)集上各類別的分割度量。MMA-UNet取得了最佳的分割準(zhǔn)確性。首先,由于MMIF的優(yōu)勢,融合方法通常比單一模態(tài)圖像獲得更高的分割準(zhǔn)確性。此外,MMA-UNet在每個類別的分割準(zhǔn)確性排名更高,表明在不同的場景中具有穩(wěn)定的融合性能和豐富的語義信息生成。
表4:在M3FD數(shù)據(jù)集上,提出的方法和各種消融策略獲得的客觀度量平均值。總體而言,MMA-UNet實現(xiàn)了最佳的融合性能。具體來說,失去了VI對IR-UNet特征提取的指導(dǎo)后,對稱和不對稱融合方法在保留源圖像的結(jié)構(gòu)信息和保真度方面都表現(xiàn)得比MMA-UNet差。這主要?dú)w因于VI的指導(dǎo)有助于對兩種模態(tài)的信息空間分布進(jìn)行對齊,這對后續(xù)的融合和融合圖像重建是有利的。此外,盡管E4使用了VI指導(dǎo)的IR-UNet,但其過于不對稱的方法丟棄了過多的淺層IR信息,導(dǎo)致圖像保真度、結(jié)構(gòu)相似性和邊緣信息保持度顯著下降。最后,從E5可以看出,交換不對稱結(jié)構(gòu)會導(dǎo)致模型融合性能下降。這可以歸因于特征融合表示空間存在顯著差異,導(dǎo)致融合過程中丟失了細(xì)節(jié)和語義信息。
上述實驗證實了所提出不對稱結(jié)構(gòu)的有效性,證實了VI特征提取比IR更快地到達(dá)更深語義空間的結(jié)論的有效性。
表4。E1表示MMA-UNet;E2表示在沒有VI指導(dǎo)的情況下使用IR-UNet進(jìn)行對稱融合;E4表示在VI指導(dǎo)下進(jìn)行IR-UNet的不對稱融合,其中VI-UNet的前三層與IR-UNet的后三層融合;E5表示交換E1的不對稱結(jié)構(gòu)。
圖4。中心核對齊。(a)和(b)分別表示在IR-UNet中,在有無指導(dǎo)機(jī)制的情況下,所有層對之間的CKA相似性計算。
圖5。M3FD和MSRS上MMA-UNet與SoTA比較方法獲得的主觀融合結(jié)果比較。
表3。在M3FD數(shù)據(jù)集上,比較方法和MMA-UNet在各類別上的檢測準(zhǔn)確性。排名第一、二、三分別用紅色、藍(lán)色和綠色字體表示。
5. Discussion
第五節(jié) 討論部分的開頭。
Conclusion
在本研究中,作者提出了一種針對IVIF的不對稱UNet架構(gòu),為融合多模態(tài)圖像特征提供了一種簡單而高效的方法。作者分析了IR和VI模態(tài)之間空間信息分布的差異,并推理出在同一框架內(nèi)從不同模態(tài)提取深層語義特征的速度存在差異。為了解決這個問題,作者設(shè)計了一種基于不同層數(shù)的跨尺度融合規(guī)則。隨后,作者為訓(xùn)練IR-UNet設(shè)計了一種引導(dǎo)機(jī)制,觀察到使用VI特征的簡單引導(dǎo)提高了IR中深層語義特征提取的效率。實驗結(jié)果表明,MMA-UNet優(yōu)于現(xiàn)有主流架構(gòu),在MMIF及下游任務(wù)中取得了良好的性能。
Limitations and Future Work
在本研究中,作者揭示了紅外(IR)和可見光(VI)之間信息空間分布的差異,并提出了一種特殊的、非對稱的、跨尺度融合網(wǎng)絡(luò)架構(gòu)。然而,所提出的非對稱UNet需要手動分析不同模態(tài)圖像之間信息空間分布的差異,并根據(jù)這種差異設(shè)計特征融合的層數(shù)。因此,在未來的工作中,為了將所提出的方法擴(kuò)展到更廣泛的視覺任務(wù)中,作者旨在設(shè)計一種自適應(yīng)機(jī)制,以選擇性地調(diào)節(jié)不同模態(tài)特征融合中層差的調(diào)節(jié)。
參考
[1].MMA-UNet: A Multi-Modal Asymmetric UNet Architecture for Infrared and Visible Image Fusion.
