論文解讀:醫(yī)學(xué)影像中的注意力機(jī)制

Introduction:對過往醫(yī)學(xué)圖像分割方法的看法
1、在多數(shù)經(jīng)典模型中對于多尺寸的使用,如unet結(jié)構(gòu),FCN結(jié)構(gòu)。由于在一開始就是同樣的low-level信息進(jìn)行不斷的特征提取,所以會造成信息的冗余使用。
2、過往模型應(yīng)用在像素級別的分割挑戰(zhàn)中的時(shí)候(如,醫(yī)學(xué)領(lǐng)域的分割),可能會表現(xiàn)出判別能力的不足。
二、對于當(dāng)下用于提高學(xué)習(xí)特征表達(dá)能力的方法,如多尺度的上下文融合,使用空洞卷積,pooling等方式的看法
1、盡管之前的做法可以獲得目標(biāo)在不同尺寸下的信息,但是對于所有的image的上下文聯(lián)系都是homogenous的和非自適應(yīng)的, 忽略 了在不同類別中,local-feature和上下文依賴之間的差異。
2、這些多尺度的上下文依賴基本上都是人為設(shè)定的,缺乏模型自身的靈活性. 這使得對于圖像中的一些長距離的聯(lián)系沒有辦法被充分利用,而這些對于醫(yī)學(xué)圖像分割卻是至關(guān)重要的。
三、對于注意力機(jī)制的看法
1、注意力機(jī)制的運(yùn)用可以很好的突觸分割區(qū)域的特征,并且抑制其他的噪音部分。
2、作者在本文中也使用了較為完善的注意力機(jī)制:a.對于不同尺寸的語義信息使用注意力機(jī)制;b.每個(gè)注意力模型均由position注意力模型和channel注意力模型兩個(gè)部分組成;通過這樣的方式可以讓模型學(xué)習(xí)到更加廣泛和豐富的上下文依賴信息,以及提升不同channel間上下文的依賴程度。
Method:對論文模型的詳細(xì)描述
一、模型的總體描述
由于在常規(guī)的CNN中,global feature通常都是基于local receptive field 獲得的。所以對于long-range的上下文依賴并沒有被充分的表達(dá)出來。因此作者引入了注意力機(jī)制來解決該問題。首先通過多尺寸的策略來獲取全局feature, 然后將所學(xué)習(xí)到的全局特征引入到注意力模塊中。注意力模塊由空間注意力模塊和channel注意力模塊兩部分組成。注意力模塊一方面可以幫助局部特征與全局特征的融合,另一方面也可以過濾到不相關(guān)的噪音信息。模型整體結(jié)構(gòu)如下圖所示:

二、多尺寸注意力機(jī)制
整個(gè)模型是基于ResNet-101進(jìn)行的改進(jìn),Res-2, Res-3, Res-4, Res-5所生成的特征圖F0,F(xiàn)1,F(xiàn)2, F3; 將他們通過線性插值的方式上采樣到相同的尺寸,即F's. 講所生成的F'0, F'1, F'2, F'3進(jìn)行concate操作,而后進(jìn)行卷積操作,生成多尺寸融合特征圖FMS:

接著,把生成的FMS與F'0, F'1, F'2, F'3分別進(jìn)行concate操作,而后進(jìn)行卷積,最后fed into 注意力模型。得到不同的尺寸下的注意力特征圖A0, A1,A2,A3:

三、空間和channel注意力特征圖
這篇文章中的spatial and channel attention self-attention modules 主要來自于另外一篇論文:Dual Attention Network for Scene Segmentation

position attention module part:用于捕獲長距離的依賴,解決局部感受野的問題。
前三個(gè)分支中,前兩個(gè)分支F0和F1計(jì)算位置間的相關(guān)性矩陣

再由位置之間的相關(guān)性矩陣

指導(dǎo)第三條分支

計(jì)算得到空間注意力圖,與輸入進(jìn)行加權(quán)和:

channel attention module(CAM):捕獲通道間存在的依賴關(guān)系,增強(qiáng)特定的語義特征表示。
與spatial attention module 類似,三個(gè)分支中,前兩個(gè)分支先計(jì)算channel中不同位置的相關(guān)性矩陣,再與第三個(gè)分支相乘,得到關(guān)于channel的注意力圖,最終與輸入進(jìn)行加權(quán)和:

最后將空間注意力圖與通道注意力圖進(jìn)行元素加操作得到空間-通道注意力特征圖。
四、注意力loss

F一方面輸入到注意力模型中產(chǎn)生注意力特征圖,另一方面進(jìn)入一個(gè)unet結(jié)構(gòu)中,兩個(gè)encode部分生產(chǎn)第一個(gè)注意力loss:

兩個(gè)unet結(jié)構(gòu)輸出的結(jié)構(gòu)生成第二個(gè)注意力loss:

分割loss為:

最終的總loss為:

參考資料
