高效Transformer | 85FPS!CNN + Transformer語義分割的又一境界,真的很快!
本文提出了一種用于城市場景語義分割的高效混合Transformer(EHT),其利用CNN和Transformer結(jié)合學習全局-局部上下文來加強特征表征,性能優(yōu)于ABCNet等網(wǎng)絡(luò),速度高達83.4FPS!代碼將開源!
作者單位:武漢大學,蘭卡斯特大學等
1簡介
高分辨率城市場景圖像的語義分割在土地覆蓋制圖、城市變化檢測、環(huán)境保護和經(jīng)濟評估等廣泛的實際應(yīng)用中起著至關(guān)重要的作用。卷積神經(jīng)網(wǎng)絡(luò)采用分層特征表示,具有很強的局部上下文特征提取的能力。然而,卷積層的局部特性限制了網(wǎng)絡(luò)捕獲全局信息,而這個特點對于改善高分辨率圖像分割至關(guān)重要。
最近, Transformer成為計算機視覺領(lǐng)域的熱門話題。Vision Transformer也展示了其全局信息建模的強大能力,推動了許多視覺任務(wù),例如圖像分類、目標檢測,尤其是語義分割。
在本文中提出了一種用于城市場景圖像語義分割的高效混合Transformer(EHT)。EHT利用CNN和ransformer結(jié)合設(shè)計學習全局-局部上下文來加強特征表示。
大量實驗表明,與最先進的方法相比, EHT具有更高的效率和具有競爭力的準確性。具體來說,所提出的EHT在UAVid測試集上實現(xiàn)了67.0%的mloU,并且明顯優(yōu)于其他輕量級模型。
2本文方法
所提出的efficient hybrid Transformer如圖所示。將Global-Local Transformer Block附加到ResNet18 Backbone的頂部,就像BottleNeck Transformer一樣。利用3個具有3個跨尺度連接的跨尺度融合模塊來聚合多層特征。
2.1 Global-local Transformer Block
提出的Global-local Transformer Block(GLTB)的細節(jié)如下圖所示。主要模塊global-local attention block是一種混合結(jié)構(gòu),采用linear multi-head self-attention捕獲全局上下文信息,采用卷積層提取局部上下文信息。
最后,對全局上下文和局部上下文應(yīng)用一個add操作來提取全局-局部上下文。
1、Linear multi-head self-attention
本文提出了一種線性注意力機制,用泰勒展開的一階近似來代替softmax函數(shù)。本文將線性注意力改進為線性多頭自注意力,以獲得更高的效率和更強的序列建模。具體公式推導(dǎo)過程如下:
設(shè)歸一化函數(shù)為softmax,則自注意力注意產(chǎn)生的結(jié)果矩陣的第 行可表示為:
其中 是第 個特征。根據(jù)泰勒的擴展:
為了保證上述近似是非負的, 和 被歸一化 ,從而確保 :
因此,(1)式可以重寫為(4)式,并簡化為(5)式:
進而有:
上式可以轉(zhuǎn)化為矢量形式:
和 可以計算得到并可以為每個query重用。
注意: 在線性多頭自注意力的輸出上部署了一個可訓(xùn)練的尺度因子,以實現(xiàn)穩(wěn)定的上下文聚合。
2、Locality-enhanced模塊
采用2個并行卷積層,然后是一個BN操作來提取局部上下文信息。
生成的全局局部上下文進一步進行深度卷積、批歸一化操作和 卷積,以增強泛化能力。
2.2 Cross-scale融合模塊
1、Cross-scale連接
采用兩個并行卷積層,然后是一個BN操作來提取局部上下文信息。Cross-scale連接的細節(jié)如下圖所示。上采樣操作的比例因子為2。L為重復(fù)次數(shù)。3個跨尺度連接對應(yīng)3個跨尺度融合模塊。3個跨尺度連接的Atrous卷積擴張率分別為6、12和18。
2、加權(quán)特征融合
將Cross-scale連接生成的3種語義特征通過加權(quán)元素求和運算與相應(yīng)的殘差特征和上采樣的全局局部語義特征進行聚合,以增強泛化能力。公式如下:
其中 為Resize操作,用來統(tǒng)一 和 ; 為 卷積操作,用來統(tǒng)一 和 通道的數(shù)量;而 為3個特征的權(quán)重系數(shù),其中 。
進一步聚合作為Head的輸入,用于最終的分割。
3實驗
Backbone:可以通過ResNet-18和像UNet一樣的逐層特征融合來構(gòu)建。
Backbone+CFM:用跨尺度融合模塊代替逐層特征融合來構(gòu)建一個簡單的變體。利用該變體驗證了跨尺度融合模塊的有效性。
Backbone+CFM+GLTB:將Global-Local Transformer塊插入到Baseline+CFM來生成整個EHT,可以證明所提方法的有效性。
可以看出本文所提模塊可以很好的兼顧全局和局部的上下文信息,值得小伙伴們進行學習和借鑒。
4參考
[1].Efficient Hybrid Transformer: Learning Global-local Context for Urban Sence Segmentation
5推薦閱讀
【書童的學習筆記】集智小書童建議你這么學習Transformer,全干貨!??!
改進UNet | 透過UCTransNet分析ResNet+UNet是不是真的有效?
詳細解讀TPH-YOLOv5 | 讓目標檢測任務(wù)中的小目標無處遁形
長按掃描下方二維碼添加小助手。
可以一起討論遇到的問題
聲明:轉(zhuǎn)載請說明出處
掃描下方二維碼關(guān)注【集智書童】公眾號,獲取更多實踐項目源碼和論文解讀,非常期待你我的相遇,讓我們以夢為馬,砥礪前行!
