↑ 點擊藍字?關注極市平臺

作者丨戰(zhàn)斗系牧師@知乎（已授權(quán)）

來源丨h(huán)ttps://zhuanlan.zhihu.com/p/421925918

編輯丨極市平臺

極市導讀

作者從研究背景、原理出發(fā)詳細介紹了他們中稿IROS-2021的工作：為 RGB-T 語義分割任務提出了一個兩階段的特征增強注意網(wǎng)絡—FEANet。在實驗方面，F(xiàn)EANet在客觀指標和主觀視覺比較方面優(yōu)于其他最先進的 (SOTA) RGB-T方法。>>加入極市CV技術(shù)交流群，走在計算機視覺的最前沿

首先，非常激動的和大家說一個本應該三個多月前就激動的一個消息，就是我們的FEANet的工作在IROS-2021上被接收了，當然這絕對離不開老師和師兄，所以在開頭先感激一下老師和師兄。也應各位很想知道我干了啥的同學的需求，如果有機會的話，可以引用一下這篇文章。

原文鏈接：https://arxiv.org/abs/2110.08988

第一部分

我們第一部分直觀的通過2個問題快速介紹一下我們的研究背景，先讓大家了解一下這篇文章的工作做了些什么。

1、RGB-T是干什么的？

答：在紋理相似、背景暗光，復雜的場景下，RGB圖像往往并不能為模型訓練提供更多更具有區(qū)分度的信息，因此常常會導致預測結(jié)果不準確，或者沒有辦法識別出物體。近年來隨著熱成像相機的普及，我們發(fā)現(xiàn)熱紅外信息對于照明條件差產(chǎn)生的識別模糊非常有效，例如在城市街景的語義分割任務中就取到了很好的效果，（RGB-T城市街景數(shù)據(jù)集鏈接：https://www.mi.t.u-tokyo.ac.jp/static/projects/mil_multispectral/）。因此，可以將熱像儀生成的熱紅外圖像作為重要的信息補充。

2、FEANet是干什么的？

答：我們?yōu)?RGB-T 語義分割任務提出了一個兩階段的特征增強注意網(wǎng)絡 (FEANet)。具體來說，就是我們引入了一個特征增強注意力模塊（FEAM）從通道和空間的兩個方向去提高模型的信息挖掘能力和增強模型的多級特征的提取和整合能力。

FEANet的網(wǎng)絡結(jié)構(gòu)，中間長得不是很好看的是 CAM可視化對于FEAM效果的一個直觀的表達，可以看出FEAM結(jié)構(gòu)能夠很好的整合Thermal和RGB圖像上的特征信息，并且也加強了RGB和Thermal圖像的一個細節(jié)特征的捕獲能力，以及部分物體的長距離建模都有了明顯的改善。

第二部分

FEANet為什么可以？在這一部分我打算把文章網(wǎng)絡結(jié)構(gòu)中的幾個idea由來的始末給大家介紹一下。

Idea1：雙encode，skip-connect結(jié)構(gòu)

我們的FEANet的工作起初是基于RTFNet上進行改進的，在RTFNet的文中的消融實驗結(jié)構(gòu)充分表明了雙encoder，skip-connect結(jié)構(gòu)的強大之外，RTFNet其實是具有很強的可加工性的。沒錯其實主要的原因就是它encoder部分太像Unet了，就讓人忍不住想魔改它，就這樣RTFNet就成為了我們這次的baseline。然后，我們基于RTFNet在數(shù)據(jù)集上的不足點進行改進，同時，也與最新的（RTFNet的同一作者）的另一篇的FuseSeg進行一個指標上的競技。通過與RTFNet的結(jié)果進行研究，我們很快就發(fā)現(xiàn)了問題。

RTFNet在物體的細節(jié)上的分割非常的粗糙以及沒有辦法識別出小物體（比如：色錐），結(jié)合當時注意力機制模塊對與細小目標上的良好表現(xiàn)來看，是否可以通過引入注意力機制模塊來改善上述的不足之處呢？

Idea2：FEAM結(jié)構(gòu)（注意力機制模塊）

其實FEAM是受到另一篇文章BBSNet（基于RGB-D數(shù)據(jù)所開發(fā)的網(wǎng)絡）的啟發(fā)構(gòu)建的，BBSNet是一篇成功將當時非常紅的CBAM模塊（圖中的DEM結(jié)構(gòu)）植入了網(wǎng)絡的encode部分并取得SOTA效果的網(wǎng)絡，那么本著RGB-D和RGB-T都是多光譜的圖像會不會可以相互借鑒的好奇心態(tài)，我們設計了一個FEAM模塊，使用注意力機制從融合數(shù)據(jù)中學習特征，然后改進網(wǎng)絡的預測結(jié)果。

Idea3：為什么每層都添加

繼續(xù)本著RGB-D和RGB-T都是多光譜的圖像會不會可以相互借鑒的好奇心態(tài)，我們是否可以按照，RGB-FEAM-Thermal的結(jié)構(gòu)模式去改造RTFNet呢？然后就有了我們第一版實驗的。實驗結(jié)果當時記得是：mAcc是69.1，mIou是54.1。其實從實驗結(jié)果上看，我們已經(jīng)高出了RTFNet一大截有多了，當時我都興奮的蹦起來了，但是后面師兄看到結(jié)果后只是默默的給我發(fā)來FuseSeg這篇文章，我當時第一時間看了網(wǎng)絡結(jié)構(gòu)，哦原來是用FuseNet161換了ResNet152而已，但是當后面翻到結(jié)果一看，上面兩個指標都高于目前我們設計的FEANet的的時候，人都傻了。

還記得那天晚上組會的時候老師和我們說，現(xiàn)在指標都高于RTFNet就先和RTFNet做比較，就用田忌賽馬的策略，如果故事講得好說不定還有中的機會。我也在那時候真正的明白到了指標競爭的殘酷之處。如果故事到這里的話也許就看不見現(xiàn)在的每層都加的FEANet了。

記得當時還希望說能不能通過調(diào)參數(shù)的方法打倒這兩個指標，在調(diào)了兩天參數(shù)后的一個晚上，我看到了之前自己做的CAM可視化的一個代碼，然后就試著可視化了當時的添加FEAM后每一層網(wǎng)絡。可視化的過程我突然想到，其實Thermal本質(zhì)上不是想利用熱力信息對RGB中明顯可以看出的物體進行補充，而是給RGB看不見的信息進行一個補充，所以兩張圖關注到的對象不一樣?？梢暬笤赥hermal上添加了FEAM結(jié)構(gòu)后，更加堅定了每層都加的想法，所以抱著試一試的心態(tài)進行了，每層都加的實驗，最后實驗出來了，mAcc：71.2，mIou：54.3，然后就有你們現(xiàn)在看到的FEANet網(wǎng)絡結(jié)構(gòu)了。

Idea4：loss函數(shù)不是傳統(tǒng)的交叉熵

這個損失函數(shù)組合是通過一次天池上的語義分割比賽上看到并記下來的，DiceLoss 和 SoftCrossEntropy組合。本質(zhì)上就是針對樣本不平衡進行進行優(yōu)化的，還記得當時師兄進行實驗的時候，有一個有經(jīng)驗的博士說過可以通過改變損失函數(shù)對于樣本不平衡的現(xiàn)象進行優(yōu)化，只是當時實驗出來的結(jié)果就有種拆東墻補西墻的感覺，但是沒有想到組合后的損失函數(shù)也能夠順利下降并且對各個指標有有了提升，最后就有了我們的結(jié)果：

添加了FEAM結(jié)構(gòu)后并沒有引入了很大的參數(shù)量，也沒有造成推理速度的下滑，所以

FEANet: Feature-Enhanced Attention Network for RGB-Thermal Real-time Semantic Segmentation

由此誕生

第三部分

論文成功接受后的復盤，通過下面五個問題進行一個總結(jié)復盤

1、FEAM結(jié)構(gòu)會不會過時了？

答：會，當時論文發(fā)的時候TransFormer已經(jīng)把CNN按在地上了，整個朋友圈CV清一色的TransFormer，但是我們在設計的時候由于TransFormer還沒有蔓延到下游任務中，都是在圍繞著ViT圖像分類中進行的，ICCV2021的best paper SWIN-TransFormer在各類比賽中作為backbone碾壓各種CNN結(jié)構(gòu)的網(wǎng)絡，也許是時候了。看著指標做來做去都是60~70,50~55，當時就連評審都說只是高了0.8%而已，所以可能只是可能啊，更好的預訓練模型會不會帶來更好的結(jié)果呢？

2、BBSNet后續(xù)的cascade結(jié)構(gòu)為啥沒有延用呢？

答：實驗證明，F(xiàn)EANet可能真的不適合這種結(jié)構(gòu)，從因為與Deep圖像補充RGB同一物體信息不同，Thermal圖像是補充與RGB不同物體信息的，也許過分的級聯(lián)會導致特征與特征間的語義對沖，從而會導致反作用，從結(jié)果上看也確實是的，并不適合。但是會不會有更適合的結(jié)構(gòu)呢？別急，下篇工作告訴你。

3、實時性只在RTX 2080TI上反映靠譜嗎？

答：見人見智的問題，以前他們都是在RTX 2080TI上進行對比實驗的所以我們這么對比也是為了更加直觀的反映我們比他們好，所以最開始在RTX 2080TI提實時性的這個文章可能責任全在它身上了，但是我相信很快部署在例如Jetson的輕量化RGB-T很快就會到來了，別細問，問就是下一篇文章的內(nèi)容。

4、skip-connect真的可靠嗎？

實驗表明是可靠的，但是換個角度看現(xiàn)在也許是可靠了，但是如果這個是RGB-T-D這種多多模態(tài)的任務呢？如果是RGB-1-2-3-4-5-6呢？還這樣連嗎？skip-connect我感覺還是過于粗暴了，其實可以從可視化后的兩個結(jié)構(gòu)融合的圖像上，確實出現(xiàn)了對于同一物體的不同識別結(jié)果的語義對沖，那有沒有更好的方式組合，能夠更加降低兩種特征融合發(fā)生丟失，或者沖突的問題呢？會有的，也許就是下一篇文章。

第四部分

感謝

我還記得這篇文章是寒假一個月時間趕出來的，為了投當時的3月的IROS，其實回想當時，過年的時候我們都還在拼命的研究和工作，老師和師兄都付出了非常多的心力，論文改又改，我的結(jié)構(gòu)圖也是畫了又畫，都忘記是第40幾版了，非常慶幸的是我們的辛苦工作最終得到了認可，文章被接受了，但是更值得慶幸的是，我能夠認識老師和師兄。最后再次的感謝各位幫助過我的師兄，還有同伴們，我們下一次頂會見。

如果覺得有用，就請分享到朋友圈吧！

△點擊卡片關注極市平臺，獲取最新CV干貨

公眾號后臺回復“CVPR21檢測”獲取CVPR2021目標檢測論文下載～

極市干貨

神經(jīng)網(wǎng)絡：視覺神經(jīng)網(wǎng)絡模型優(yōu)秀開源工作：timm庫使用方法和最新代碼解讀

技術(shù)綜述：綜述：神經(jīng)網(wǎng)絡中 Normalization 的發(fā)展歷程｜CNN輕量化模型及其設計原則綜述

算法技巧（trick）：8點PyTorch提速技巧匯總｜圖像分類算法優(yōu)化技巧