論文提出用于特征金字塔的高效特征交互方法FPT，包含3種精心設(shè)計的特征增強操作，分別用于借鑒層內(nèi)特征進行增強、借鑒高層特征進行增強以及借鑒低層特征進行增強，F(xiàn)PT的輸出維度與輸入一致，能夠自由嵌入到各種包含特征金字塔的檢測算法中，從實驗結(jié)果來看，效果不錯
來源：曉飛的算法工程筆記公眾號

論文: Feature Pyramid Transformer

論文地址：https://arxiv.org/abs/2007.09451
論文代碼：https://github.com/ZHANGDONG-NJUST/FPT

Introduction

? 講論文前先捋一下CNN網(wǎng)絡(luò)結(jié)構(gòu)相關(guān)的知識，論文的思想主要來自兩個，一個是特征金字塔結(jié)構(gòu)，一個是Non-local網(wǎng)絡(luò)：

首先是特征金字塔，如圖1a，CNN網(wǎng)絡(luò)以層級結(jié)構(gòu)的形式逐層提取更豐富的特征，然后使用最后的特征層進行預(yù)測。但對于一些小物體而言，最后一層的特征圖往往沒有足夠的像素點進行預(yù)測。為了更好地對不同大小的物體進行預(yù)測，人們提出圖1b的金字塔特征，大物體使用高層的粗粒度特征，小物體使用底層的細(xì)粒度特征。對于一些pixel-level任務(wù)，比如語義分割，需要綜合不同層的上下文信息進行細(xì)致的預(yù)測，所以就需要圖1c的預(yù)測結(jié)構(gòu)。
其次是Non-local network，該網(wǎng)絡(luò)借鑒了NLP模型的Self-attention思想，如圖1d所示，能夠借鑒特征圖上的其它特征點來對當(dāng)前特征點進行增強。

? 基于上面兩個思想，論文提出了FPT(Feature Pyramid Transformer)，結(jié)構(gòu)如圖1e所示，核心在特征金字塔上進行類似Non-local的特征增強，然后再使用多層特征進行預(yù)測。FPT設(shè)計了3種特征增強操作，也是論文的主要貢獻：

ST(Self-Transformer)：跟non-local操作一樣在對當(dāng)前層進行特征增強。
GT(Grounding Transformer)：這是top-down形式的non-local操作，將高層特征(尺寸小的)分別用于低層特征的增強。
RT(Rendering Transformer)：這是bottom-up形式的non-local操作，將低層特征(尺寸大的)分別用于高層特征的增強。

Feature Pyramid Transformer

? FPT的特征轉(zhuǎn)換流程如圖2所示，輸入為金字塔特征，首先對每層特征分別進行ST、GT、RT特征增強得到多個增強后的特征，然后對增強的特征按尺寸進行排序，將相同大小的特征concate到一起，通過卷積將增強后的特征維度恢復(fù)到輸入時的相同維度。

Non-Local Interaction Revisited

? 由于論文提出的特征增強操作與non-local操作有很大關(guān)系，這里需要先介紹下non-local的思想。常規(guī)non-local操作的輸入為單特征圖上的queries(Q), keys(K)和values(V)，輸出與尺寸相同的增強特征：

，，，、和為對應(yīng)的線性變換，和為特征圖上的第和位置上的特征，為相似度函數(shù)，默認(rèn)為點積，為歸一化函數(shù)，默認(rèn)為softmax，為權(quán)重集成函數(shù)，默認(rèn)為矩陣相乘，為輸出特征圖的第位置上的特征。

Self-Transformer

? ST為改進版non-local操作，如圖1a所示，主要有兩點不同：

將和分為部分，然后計算每部分的每組和相似度分?jǐn)?shù)
相似度計算使用改進的MoS(Mixture of Softmaxes)函數(shù)：為特征集成時的權(quán)重，為可學(xué)習(xí)的線性變換，為所有的均值。

? 基于上述的改進，ST定義為：

Grounding Transformer

? GT是top-down形式的non-local操作，如圖2c所示，借用高層的粗粒度特征來增強低層的細(xì)粒度特征。在計算時，相似度計算由點積替換為更高效的歐氏距離：

，。GT跟ST一樣將和分為部分，完整的定義為：

? 在特征金字塔中，高低層特征分別包含圖片的全局和局部信息，而對于語義分割任務(wù)，不需要關(guān)注過多高層的全局信息，更多的是需要query位置附近的上下文信息，所以圖3b的跨層卷積對語義分割任務(wù)十分有效。由于GT操作是全局計算，所以論文提出了局部約束(Locality-constrained)的GT操作LGT，如圖3c所示，每個只與高層局部區(qū)域的和進行計算。高層局部區(qū)域以對應(yīng)的位置為中心，邊長(square size)為固定值。如果高層的局部區(qū)域越出了特征圖，則使用0代替。

Rendering Transformer

? 與GT相反，RT是bottom-up形式的non-local操作，借用低層的細(xì)粒度特征來增強高層的粗粒度特征。RT也是局部約束(Locality-constrained)的，以channel-wise進行計算的，定義高層特征為，低層特征為和，計算步驟包含如下：

對和進行全局平均池化得到權(quán)重。
使用權(quán)重對進行加權(quán)得到。
對進行帶stride的卷積下采樣得到。
使用卷積對進行調(diào)整，并與相加，再過一層卷積后輸出。

? 完整RT的定義為：

為外積函數(shù)，為帶stride的卷積，為用于調(diào)整的卷積，為包含卷積的特征相加函數(shù)。

Experiments

? 在COCO上與其它算法的對比實驗。

? 在多個數(shù)據(jù)集上的進行語義分割性能對比。

Conclusion

? 論文提出用于特征金字塔的高效特征交互方法FPT，包含3種精心設(shè)計的特征增強操作，分別用于借鑒層內(nèi)特征進行增強、借鑒高層特征進行增強以及借鑒低層特征進行增強，F(xiàn)PT的輸出維度與輸入一致，能夠自由嵌入到各種包含特征金字塔的檢測算法中，從實驗結(jié)果來看，效果不錯。

下載1：何愷明頂會分享

在「AI算法與圖像處理」公眾號后臺回復(fù)：何愷明，即可下載。總共有6份PDF，涉及 ResNet、Mask RCNN等經(jīng)典工作的總結(jié)分析

下載2：leetcode?開源書

在「AI算法與圖像處理」公眾號后臺回復(fù)：leetcode，即可下載。每題都 runtime beats 100% 的開源好書，你值得擁有！


下載3 CVPR2020

在「AI算法與圖像處理」公眾號后臺回復(fù)：CVPR2020，即可下載1467篇CVPR?2020論文
個人微信（如果沒有備注不拉群！）
請注明：地區(qū)+學(xué)校/企業(yè)+研究方向+昵稱

覺得不錯就點亮在看吧

FPT：又是借鑒Transformer，這次多方向融合特征金字塔 | ECCV 2020