天天干干天干天干天干天干天天 ,日韩第一区,欧美日韩国产成人,日韩中AV无码毛片,国产黄视,青娱乐成人在线,国产强暴疼哭处女,尤物视频最新网址

本文是華為諾亞與悉尼大學(xué)在Transformer+CNN架構(gòu)混合方面的嘗試，提出了一種同時具有Transformer長距離建模與CNN局部特征提取能力的CMT。相比之前的各種Transformer變種，本文更傾向于將Transformer的優(yōu)勢集成到CNN中。整體架構(gòu)采用了ResNet的分階段架構(gòu)，Normalization方面采用CNN中常用的BN而非Transformer中的LN，在核心模塊CMTBlock方面，內(nèi)部設(shè)計了具有局部特征提取的LPU，在降低計算量方面對K與V進行了特征分辨率的下降，與此同時將MobileNetV2中的逆殘差思想引入到FFN中得到了IRFFN。總而言之，CMT代表著CV中的Transformer架構(gòu)趨勢又回到了CNN原先研究路線：即CNN為主，其他領(lǐng)域思想為輔。

Abstract

由于其所具有的長距離依賴建模能力，Vision Transformers已被成功應(yīng)用到圖像識別任務(wù)中。然而，其性能與計算量距離優(yōu)秀的CNN仍存在差距。

為解決上述問題，我們設(shè)計了一種新的網(wǎng)絡(luò)CMT，它不僅由于Transformer，同時優(yōu)于高性能CNN。所提CMT是一種混合CNN與Transformer的架構(gòu)，它同時利用率Transformer的長距離建模與CNN的局部特征提取能力。具體來說，所提CMT-S取得了83.5%的top1精度，同時比現(xiàn)有的DeiT快14倍，比EfficientNet快2倍。所提CMT-S同樣具有非常好的泛化性能，比如CIFAR10取得了99.2%，CIFAR100上取得了91.7%，F(xiàn)lowers上取得了98.7%，COCO上取得了44.3%mAP。

Method

本文的初衷是構(gòu)建一種混合網(wǎng)絡(luò)，它同時利用CNN與Transformer的優(yōu)勢。下圖給出了ResNet50、DeiT以及所提CMT的網(wǎng)絡(luò)架構(gòu)示意圖。

如上圖所示，DeiT直接將輸入圖像拆分為非重疊圖像塊，圖像塊的結(jié)構(gòu)信息則通過線性投影方式弱建模。為克服該局限性，我們采用類似ResNet的stem架構(gòu)，它由三個卷積構(gòu)成，但激活函數(shù)采用了GELU，而非ResNet的ReLU。

類似經(jīng)典CNN(如ResNet)架構(gòu)設(shè)計，所提CMT包含四個階段以生成多尺度特征(這對于稠密預(yù)測任務(wù)非常重要)。為生成分層表達，在每個階段開始之前采用卷積降低特征分辨率并提升通道維度。在每個階段，堆疊多個CMT模塊進行特征變換同時保持特征分辨率不變，每個CMT模塊可以同時捕獲局部與長距離依賴關(guān)系。在模型的尾部，我們采用GAP+FC方式進行分類。

給定輸入圖像，我們可以得到四個不同分辨率的分層特征，類似于經(jīng)典的CNN(ResNet, EfficientNet)。所得四個不同分辨率的特征對應(yīng)的stride分別為4、8、16、32，因此，CMT所得多尺度特征表達可以輕易應(yīng)用到下游任務(wù)(比如檢測與分割)中。

CMT Block

所提CMT模塊包含一個局部感知單元(Loal Perception Unit, LPU)、一個輕量型多頭自注意力模塊(Lightweight Multi-Head Self-Attention, LMHSA)以及一個逆殘差前饋網(wǎng)絡(luò)(Inverted Residual Feed-Forward Network, IRFFN)。

Local Perception Unit 旋轉(zhuǎn)與平移是視覺任務(wù)中兩種常見數(shù)據(jù)增廣方法，這些操作應(yīng)當(dāng)不能影響模型最終的結(jié)果。然而，Transformer中的絕對位置編碼會破壞該不變性。此外，Transformer忽略了塊內(nèi)的局部相關(guān)性與結(jié)構(gòu)信息。為緩解該限制，我們提出了局部感知單元以提升局部信息，定義如下：

Lightweight Multi-Head Self-Attention 在原始的自注意力模塊中，輸入X線性變換為Q、K以及V，然后通過如下方式執(zhí)行自注意力操作：

為減少計算復(fù)雜度，我們采用深度卷積降低K與V的空間尺寸，即。此外，類似Swin，我們在自注意力模塊中添加了相對位置偏置B：