<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          CycleMLP:一種用于密集預(yù)測的mlp架構(gòu)

          共 2682字,需瀏覽 6分鐘

           ·

          2023-03-04 09:20

          來源:DeepHub IMBA

          本文約1800字,建議閱讀8分鐘

          CycleMLP可以處理各種大小的圖像并利用局部窗口實現(xiàn)了計算復(fù)雜度與圖像大小的線性關(guān)系。


          CycleMLP由香港大學(xué)、商湯科技研究院和上海人工智能實驗室共同開發(fā),在2022年ICLR上發(fā)布。

          MLP-Mixer, ResMLP和gMLP,其架構(gòu)與圖像大小相關(guān),因此在目標(biāo)檢測和分割中是無法使用的。而CycleMLP有兩個優(yōu)點。(1)可以處理各種大小的圖像。(2)利用局部窗口實現(xiàn)了計算復(fù)雜度與圖像大小的線性關(guān)系。

          Cycle FC

          Cycle Fully-Connected Layer (Cycle FC) 和 Channel FC 、Spatial FC比較:

          • Channel FC:在空間大小為“1”的通道維度上聚合特征。它可以處理各種輸入尺度,但不能學(xué)習(xí)空間上下文。
          • Spatial FC (MLP-Mixer, ResMLP, & gMLP):在空間維度上有一個全局感受野。但是它的參數(shù)大小是固定的,并且對圖像尺度具有二次計算復(fù)雜度。
          • 論文的Cycle FC:具有與通道FC相同的線性復(fù)雜度和比通道FC更大的感受野。
          • (d)-(f)為三個不同步長示例:橙色塊表示采樣位置。F表示輸出位置。為了簡單起見省略了批處理尺寸,并將特征的寬度設(shè)置為1。

          在保持計算效率的同時,擴大mlp類模型的接受域,以應(yīng)對下游密集的預(yù)測任務(wù)。

          Cycle FC引入(SH, SW)的感受野,其中SH和SW分別為步長,隨高度和寬度維數(shù)變化。基本的Cycle FC算子可以表述為:

          大小為 Cin×Cout 的 Wmlp 和大小為 Cout 的 b 是Cycle FC的參數(shù)。δi(c)和δj(c)為第c通道上兩軸的空間偏移量,定義如下:

          上圖中(d)表示SH=3時沿兩軸的偏移量,即δj(c)=0, δi(c)={- 1,0,1, - 1,0,1,…},當(dāng)c= 0,1,2,…,8時。(e)表示當(dāng)SH=H時,周期FC具有全局感受野。(f)表示當(dāng)SH=1時,沿任何軸都沒有偏移,因此Cycle FC退化為Channel FC。

          上表所示,更大的感受野帶來了對語義分割和對象檢測等密集預(yù)測任務(wù)的改進。同時,Cycle FC在輸入分辨率上仍然保持了計算效率和靈活性,flop和參數(shù)數(shù)均與空間尺度呈線性關(guān)系。

          與Transformer中的MHSA比較

          受 Cordonnier ICLR’20 的啟發(fā),具有 Nh 個頭的多頭自注意力 (MHSA) 層可以表示如下,類似于具有以下內(nèi)核大小的卷積:

          Wmlp與Wmhsa的關(guān)系可以表述為:

          Cycle FC中的參數(shù)size為Cin×Cout, Wmhsa為K×K×Cin×Cout。Cycle FC還引入了一個歸納偏差,即MHSA中的權(quán)重矩陣應(yīng)該是稀疏的。

          CycleMLP

          CycleMLP在MViT和PVTv2的基礎(chǔ)上,采用了窗口大小為7,步幅為4的重疊補丁嵌入模塊。這些原始補丁通過線性嵌入層依次應(yīng)用幾個Cycle FC 塊進一步投影到更高維度(表示為 C)。

          Cycle FC塊由三個并行的Cycle FC組成,它們的步長為1×7、7×1和1×1的SH×SW。該設(shè)計的靈感來自卷積的分解(Inception-v3)和交叉注意(CCNet)。

          然后是一個通道 MLP,它有兩個線性層,中間使用GELU激活。在并行Cycle FC 層和通道 MLP 模塊之前應(yīng)用 Layer Norm (LN) 層。在每個模塊之后應(yīng)用殘差連接 (ResNet)。

          在每個階段轉(zhuǎn)換中,所處理的令牌的通道容量被擴展,而令牌的數(shù)量被減少。總共有4個階段。

          模型參數(shù)如下:

          兩個模型遵循兩種廣泛使用的Transformer架構(gòu)PVT和Swin構(gòu)建,如上圖,其中Si、Ci、Ei、Li分別代表transition的步長、token通道維度、block數(shù)量、 第I階段的膨脹率。

          PVT-style 中的模型命名為 CycleMLP-B1 至 CycleMLP-B5,Swin-Style 中的模型命名為 CycleMLP-T、-S 和 -B,分別代表 tiny、small 和 base 尺寸的模型。

          結(jié)果

          ImageNet

          下圖是mlp類模型的ImageNet-1K分類(左)。與沒有額外數(shù)據(jù)的ImageNet-1K上的SOTA模型的比較(右)。

          CycleMLP的精度- flop權(quán)衡始終優(yōu)于現(xiàn)有的類似mlp的模型。并且實現(xiàn)了與Swin Transformer相當(dāng)?shù)男阅堋?/span>

          在ImageNet-1K分類中,GFNet具有與CycleMLP相似的性能。打不世故GFNet與輸入分辨率相關(guān),這可能會影響密集預(yù)測的性能。

          消融實驗

          左:移除三個平行分支中的一個后,top-1的精度顯著下降,特別是在丟棄1×7或7×1分支時。

          右:當(dāng)步長為7時,CycleMLP在ADE20K上的mIoU最高。

          分辨率的適應(yīng)性。左:絕對top-1精度;右:相對于224測試的精度差異。與DeiT和GFNet相比,CycleMLP在分辨率變化時具有更強的魯棒性。在較高的分辨率下,CycleMLP的性能下降比GFNet小。

          目標(biāo)檢測與實例分割

          在相似的參數(shù)約束下,基于cyclemlp的RetinaNet一直優(yōu)于基于cnn的ResNet、ResNeXt和基于transformer的PVT。使用Mask R-CNN進行實例分割也得到了相似的比較結(jié)果。

          CycleMLP還實現(xiàn)了比Swin Transformer稍好的性能。

          語義分割

          左:ADE20K驗證集上使用FPN的語義分割。右:有效感受野(ERF)

          在ADE20K驗證集上使用UPerNet對不同主干進行語義分割的結(jié)果。

          在相似參數(shù)下,CycleMLP的性能明顯優(yōu)于ResNet和PVT。與Swin Transformer相比,CycleMLP可以獲得與Swin Transformer相當(dāng)甚至更好的性能。雖然GFNet在ImageNet分類上的性能與CycleMLP相似,但在ADE20K上,CycleMLP的性能明顯優(yōu)于GFNet。

          魯棒性

          與transformer(如DeiT、Swin)和現(xiàn)有MLP模型(如MLP- mixer、ResMLP、gMLP)相比,CycleMLP具有更強的魯棒性。

          論文地址:CycleMLP: A MLP-like Architecture for Dense Prediction https://openreview.net/pdf?id=NMEceG4v69Y

          作者:Sik-Ho Tsang

          編輯:黃繼彥

          瀏覽 93
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  亚洲无吗中文字幕 | 中文字幕精品久久久久久久直播 | 伊人青青在线观看视频 | 国产熟女一区二区三区五月婷 | 免费看的操逼视频 |