<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          火爆全網(wǎng),卻只有4頁!ICLR爆款論文「你只需要Patch」到底香不香?

          共 2876字,需瀏覽 6分鐘

           ·

          2021-10-21 02:33



          ??新智元報道??

          來源:網(wǎng)絡

          編輯:好困 霜葉

          【新智元導讀】頂會投稿竟只寫4頁?拳打ViT,腳踢MLP,Patch到底能不能成為ALL YOU NEED?


          金秋十月,又到了ICLR截稿的季節(jié)!

          ?

          一篇「Patches are all you need」橫空出世。

          ?

          堪稱ICLR 2022的爆款論文,從國外一路火到國內(nèi)。

          ?

          509個贊,3269個轉(zhuǎn)發(fā)

          ?

          知乎熱搜

          ?

          這篇標題里不僅有「劃掉」還有「表情」的論文,正文只有4頁!

          ?

          https://openreview.net/pdf?id=TVHS5Y4dNvM

          ?

          此外,作者還特地在文末寫了個100多字的小論文表示:「期待更多內(nèi)容?并沒有。我們提出了一個非常簡單的架構和觀點:patches在卷積架構中很好用。四頁的篇幅已經(jīng)足夠了。」

          ?

          ?

          這……莫非又是「xx is all you need」的噱頭論文?


          你只需要PATCHES


          這個特立獨行的論文在一開篇的時候,作者就發(fā)出了靈魂拷問:「ViT的性能是由于更強大的Transformer架構,還是因為使用了patch作為輸入表征?」

          ?

          眾所周知,卷積網(wǎng)絡架構常年來占據(jù)著CV的主流,不過最近ViT(Vision Transformer)架構則在許多任務中的表現(xiàn)出優(yōu)于經(jīng)典卷積網(wǎng)絡的性能,尤其是在大型數(shù)據(jù)集上。

          ?

          然而,Transformer中自注意力層的應用,將導致計算成本將與每張圖像的像素數(shù)成二次方擴展。因此想要在CV任務中使用Transformer架構,則需要把圖像分成多個patch,再將它們線性嵌入 ,最后把Transformer直接應用于patch集合。

          ?

          在本文中作者提出了一個極其簡單的模型:ConvMixer,其結(jié)構與ViT和更基本的MLP-Mixer相似,直接以patch作為輸入,分離了空間和通道維度的混合,并在整個網(wǎng)絡中保持同等大小和分辨率。不同的是,ConvMixer只使用標準的卷積來實現(xiàn)混合步驟。

          ?

          作者表示,通過結(jié)果可以證明ConvMixer在類似的參數(shù)量和數(shù)據(jù)集大小方面優(yōu)于ViT、MLP-Mixer和部分變種,此外還優(yōu)于經(jīng)典的視覺模型,如ResNet。

          ?

          ConvMixer模型

          ?

          ConvMixer由一個patch嵌入層和一個簡單的完全卷積塊的重復應用組成。

          ?

          ?

          大小為p和維度為h的patch嵌入可以實現(xiàn)輸入通道為c、輸出通道為h、核大小為p和跨度為p的卷積。

          ?

          ?

          ConvMixer模塊包括depthwise卷積(組數(shù)等于通道數(shù)h的分組卷積)以及pointwise卷積(核大小為1×1)。每個卷積之后都有一個激活函數(shù)和激活后的BatchNorm:

          ?

          ??

          在多次應用ConvMixer模塊后,執(zhí)行全局池化可以得到一個大小為h的特征向量,并在之后將其傳遞給softmax分類器。

          ?

          ConvMixer的實例化取決于四個參數(shù):

          1. 「寬度」或隱藏維度h(即patch嵌入的維度)
          2. 「深度」或ConvMixer層的重復次數(shù)d
          3. 控制模型內(nèi)部分辨率的patch大小p
          4. 深度卷積層的核大小k
          ?
          作者將原始輸入大小n除以patch大小p作為內(nèi)部分辨率。此外,ConvMixers支持可變大小的輸入。
          ?

          實驗結(jié)果

          ?
          在CIFAR-10上較小規(guī)模的實驗表明,ConvMixers在只有0.7M參數(shù)的情況下達到了96%以上的準確率,證明了卷積歸納偏差的數(shù)據(jù)有效性。
          ?
          不使用任何預訓練或額外數(shù)據(jù)的情況下,在ImageNet-1k中評估對ConvMixers。將ConvMixer添加到timm框架中,并使用幾乎標準的設置進行訓練:默認的timm增強、RandAugment、mixup、CutMix、隨機刪除和梯度標準裁剪。此外,還使用了AdamW優(yōu)化器和一個簡單的triangular學習率時間表。
          ?
          由于算力有限,模型沒有在ImageNet上進行超參數(shù)調(diào)整,而且訓練的epochs比競爭對手少。因此,作者表示,論文中提出的準確率可能低估了模型的能力。(是的沒看錯,原文就是underestimate)
          ?
          結(jié)果表明,具有52M參數(shù)的ConvMixer-1536/20可以在ImageNet上達到81.4%的最高精確度,具有21M參數(shù)的ConvMixer-768/32可以達到80.2%。
          ?
          此外,ConvMixer-768/32使用的參數(shù)僅為ResNet-152的三分之一,但其準確度與之類似。
          ?
          在224×224的ImageNet-1k上訓練和評估
          ?
          更寬的ConvMixer可以在更少的epochs下就實現(xiàn)收斂,但對內(nèi)存和計算的要求更加苛刻。當ConvMixer的卷積核更大時,效果也更好。ConvMixer-1536/20在將核大小從k=9減少到k=3時,準確性下降了≈1%。
          ?
          在實驗中,擁有更小patch的ConvMixers的性能更好,作者表示這是因為較大的patch需要更深的ConvMixers。
          ?
          ConvMixer-1536/20的性能優(yōu)于ResNet-152和ResMLP-B24,而且參數(shù)要少得多,并且與DeiT-B的性能接近。
          ?
          ?
          然而,ConvMixer的推理速度大大低于競爭對手,這可能是由于其較小的patch;超參數(shù)的調(diào)整和優(yōu)化可以縮小這一差距。
          ?
          ?

          算法實現(xiàn)

          ?
          ?

          網(wǎng)友評論

          ?

          對著標題玩梗肯定是少不了的。
          ?
          Chinese philosophy is all you need
          Money is all you need
          ?
          ?
          對此,來自華科的網(wǎng)友@小小將認為這篇論文實在是「名不副實」。
          ?
          ?
          一位網(wǎng)友瘋狂拆穿,認為這篇論文「吹水」得過于明顯了。
          ?
          ?
          甚至表示:「任何一個ViT、MLP、ResNet模型通過增大輸入的patch分辨率,在把計算量提到這么大之后,性能都能比這更好。」
          ?
          @陳小小表示,通篇只比參數(shù)量,不比計算量。與同精度的ResNet相比,吞吐量差得離譜。
          ?
          ?
          當然了,該論文提到的ConvMixer如此簡潔優(yōu)雅,還是有一隊網(wǎng)友輪番夸贊的。
          ?
          @殷卓文表示,這是一篇「漂亮得不講道理」的論文,堪稱完美。
          ?
          結(jié)構是常規(guī)的結(jié)構,不用調(diào)參,效果又好,怎能不香呢?
          ?
          ?
          此外,也回答了之前一位網(wǎng)友指出的問題:「這篇論文減小patchsize,相當于增大輸入token size,與vit等方法是不公平的比較。同時這篇文章的方法實際運行速度慢(throughput)。」
          ?
          ?
          特斯拉AI高級總監(jiān)Andrej Karpathy也贊嘆道:「我被新的 ConvMixer 架構震撼了。」


          對于網(wǎng)上這些爭論,@陀飛輪表示,主要是「深度學習的控制變量都不是嚴格的控制變量」這個問題所造成的。
          ?


          參考資料:

          https://www.zhihu.com/question/492712118

          https://openreview.net/pdf?id=TVHS5Y4dNvM



          瀏覽 37
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  久久久国产精品无码 | 亚洲一级三级 | 俺操也| 欧美日本AA | 二人做人爱的视频 |