??新智元報道??

來源：網(wǎng)絡

編輯：好困霜葉

【新智元導讀】頂會投稿竟只寫4頁？拳打ViT，腳踢MLP，Patch到底能不能成為ALL YOU NEED？

金秋十月，又到了ICLR截稿的季節(jié)！

一篇「Patches are all you need」橫空出世。

堪稱ICLR 2022的爆款論文，從國外一路火到國內(nèi)。

509個贊，3269個轉(zhuǎn)發(fā)

知乎熱搜

這篇標題里不僅有「劃掉」還有「表情」的論文，正文只有4頁！

https://openreview.net/pdf?id=TVHS5Y4dNvM

此外，作者還特地在文末寫了個100多字的小論文表示：「期待更多內(nèi)容？并沒有。我們提出了一個非常簡單的架構和觀點：patches在卷積架構中很好用。四頁的篇幅已經(jīng)足夠了。」

這……莫非又是「xx is all you need」的噱頭論文？

你只需要PATCHES

這個特立獨行的論文在一開篇的時候，作者就發(fā)出了靈魂拷問：「ViT的性能是由于更強大的Transformer架構，還是因為使用了patch作為輸入表征？」

眾所周知，卷積網(wǎng)絡架構常年來占據(jù)著CV的主流，不過最近ViT（Vision Transformer）架構則在許多任務中的表現(xiàn)出優(yōu)于經(jīng)典卷積網(wǎng)絡的性能，尤其是在大型數(shù)據(jù)集上。

然而，Transformer中自注意力層的應用，將導致計算成本將與每張圖像的像素數(shù)成二次方擴展。因此想要在CV任務中使用Transformer架構，則需要把圖像分成多個patch，再將它們線性嵌入，最后把Transformer直接應用于patch集合。

在本文中作者提出了一個極其簡單的模型：ConvMixer，其結(jié)構與ViT和更基本的MLP-Mixer相似，直接以patch作為輸入，分離了空間和通道維度的混合，并在整個網(wǎng)絡中保持同等大小和分辨率。不同的是，ConvMixer只使用標準的卷積來實現(xiàn)混合步驟。

作者表示，通過結(jié)果可以證明ConvMixer在類似的參數(shù)量和數(shù)據(jù)集大小方面優(yōu)于ViT、MLP-Mixer和部分變種，此外還優(yōu)于經(jīng)典的視覺模型，如ResNet。

ConvMixer模型

ConvMixer由一個patch嵌入層和一個簡單的完全卷積塊的重復應用組成。

大小為p和維度為h的patch嵌入可以實現(xiàn)輸入通道為c、輸出通道為h、核大小為p和跨度為p的卷積。

ConvMixer模塊包括depthwise卷積（組數(shù)等于通道數(shù)h的分組卷積）以及pointwise卷積（核大小為1×1）。每個卷積之后都有一個激活函數(shù)和激活后的BatchNorm：

在多次應用ConvMixer模塊后，執(zhí)行全局池化可以得到一個大小為h的特征向量，并在之后將其傳遞給softmax分類器。

ConvMixer的實例化取決于四個參數(shù)：

「寬度」或隱藏維度h（即patch嵌入的維度）
「深度」或ConvMixer層的重復次數(shù)d
控制模型內(nèi)部分辨率的patch大小p
深度卷積層的核大小k

作者將原始輸入大小n除以patch大小p作為內(nèi)部分辨率。此外，ConvMixers支持可變大小的輸入。

實驗結(jié)果

在CIFAR-10上較小規(guī)模的實驗表明，ConvMixers在只有0.7M參數(shù)的情況下達到了96%以上的準確率，證明了卷積歸納偏差的數(shù)據(jù)有效性。

不使用任何預訓練或額外數(shù)據(jù)的情況下，在ImageNet-1k中評估對ConvMixers。將ConvMixer添加到timm框架中，并使用幾乎標準的設置進行訓練：默認的timm增強、RandAugment、mixup、CutMix、隨機刪除和梯度標準裁剪。此外，還使用了AdamW優(yōu)化器和一個簡單的triangular學習率時間表。

由于算力有限，模型沒有在ImageNet上進行超參數(shù)調(diào)整，而且訓練的epochs比競爭對手少。因此，作者表示，論文中提出的準確率可能低估了模型的能力。（是的沒看錯，原文就是underestimate）

結(jié)果表明，具有52M參數(shù)的ConvMixer-1536/20可以在ImageNet上達到81.4%的最高精確度，具有21M參數(shù)的ConvMixer-768/32可以達到80.2%。

此外，ConvMixer-768/32使用的參數(shù)僅為ResNet-152的三分之一，但其準確度與之類似。