火爆全網(wǎng),卻只有4頁!ICLR爆款論文「你只需要Patch」到底香不香?

??新智元報道??
??新智元報道??
來源:網(wǎng)絡
編輯:好困 霜葉
【新智元導讀】頂會投稿竟只寫4頁?拳打ViT,腳踢MLP,Patch到底能不能成為ALL YOU NEED?
金秋十月,又到了ICLR截稿的季節(jié)!
?
一篇「Patches are all you need」橫空出世。
?
堪稱ICLR 2022的爆款論文,從國外一路火到國內(nèi)。
?

509個贊,3269個轉(zhuǎn)發(fā)
?

知乎熱搜
?
這篇標題里不僅有「劃掉」還有「表情」的論文,正文只有4頁!
?

https://openreview.net/pdf?id=TVHS5Y4dNvM
?
此外,作者還特地在文末寫了個100多字的小論文表示:「期待更多內(nèi)容?并沒有。我們提出了一個非常簡單的架構和觀點:patches在卷積架構中很好用。四頁的篇幅已經(jīng)足夠了。」
?

?
這……莫非又是「xx is all you need」的噱頭論文?
你只需要PATCHES
這個特立獨行的論文在一開篇的時候,作者就發(fā)出了靈魂拷問:「ViT的性能是由于更強大的Transformer架構,還是因為使用了patch作為輸入表征?」
?
眾所周知,卷積網(wǎng)絡架構常年來占據(jù)著CV的主流,不過最近ViT(Vision Transformer)架構則在許多任務中的表現(xiàn)出優(yōu)于經(jīng)典卷積網(wǎng)絡的性能,尤其是在大型數(shù)據(jù)集上。
?
然而,Transformer中自注意力層的應用,將導致計算成本將與每張圖像的像素數(shù)成二次方擴展。因此想要在CV任務中使用Transformer架構,則需要把圖像分成多個patch,再將它們線性嵌入 ,最后把Transformer直接應用于patch集合。
?
在本文中作者提出了一個極其簡單的模型:ConvMixer,其結(jié)構與ViT和更基本的MLP-Mixer相似,直接以patch作為輸入,分離了空間和通道維度的混合,并在整個網(wǎng)絡中保持同等大小和分辨率。不同的是,ConvMixer只使用標準的卷積來實現(xiàn)混合步驟。
?
作者表示,通過結(jié)果可以證明ConvMixer在類似的參數(shù)量和數(shù)據(jù)集大小方面優(yōu)于ViT、MLP-Mixer和部分變種,此外還優(yōu)于經(jīng)典的視覺模型,如ResNet。
?
ConvMixer模型
?
ConvMixer由一個patch嵌入層和一個簡單的完全卷積塊的重復應用組成。
?

?
大小為p和維度為h的patch嵌入可以實現(xiàn)輸入通道為c、輸出通道為h、核大小為p和跨度為p的卷積。
?

?
ConvMixer模塊包括depthwise卷積(組數(shù)等于通道數(shù)h的分組卷積)以及pointwise卷積(核大小為1×1)。每個卷積之后都有一個激活函數(shù)和激活后的BatchNorm:
?

??
在多次應用ConvMixer模塊后,執(zhí)行全局池化可以得到一個大小為h的特征向量,并在之后將其傳遞給softmax分類器。
?
ConvMixer的實例化取決于四個參數(shù):
「寬度」或隱藏維度h(即patch嵌入的維度) 「深度」或ConvMixer層的重復次數(shù)d 控制模型內(nèi)部分辨率的patch大小p 深度卷積層的核大小k
實驗結(jié)果



算法實現(xiàn)

網(wǎng)友評論
?
網(wǎng)友評論








參考資料:
https://www.zhihu.com/question/492712118
https://openreview.net/pdf?id=TVHS5Y4dNvM

