<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          只有4頁(yè)!ICLR爆款論文「Patches are all you need」

          共 3261字,需瀏覽 7分鐘

           ·

          2021-10-25 13:23

          點(diǎn)擊上方機(jī)器學(xué)習(xí)與生成對(duì)抗網(wǎng)絡(luò)”,關(guān)注星標(biāo)

          獲取有趣、好玩的前沿干貨!

          轉(zhuǎn)自:新智元


          金秋十月,又到了ICLR截稿的季節(jié)!

          ?

          一篇「Patches are all you need」橫空出世。

          ?

          堪稱ICLR 2022的爆款論文,從國(guó)外一路火到國(guó)內(nèi)。

          ?

          509個(gè)贊,3269個(gè)轉(zhuǎn)發(fā)

          ?

          知乎熱搜

          ?

          這篇標(biāo)題里不僅有「劃掉」還有「表情」的論文,正文只有4頁(yè)!

          ?

          https://openreview.net/pdf?id=TVHS5Y4dNvM

          ?

          此外,作者還特地在文末寫(xiě)了個(gè)100多字的小論文表示:「期待更多內(nèi)容?并沒(méi)有。我們提出了一個(gè)非常簡(jiǎn)單的架構(gòu)和觀點(diǎn):patches在卷積架構(gòu)中很好用。四頁(yè)的篇幅已經(jīng)足夠了。」

          ?

          ?

          這……莫非又是「xx is all you need」的噱頭論文?


          你只需要PATCHES


          這個(gè)特立獨(dú)行的論文在一開(kāi)篇的時(shí)候,作者就發(fā)出了靈魂拷問(wèn):「ViT的性能是由于更強(qiáng)大的Transformer架構(gòu),還是因?yàn)槭褂昧藀atch作為輸入表征?」

          ?

          眾所周知,卷積網(wǎng)絡(luò)架構(gòu)常年來(lái)占據(jù)著CV的主流,不過(guò)最近ViT(Vision Transformer)架構(gòu)則在許多任務(wù)中的表現(xiàn)出優(yōu)于經(jīng)典卷積網(wǎng)絡(luò)的性能,尤其是在大型數(shù)據(jù)集上。

          ?

          然而,Transformer中自注意力層的應(yīng)用,將導(dǎo)致計(jì)算成本將與每張圖像的像素?cái)?shù)成二次方擴(kuò)展。因此想要在CV任務(wù)中使用Transformer架構(gòu),則需要把圖像分成多個(gè)patch,再將它們線性嵌入 ,最后把Transformer直接應(yīng)用于patch集合。

          ?

          在本文中作者提出了一個(gè)極其簡(jiǎn)單的模型:ConvMixer,其結(jié)構(gòu)與ViT和更基本的MLP-Mixer相似,直接以patch作為輸入,分離了空間和通道維度的混合,并在整個(gè)網(wǎng)絡(luò)中保持同等大小和分辨率。不同的是,ConvMixer只使用標(biāo)準(zhǔn)的卷積來(lái)實(shí)現(xiàn)混合步驟。

          ?

          作者表示,通過(guò)結(jié)果可以證明ConvMixer在類似的參數(shù)量和數(shù)據(jù)集大小方面優(yōu)于ViT、MLP-Mixer和部分變種,此外還優(yōu)于經(jīng)典的視覺(jué)模型,如ResNet。

          ?

          ConvMixer模型

          ?

          ConvMixer由一個(gè)patch嵌入層和一個(gè)簡(jiǎn)單的完全卷積塊的重復(fù)應(yīng)用組成。

          ?

          ?

          大小為p和維度為h的patch嵌入可以實(shí)現(xiàn)輸入通道為c、輸出通道為h、核大小為p和跨度為p的卷積。

          ?

          ?

          ConvMixer模塊包括depthwise卷積(組數(shù)等于通道數(shù)h的分組卷積)以及pointwise卷積(核大小為1×1)。每個(gè)卷積之后都有一個(gè)激活函數(shù)和激活后的BatchNorm:

          ?

          ??

          在多次應(yīng)用ConvMixer模塊后,執(zhí)行全局池化可以得到一個(gè)大小為h的特征向量,并在之后將其傳遞給softmax分類器。

          ?

          ConvMixer的實(shí)例化取決于四個(gè)參數(shù):

          1. 「寬度」或隱藏維度h(即patch嵌入的維度)
          2. 「深度」或ConvMixer層的重復(fù)次數(shù)d
          3. 控制模型內(nèi)部分辨率的patch大小p
          4. 深度卷積層的核大小k
          ?
          作者將原始輸入大小n除以patch大小p作為內(nèi)部分辨率。此外,ConvMixers支持可變大小的輸入。
          ?

          實(shí)驗(yàn)結(jié)果

          ?
          在CIFAR-10上較小規(guī)模的實(shí)驗(yàn)表明,ConvMixers在只有0.7M參數(shù)的情況下達(dá)到了96%以上的準(zhǔn)確率,證明了卷積歸納偏差的數(shù)據(jù)有效性。
          ?
          不使用任何預(yù)訓(xùn)練或額外數(shù)據(jù)的情況下,在ImageNet-1k中評(píng)估對(duì)ConvMixers。將ConvMixer添加到timm框架中,并使用幾乎標(biāo)準(zhǔn)的設(shè)置進(jìn)行訓(xùn)練:默認(rèn)的timm增強(qiáng)、RandAugment、mixup、CutMix、隨機(jī)刪除和梯度標(biāo)準(zhǔn)裁剪。此外,還使用了AdamW優(yōu)化器和一個(gè)簡(jiǎn)單的triangular學(xué)習(xí)率時(shí)間表。
          ?
          由于算力有限,模型沒(méi)有在ImageNet上進(jìn)行超參數(shù)調(diào)整,而且訓(xùn)練的epochs比競(jìng)爭(zhēng)對(duì)手少。因此,作者表示,論文中提出的準(zhǔn)確率可能低估了模型的能力。(是的沒(méi)看錯(cuò),原文就是underestimate)
          ?
          結(jié)果表明,具有52M參數(shù)的ConvMixer-1536/20可以在ImageNet上達(dá)到81.4%的最高精確度,具有21M參數(shù)的ConvMixer-768/32可以達(dá)到80.2%。
          ?
          此外,ConvMixer-768/32使用的參數(shù)僅為ResNet-152的三分之一,但其準(zhǔn)確度與之類似。
          ?
          在224×224的ImageNet-1k上訓(xùn)練和評(píng)估
          ?
          更寬的ConvMixer可以在更少的epochs下就實(shí)現(xiàn)收斂,但對(duì)內(nèi)存和計(jì)算的要求更加苛刻。當(dāng)ConvMixer的卷積核更大時(shí),效果也更好。ConvMixer-1536/20在將核大小從k=9減少到k=3時(shí),準(zhǔn)確性下降了≈1%。
          ?
          在實(shí)驗(yàn)中,擁有更小patch的ConvMixers的性能更好,作者表示這是因?yàn)檩^大的patch需要更深的ConvMixers。
          ?
          ConvMixer-1536/20的性能優(yōu)于ResNet-152和ResMLP-B24,而且參數(shù)要少得多,并且與DeiT-B的性能接近。
          ?
          ?
          然而,ConvMixer的推理速度大大低于競(jìng)爭(zhēng)對(duì)手,這可能是由于其較小的patch;超參數(shù)的調(diào)整和優(yōu)化可以縮小這一差距。
          ?
          ?

          算法實(shí)現(xiàn)

          ?
          ?

          網(wǎng)友評(píng)論

          ?

          對(duì)著標(biāo)題玩梗肯定是少不了的。
          ?
          Chinese philosophy is all you need
          Money is all you need
          ?
          ?
          對(duì)此,來(lái)自華科的網(wǎng)友@小小將認(rèn)為這篇論文實(shí)在是「名不副實(shí)」。
          ?
          ?
          一位網(wǎng)友瘋狂拆穿,認(rèn)為這篇論文「吹水」得過(guò)于明顯了。
          ?
          ?
          甚至表示:「任何一個(gè)ViT、MLP、ResNet模型通過(guò)增大輸入的patch分辨率,在把計(jì)算量提到這么大之后,性能都能比這更好。」
          ?
          @陳小小表示,通篇只比參數(shù)量,不比計(jì)算量。與同精度的ResNet相比,吞吐量差得離譜。
          ?
          ?
          當(dāng)然了,該論文提到的ConvMixer如此簡(jiǎn)潔優(yōu)雅,還是有一隊(duì)網(wǎng)友輪番夸贊的。
          ?
          @殷卓文表示,這是一篇「漂亮得不講道理」的論文,堪稱完美。
          ?
          結(jié)構(gòu)是常規(guī)的結(jié)構(gòu),不用調(diào)參,效果又好,怎能不香呢?
          ?
          ?
          此外,也回答了之前一位網(wǎng)友指出的問(wèn)題:「這篇論文減小patchsize,相當(dāng)于增大輸入token size,與vit等方法是不公平的比較。同時(shí)這篇文章的方法實(shí)際運(yùn)行速度慢(throughput)。」
          ?
          ?
          特斯拉AI高級(jí)總監(jiān)Andrej Karpathy也贊嘆道:「我被新的 ConvMixer 架構(gòu)震撼了。」


          對(duì)于網(wǎng)上這些爭(zhēng)論,@陀飛輪表示,主要是「深度學(xué)習(xí)的控制變量都不是嚴(yán)格的控制變量」這個(gè)問(wèn)題所造成的。
          ?


          參考資料:

          https://www.zhihu.com/question/492712118

          https://openreview.net/pdf?id=TVHS5Y4dNvM



          猜您喜歡:

          等你著陸!【GAN生成對(duì)抗網(wǎng)絡(luò)】知識(shí)星球!

          CVPR 2021專題1:GAN的改進(jìn)

          CVPR 2021 | GAN的說(shuō)話人驅(qū)動(dòng)、3D人臉論文匯總

          CVPR 2021 | 圖像轉(zhuǎn)換 今如何?幾篇GAN論文

          【CVPR 2021】通過(guò)GAN提升人臉識(shí)別的遺留難題

          CVPR 2021生成對(duì)抗網(wǎng)絡(luò)GAN部分論文匯總

          經(jīng)典GAN不得不讀:StyleGAN

          最新最全20篇!基于 StyleGAN 改進(jìn)或應(yīng)用相關(guān)論文

          超100篇!CVPR 2020最全GAN論文梳理匯總!

          附下載 | 《Python進(jìn)階》中文版

          附下載 | 經(jīng)典《Think Python》中文版

          附下載 | 《Pytorch模型訓(xùn)練實(shí)用教程》

          附下載 | 最新2020李沐《動(dòng)手學(xué)深度學(xué)習(xí)》

          附下載 |?《可解釋的機(jī)器學(xué)習(xí)》中文版

          附下載 |《TensorFlow 2.0 深度學(xué)習(xí)算法實(shí)戰(zhàn)》

          附下載 | 超100篇!CVPR 2020最全GAN論文梳理匯總!

          附下載 |《計(jì)算機(jī)視覺(jué)中的數(shù)學(xué)方法》分享

          瀏覽 86
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  亚洲综合字幕 | 欧美精品蜜桃69桔色 | 黄色电影大香蕉 | 人人干人人草 | 五月丁香花婷婷 |