<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          谷歌最新提出無需卷積、注意力 ,純MLP構(gòu)成的視覺架構(gòu)!網(wǎng)友:MLP is All You Need ?

          共 4790字,需瀏覽 10分鐘

           ·

          2021-05-11 02:43

          ↑ 點(diǎn)擊藍(lán)字 關(guān)注極市平臺

          作者丨三金、琰琰
          來源丨AI科技評論
          編輯丨極市平臺

          極市導(dǎo)讀

           

          谷歌大腦團(tuán)隊(duì)提出了一種僅僅需要多層感知機(jī)的框架——MLP-Mixer,無需卷積模塊、注意力機(jī)制,即可達(dá)到與CNN、Transformer相媲美的圖像分類性能。 >>加入極市CV技術(shù)交流群,走在計算機(jī)視覺的最前沿

          論文鏈接:https://arxiv.org/pdf/2105.01601.pdf
          代碼鏈接:https://github.com/google-research/vision_transformer
          香港科技大學(xué)李鐸同學(xué)的pytorch版的復(fù)現(xiàn):https://github.com/d-li14/mlp-mixer.pytorch
          近日,谷歌大腦團(tuán)隊(duì)新出了一篇論文,題目為《MLP-Mixer: An all-MLP Architecture for Vision 》,這篇論文是原視覺Transformer(ViT)團(tuán)隊(duì)的一個純MLP架構(gòu)的嘗試。
          本文總結(jié)來說就是提出了一種僅僅需要多層感知機(jī)的框架——MLP-Mixer,無需卷積模塊、注意力機(jī)制,即可達(dá)到與CNN、Transformer相媲美的圖像分類性能。
          近一年來,Transformer可真是太火了,把Transformer用在視覺領(lǐng)域真是屢試不爽,先是分類后是檢測,等等等等,每次都是吊打ResNet,對CV任務(wù)“降維打擊”,說句實(shí)話,每次Transformer在CV領(lǐng)域新的論文出來,別說是對AI從業(yè)者,哪怕是對剛剛小學(xué)畢業(yè)的三金我,對神經(jīng)來說都是一種挑戰(zhàn):這咋又雙叒叕超越了?
          眾所周知,CV領(lǐng)域主流架構(gòu)的演變過程是 MLP->CNN->Transformer 。
          難道現(xiàn)在要變成 MLP->CNN->Transformer->MLP ? 
          都說時尚是個圈,沒想到你學(xué)術(shù)圈真的有一天也變成了學(xué)術(shù)“圈”。
          那就先來看一下MLP-Mixer這個新框架吧,它不使用卷積或自注意力機(jī)制。相反,Mixer體系架構(gòu)完全基于在空間位置或特征通道上重復(fù)應(yīng)用的多層感知器(MLP),它只依賴基礎(chǔ)的矩陣乘法操作、數(shù)據(jù)排布變換(比如reshape、transposition)以及非線性層。
          下圖展示了MLP-Mixer的整體結(jié)構(gòu):
          首先,它的輸入是一系列圖像塊的線性投影(其形狀為patches x channels),其次,Mixer使用兩種類型的MLP層:
          1、通道混合MLP(channel-mixing MLPs ):用于不同通道之間進(jìn)行通信,允許對每個token獨(dú)立操作,即采用每一行作為輸入。
          2、token混合MLP(The token-mixing MLPs ):用于不同空間位置(token)之間的通信;允許在每個通道上獨(dú)立操作,即采用每一列作為輸入。
          以上兩種類型的MLP層交替執(zhí)行以實(shí)現(xiàn)兩個輸入維度的交互。
          在極端情況下,MLP-Mixer架構(gòu)可以看作一個特殊的CNN,它使用1×1通道混合的卷積,全感受域的單通道深度卷積以及token混合的參數(shù)共享。典型的CNN不是混合器的特例,卷積也比MLPs中的普通矩陣乘法更復(fù)雜(它需要額外的成本來減少矩陣乘法或?qū)iT實(shí)現(xiàn))不過,盡管它很簡單,MLP-Mixer還是取得了很不錯的結(jié)果。
          當(dāng)對大型數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練時(大約100萬張圖片),它達(dá)到了之前CNNs和Transformers在ImageNet上的最佳性能:87.94%的 top-1 驗(yàn)證準(zhǔn)確率。當(dāng)對1-10萬張圖片大小的數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練時,結(jié)合現(xiàn)代正則化技術(shù)( regularization techniques),Mixer同樣取得了強(qiáng)大的性能。

          1 Mixer  混合器架構(gòu)

          一般來講,當(dāng)今深度視覺體系結(jié)構(gòu)采用三種方式進(jìn)行特征混合:
          (i)在給定的空間位置;
          (ii)不同的空間位置之間;
          (iii)將上述兩種方式組合。
          在CNNs中,(ii)是采用N× N進(jìn)行卷積和池化,其中N>1;(i)采用1×1卷積;較大的核則同時執(zhí)行(i)和(ii)。通常更深層次的神經(jīng)元有更大的感受野。
          在Transformer和其他注意力架構(gòu)中,自注意力層允許同時執(zhí)行(i)和(ii),而MLP只執(zhí)行(i)。Mixer架構(gòu)背后的思想是:通過MLP實(shí)現(xiàn)每個通道混合操作(i)和 token混合操作(ii)的顯著分離。
          在上圖體系架構(gòu)中,Mixer將序列長度為S的非重疊的圖像塊作為輸入,每個圖像塊都投影到所需的隱層維度C,并產(chǎn)生一個二維實(shí)值輸入X∈ RS×C。如果原始圖像的分辨率為(H x W),每個圖像塊的分辨率為(P x P),那么圖像塊的數(shù)量則為S=HW/P2。所有的塊都采用相同的投影矩陣進(jìn)行線性投影。
          Mixer由等尺寸的多層組成,每層有兩個MLP塊。第一個是token mixing MLP塊:它作用于X的列,從RS映射到R S,可在所有列中共享。第二個是Channel-mixing MLP塊:它作用于X的行,從Rc映射到 R C,可在所有行中共享。每個MLP塊包含兩個全連接層和一個獨(dú)立于輸入的非線性層。其基本方程如下:
          圖中,Ds Dc分別代表token-mixing與channel-mixing MLP中隱層寬度。由于Ds的選擇獨(dú)立于輸入圖像塊的數(shù)量,因此,網(wǎng)絡(luò)的計算復(fù)雜度與輸入塊的數(shù)量成線性關(guān)系;此外,Dc獨(dú)立于塊尺寸,整體計算量與圖像的像素數(shù)成線性關(guān)系,這類似于CNN。
          如上文所說,相同的通道混合MLP(或令牌混合MLP)應(yīng)用于X的每一行和列,在每一層內(nèi)綁定通道混合MLP的參數(shù)都是一種自然選擇,它提供了位置不變性,這是卷積的一個顯著特征。
          不過,跨通道綁定參數(shù)的情況在CNN中并不常見。例如CNN中可分離卷積,將不同的卷積核獨(dú)立應(yīng)用于每個通道。而Mixer中的token 混合MLP可以對所有通道共享相同的核(即獲得完全感受野)。通常來講,當(dāng)增加隱層維數(shù)C或序列長度S時,這種參數(shù)綁定可以避免體系架構(gòu)增長過快,并且節(jié)省內(nèi)存。令人沒想到的是,這種綁定機(jī)制并沒有影響性能。
          Mixer中的每個層(除了初始塊投影層)接收相同大小的輸入。這種“各向同性”設(shè)計最類似于使用固定寬度的Transformer和RNN。這與大多數(shù)CNN不同,CNN具有金字塔結(jié)構(gòu):越深的層具有更低的分辨率,更多的通道。需要注意的是,以上是典型的設(shè)計,除此之外也存在其他組合,例如各向同性網(wǎng)狀結(jié)構(gòu)和金字塔狀VIT。除了MLP層之外,Mixer還使用了其他標(biāo)準(zhǔn)的體系結(jié)構(gòu)組件:Skip 連接和層規(guī)范化。
          此外,與ViTs不同,Mixer不使用位置嵌入,因?yàn)閠oken混合mlp對輸入token的順序敏感,因此可以學(xué)習(xí)表示位置。最后,Mixer使用一個標(biāo)準(zhǔn)的分類head和一個線性分類器。

          2 更多實(shí)驗(yàn)結(jié)果和代碼

          下圖是原論文附帶的代碼,很簡單,只有43行。

          3 網(wǎng)友評價


          知乎網(wǎng)友@小小將 表示:
          FC is all you need, neither Conv nor Attention.

          在數(shù)據(jù)和資源足夠的情況下,或許inductive bias的模型反而成了束縛,還不如最simple的模型來的直接。
          知乎網(wǎng)友@小賴sqLai 表示:
          說白了就是patch內(nèi)和patch間依次進(jìn)行信息交換和整合,相比transformer其實(shí)缺了個動態(tài)的結(jié)構(gòu),也就是內(nèi)容不可感知,有點(diǎn)過擬合的意思在里面。主觀感覺,如果再補(bǔ)個patch內(nèi)的attention和patch間的attention進(jìn)去,差不多就能接近transformer了。

          知乎網(wǎng)友@TniL 表示:
          觀察到兩個趨勢,不敢說是好還是壞:
          1、以前的工作都努力在通用模型里加歸納偏置,用來減少參數(shù)優(yōu)化需要的資源(數(shù)據(jù)、計算資源);近期的(一批)工作在反其道行之,逐漸去先驗(yàn)化,讓這部分bias通過大量數(shù)據(jù)學(xué)習(xí)出來。

          2、以前的模型都講究兼容變長數(shù)據(jù),CNN、RNN、Xformer都有處理變長數(shù)據(jù)的能力,這使得它們非常通用,現(xiàn)在的一些模型(包括問題討論的這篇)都assume輸入的大小是固定的,直觀上看不能算太通用的框架(所以不敢茍同MLP is all you need這種觀點(diǎn))。
          知乎網(wǎng)友@mathfinder對原文方法的總結(jié):
          總體而言相對遺憾,沒有超過SOTA,僅僅是可比較。從實(shí)驗(yàn)結(jié)果來看跟ViT相比還是全面落后,但還是給人一些啟發(fā)的,畢竟結(jié)構(gòu)極致簡單。
          本文核心是設(shè)計了非常小巧的Mixer-Layer,通過MLP來交互每個patches的信息。實(shí)際上,經(jīng)過一次mixer-layer,每個patch就能拿到全圖的信息。
          知乎網(wǎng)友@Rooftrellen表示:
          感覺有點(diǎn)標(biāo)題黨,照這么說CNN也是MLP了,MLP本來就是現(xiàn)在大部分架構(gòu)的building block,區(qū)別只是這些子MLP如何連接,如何共享權(quán)重等等。
          知乎網(wǎng)友@大白楊表示:
          谷歌還是不會取名字,要換成國內(nèi)組的話,直接一個"MLP is All You Need"或者"Make MLP Great Again"。

          三金我覺得倒是覺得發(fā)論文可以再大膽一些:
          《震驚!無需卷積、注意力、MLP、神經(jīng)網(wǎng)絡(luò),甚至無需計算機(jī),只用人眼就能達(dá)到圖像識別/檢測/分割的SOTA水平》。
          最后,對于這篇論文和MLP的回歸,您怎么看?
          參考鏈接:
          https://www.zhihu.com/question/457926000

          本文亮點(diǎn)總結(jié)


          1.MLP-Mixer這個新框架吧,它不使用卷積或自注意力機(jī)制。相反,Mixer體系架構(gòu)完全基于在空間位置或特征通道上重復(fù)應(yīng)用的多層感知器(MLP),它只依賴基礎(chǔ)的矩陣乘法操作、數(shù)據(jù)排布變換(比如reshape、transposition)以及非線性層。

          2.Mixer使用兩種類型的MLP層:
          1、通道混合MLP(channel-mixing MLPs )
          2、token混合MLP(The token-mixing MLPs )

          如果覺得有用,就請分享到朋友圈吧!

          △點(diǎn)擊卡片關(guān)注極市平臺,獲取最新CV干貨

          公眾號后臺回復(fù)“醫(yī)學(xué)影像”獲取醫(yī)學(xué)影像綜述~


          極市干貨

          頂會干貨CVPR 二十年,影響力最大的 10 篇論文! CVPR2021 最新18篇 Oral 論文學(xué)術(shù)論文投稿與Rebuttal經(jīng)驗(yàn)分享

          實(shí)操教程PyTorch自定義CUDA算子教程與運(yùn)行時間分析pytorch中使用detach并不能阻止參數(shù)更新

          招聘面經(jīng)秋招計算機(jī)視覺匯總面經(jīng)分享算法工程師面試題匯總

          最新CV競賽:2021 高通人工智能應(yīng)用創(chuàng)新大賽CVPR 2021 | Short-video Face Parsing Challenge


          CV技術(shù)社群邀請函 #

          △長按添加極市小助手
          添加極市小助手微信(ID : cvmart2)

          備注:姓名-學(xué)校/公司-研究方向-城市(如:小極-北大-目標(biāo)檢測-深圳)


          即可申請加入極市目標(biāo)檢測/圖像分割/工業(yè)檢測/人臉/醫(yī)學(xué)影像/3D/SLAM/自動駕駛/超分辨率/姿態(tài)估計/ReID/GAN/圖像增強(qiáng)/OCR/視頻理解等技術(shù)交流群


          每月大咖直播分享、真實(shí)項(xiàng)目需求對接、求職內(nèi)推、算法競賽、干貨資訊匯總、與 10000+來自港科大、北大、清華、中科院、CMU、騰訊、百度等名校名企視覺開發(fā)者互動交流~



          覺得有用麻煩給個在看啦~  
          瀏覽 50
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  日本黄色成人网站 | 欧美一级A片在线观看 | 爆乳女神麻酥酥 | 91麻豆精品国产91久久久ios版 | 分分艹|