<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          十年回顧——CV的未來:ConvNeXt or Transformer?

          共 5804字,需瀏覽 12分鐘

           ·

          2022-05-10 17:44

          點擊下方卡片,關注“新機器視覺”公眾號

          重磅干貨,第一時間送達

          來源|知乎? 作者|gwave
          鏈接|https://zhuanlan.zhihu.com/p/502076132
          編輯人工智能前沿講習
          2012年,AlexNet橫空出世,推動深度學習快速發(fā)展,帶動AI的第三波浪潮,轉眼已經(jīng)十年彈指一揮間。
          https://subscription.packtpub.com/book/data/9781789614381/5/ch05lvl1sec17/evolution-of-cnn-architectures
          十年來,計算機視覺(CV)突飛猛進,VGGNet,GoogLeNet/Inception,ResNeXt,DenseNet,MobileNet 和 EfficientNet等一大批ImageNet競賽的年度冠軍等優(yōu)秀模型蓬勃發(fā)展,你方唱罷我登場,精彩紛呈,卷積神經(jīng)網(wǎng)絡CNN作為圖像處理的標配卷過了AI的大半邊天。
          直到最近兩年,自然語言處理 (NLP) 好像和CV是兩條平行線,各自相對獨立的發(fā)展。RNN和CNN是教科書中兩個獨立的章節(jié),分別對應自然語言的序列(Sequence)和圖像局部特征的特點。2017年,Google在NLP領域發(fā)表了Attention is all you need[1],提出基于自注意力(self-attention)的Transformer,當時,CV界被微軟研究院He kaiming的ResNet打破人類分類錯誤率下限而激動不已,很少有人意識到CNN的“大廈將傾”的危險,正如經(jīng)典物理學在20世紀初晴空萬里的兩朵烏云,看似不溫不火NLP算法并將在數(shù)年后“全面碾壓“看似更為“成熟”的CV領域,并顯示了一統(tǒng)江湖的野心。
          BERT 左2 《芝麻街》系列論文
          2018年的NLP領域注定不凡,谷歌的Jacob Devlin等人提出了基于Transformer的BERT[2](Bidirectional Encoder Representations from Transformers),BERT的B表示雙向,了解NLP的朋友都知道“語言模型” (Language Model),根據(jù)一句話左邊的詞預測右邊的詞最有可能是哪個;BERT將這個預測游戲變成了自監(jiān)督的“完形填空”,不再預測最右側的詞,而是預測句子中的任何位置的詞,可同時利用將該位置左右兩邊(Bidirectional)的詞進行預測。隨著基于Transformer的BERT在NLP的各個子任務上“屠榜”,隔壁已經(jīng)卷到無以復加的CV圈有點坐不住了。
          ViT: Vision Transformer
          2020年Transformer在CV領域一炮打響,谷歌提出的Vision Transformer (ViT)[3]?(An Image is Worth 16x16 Words,模仿“An Image is Worth a thousand Words”)再次橫空出世,只是簡單的將圖片切成16X16的patch,扔到原封不動的NLP的Transformer中,結果竟然就一騎絕塵,表現(xiàn)超過了一眾沉淀了多年的CNN,最神奇的是,完全不考慮圖像的特點,把圖像打成patch后就按NLP的Sequence的方法處理!
          ViT的核心思想是將圖片看成一系列16X16的patch序列,看來處理圖像和自然語言并沒有太大差別,在ViT/Transformer看來,一切都不過是Sequence而已,Transformer如同“降龍十八掌”,不管你是CV還是NLP的任務,都是一招制敵!不過 ViT 嚴重依賴大量訓練技巧,包括花式數(shù)據(jù)增強等,但ViT畢竟是開創(chuàng)性工作,不宜苛求,總是要留點飯給后人吃的嘛(挖了很多大坑,比如NLP/CV多模態(tài))。
          Long Range Arena: A Benchmark for Efficient Transformers
          ViT恐怕是CV界自AlexNet(2012)以來最大的突破(之前各種CNN架構都是改良),之后各種XX-Former層出不窮(Long Range Arena: A Benchmark for Efficient Transformers[4]),結構上相對簡單的CNN就像是過氣的曾經(jīng)大牌明星被拍的灰頭土臉,不知道哪天才能恢復往日的榮光。
          Swin Transformer
          2021 年年中,微軟發(fā)表了一款基于窗口移動(Shift Window)的Swin Transformer[5],窗口移動有點CNN的感覺又回來了,窗口移動能夠促進相鄰patch之間交互,也是個屠榜級的存在,文章自稱可以作為Backbone,大家知道,Backbone都是史上留名的經(jīng)典架構。
          AE https://towardsdatascience.com/applied-deep-learning-part-3-autoencoders-1c083af4d798
          類似于NLP領域的BERT,自監(jiān)督學習最近兩年風頭正勁,雖然這個概念并不新,2006年,Hinton老爺子在深度學習的三篇開山之作之一 Reducing the Dimensionality of Data with Neural Networks[6]就展示了Autoencoder優(yōu)于PCA的數(shù)據(jù)表達/壓縮能力,Autoencoder通過調(diào)整參數(shù),力求使輸出等于輸入。十多年后,idea還是那個idea,無需人工標注的自監(jiān)督學習再次流行。Autoencoder的Auto并不是“自動”的意思,而是“自”的意思,類似用法還有自回歸Autoregressive,自閉癥Autism等。Autoencoder一般由encoder和decoder兩個部分組成,兩者往往是對稱的(下面也有不對稱的例子),比如醫(yī)療影像分割的U-Net[7]是個典型的對稱結構。
          VAE https://medium.com/mlearning-ai/a-crash-course-on-vaes-vq-vaes-and-vae-gans-3fdcc40b059e
          2013年出現(xiàn)的VAE(Variational Autoencoder)[8]恐怕是最著名的生成式模型(Generative Model)了,VAE和AE的差異在于VAE學到的是隱空間的概率分布,然后再對該概率分布進行采樣,生成輸出,比AE多了學習概率分布參數(shù)這一步。
          生成式模型長期不溫不火是因為表現(xiàn)一直比常見的判別式模型要弱一點,但歷史總是用來被打破的!
          2018年之后,NLP領域自監(jiān)督的BERT的一統(tǒng)江湖。隨著ViT將Transformer引入CV領域,CV領域是否也會產(chǎn)生一種類似于BERT這樣的一種屠榜的自監(jiān)督生成式模型呢?
          MAE的效果
          2021年底,kaiming大神的MAE[9](Masked Autoencoder)來了,和VAE一樣,MAE是個生成模型,它的Encoder和Decoder是不對稱的。所謂Masked就是“掩蓋”,上圖80%的patch都被蓋住 (左),MAE還原的效果(中)和ground truth(右)的對比。感覺比我厲害多了,我很難看出原來的被蓋住圖像是啥。
          MAE
          MAE的encoder和decoder都是Transformer block,但是encoder只處理不被掩蓋的patch,由于大部分patch都被掩蓋了,所以計算量相對要小很多。大概2017年左右,當時還在微軟研究院的kaiming提出的ResNet解決了深度學習的層數(shù)限制問題,殘差連接成為了至今仍被最廣泛應用的技術之一,Swin Transformer中兩個前后連續(xù)的block中分別都有兩個殘差連接(指向????的箭頭),殘差連接在今天的深度學習中幾乎無處不在,ResNet的引用量記得過萬了吧?,F(xiàn)在加盟Facebook (FAIR,F(xiàn)acebook AI Research)的kaiming看來也轉戰(zhàn)Transformer了,隨著Facebook改名為Meta,F(xiàn)AIR是不是也要改名了,MAIR?
          Swin Transformer 兩個前后連續(xù)的block
          ConNeXt
          同樣還是FAIR,最近從CNN發(fā)起了絕地反擊,A ConvNet for the 2020s一文提出ConvNeXt[10],借鑒了 Vision Transformer 和 CNN 的成功經(jīng)驗,構建一個純卷積網(wǎng)絡,其性能超越了高大上(復雜的) 基于Transformer 的先進的模型,榮耀歸卷積網(wǎng)絡!但仔細看,好像也沒又什么大的idea方面的創(chuàng)新,只是一堆Trick。但至少回應了“廉頗老矣,尚能飯否”的質(zhì)疑,“飲食不弱于從前”!
          ConvNeXt 采用標準神經(jīng)網(wǎng)絡 ResNet-50 并對其進行現(xiàn)代化改造,以使設計更接近ViT,使用 AdamW 優(yōu)化器,使用更多 epoch 對其進行訓練,應用花式數(shù)據(jù)增強技術和正則化(高斯誤差線性單元GELU代替Relu),使用大卷積核和Inverse Bottleneck(中間粗兩頭細)。
          ConvNeXt的出現(xiàn)證明,并不一定需要Transformer那么復雜的結構,只是對原有CNN的技術和參數(shù)優(yōu)化也能達到SOTA,未來CV領域卷積和Transformer誰主沉???
          雖然ConvNeXt扳回一城,但未來應該也不是ConvNeXt is all you need! Transformer的價值不會被抹殺。
          從Swin和PVT(Pyramid Vision Transformer)[11]可以看出,僅僅有注意力不太夠用,(小patch)計算成本指數(shù)增長????,大patch的顆粒度比較粗,不能滿足語義分割等dense prediction的要求,而卷積具有提取本地特征計算成本低的優(yōu)點,Transformer則更擅長于長程(long range)的全局特征(計算量大)處理,這恰是CNN的弱點(不杠空洞卷積哈),兩者具有互補性;而ConvNext則借鑒了Transform的一些參數(shù)設置(如Block的數(shù)量)。
          個人觀點:未來CV的發(fā)展方向可能是ConvNet在前面對底層的特征進行抽取,后面接Transformer對全局特征處理,兩者各司其職,并進行相應的結構簡化。大家有什么其他觀點,在評論區(qū)愿聞其詳!
          https://braintour.harvard.edu/archives/portfolio-items/hubel-and-wiesel
          https://www.informit.com/articles/article.aspx?p=1431818
          從更長遠的歷史尺度來看,CNN的工作原理與1958年Johns Hopkins大學兩位教授Hubbell和Wiesel對于貓的視覺研究非常相似。他們在貓的腦殼上開了個3mm的小孔,放入電極,測量給貓看不同的圖像刺激時貓腦電波動,他們發(fā)現(xiàn)特定的大腦視皮層細胞只會被部分對應形狀的視覺特征圖像所激發(fā)(CNN中的卷積核的工作原理與之非常類似),他們由此發(fā)現(xiàn)了大腦視覺過程的機制,獲1981年諾貝爾醫(yī)學獎。
          Neocognitron https://www.researchgate.net/figure/The-architecture-of-the-neocognitron_fig1_336163445
          1979年,日本科學家Kunihiko Fukushima提出Neocognitron模型,可以說是CV界卷積思想的鼻祖了吧。1990年代,Yan Lecun提出LeNet,比較好的識別了手寫數(shù)字,他的MNIST數(shù)據(jù)集已經(jīng)成為今天CV學習者的“Hello World”。2014年ImageNet冠軍27層神經(jīng)網(wǎng)絡GoogLeNet中的L大寫,是為了向LeNet致敬。
          https://earthsky.org/human-world/today-in-science-tycho-brahe/
          未來,CV大的突破也許來源于腦科學,認知科學或其他領域(GAN源于博弈論,玻爾茲曼機源于統(tǒng)計力學)的新發(fā)現(xiàn),畢竟人類對大腦認知比宇宙還要少的多。不過,也有人認為,飛機不必向鳥那樣煽動翅膀才能飛起來,但總的來說,我們期待未來CV領域的理論能有所突破,而不僅僅是堆算力的暴力美學以及煉丹(強化學習,遺傳算法,元學習的用武之地?)。不過我也不是太悲觀,大量實踐是理論突破的基礎,人類的認知一貫如此:
          • 先發(fā)明了飛機,后有空氣動力學
          • 先發(fā)明了望遠鏡,后來才建立了光學
          • 先有第谷.布拉赫積累大量行星運動數(shù)據(jù),開普勒才發(fā)現(xiàn)了三大定律,牛頓才能提出萬有引力定理
          • ... ...
          期待CV領域的????來解釋第谷幾麻袋的“天文數(shù)字”,彼時,GPU應該要回歸其初心吧,亦或礦機仍然需求強烈,達成共識是個熵減的過程,消耗能量是必然的,也許宇宙的本質(zhì)就是計算(病毒不斷變異本質(zhì)也是計算,研制疫苗的本質(zhì)是和巨量使用遺傳算法的病毒變異拼算力?),關鍵在于降低每次計算的能耗,大腦的功耗大約20W,一個饅頭就夠思考人參很久了。

          參考鏈接

          1. https://arxiv.org/abs/1706.03762
          2. https://arxiv.org/abs/1810.04805
          3. https://arxiv.org/abs/2010.11929
          4. https://arxiv.org/pdf/2011.04006.pdf
          5. https://arxiv.org/abs/2103.14030
          6. https://www.science.org/doi/10.1126/science.1127647
          7. https://arxiv.org/abs/1505.04597
          8. https://arxiv.org/abs/1312.6114
          9. https://arxiv.org/abs/2111.06377
          10. https://arxiv.org/abs/2201.03545
          11. https://arxiv.org/abs/2102.12122

          本文僅做學術分享,如有侵權,請聯(lián)系刪文。

          —THE END—
          瀏覽 66
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  男女免费av| 天天色天天综合 | 少妇婬荡视频在线播放 | 神马午夜亚洲 | 午夜电影久久 |