<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          CV大神何愷明最新一作:視覺預(yù)訓(xùn)練新范式MAE!下一個(gè)CV大模型要來?

          共 2618字,需瀏覽 6分鐘

           ·

          2021-11-14 23:58



          ??新智元報(bào)道??

          編輯:David、桃子

          【新智元導(dǎo)讀】CV大神何愷明又出力作!團(tuán)隊(duì)提出MAE模型,將NLP領(lǐng)域大獲成功的自監(jiān)督預(yù)訓(xùn)練模式用在了計(jì)算機(jī)視覺任務(wù)上,效果拔群,在NLP和CV兩大領(lǐng)域間架起了一座更簡便的橋梁。

          CV大神何愷明又出力作!
          ?
          這次,何大神讓BERT式預(yù)訓(xùn)練在CV上也能訓(xùn)的很好。
          ?
          論文「Masked Autoencoders Are Scalable Vision Learners」證明了 masked autoencoders(MAE)?是一種可擴(kuò)展的計(jì)算機(jī)視覺自監(jiān)督學(xué)習(xí)方法。
          ?
          目前,該論文已于11月11日提交在arxiv上。
          ?

          論文地址:https://arxiv.org/abs/2111.06377


          論文成果簡介

          ?
          此文最大的貢獻(xiàn),可能是在NLP和CV兩大領(lǐng)域之間架起了一座更簡便的橋梁。
          ?
          此前,大名鼎鼎的GPT和BERT已經(jīng)將大型自然語言處理(NLP)模型的性能提升到了一個(gè)新的高度。
          ?
          直觀點(diǎn)講,就是事先遮住一些文本片段,讓AI模型通過自監(jiān)督學(xué)習(xí),通過海量語料庫的預(yù)訓(xùn)練,逐步掌握上下文語境,把這些被遮住的片段,用盡可能合乎邏輯的方式填回去。
          ?
          這和我們做「完形填空」的方式有些類似。經(jīng)過海量數(shù)據(jù)的學(xué)習(xí)和訓(xùn)練,AI模型慢慢學(xué)會了自己生成自然文本。目前,隨著GPT及其后續(xù)改進(jìn)模型的不斷進(jìn)步,生成的自然文本幾乎可以亂真。
          ?
          現(xiàn)在,何愷明的這篇文章把NLP領(lǐng)域已被證明極其有效的方式,用在了計(jì)算機(jī)視覺(CV)領(lǐng)域,而且模型更簡單。
          ?
          一起先來看下效果:
          ?
          遮住95%的像素后,仍能還原出物體的輪廓,這居然還能work!
          ?
          ?
          本文提出了一種掩膜自編碼器 (MAE)架構(gòu),可以作為計(jì)算機(jī)視覺的可擴(kuò)展自監(jiān)督學(xué)習(xí)器使用,而且效果拔群。
          ?
          實(shí)現(xiàn)方法很簡單:先將輸入圖像的隨機(jī)部分予以屏蔽(Mask),再重建丟失的像素。


          MAE模型結(jié)構(gòu)與實(shí)現(xiàn)


          本文提出的MAE架構(gòu)如下:
          ?
          ?
          在預(yù)訓(xùn)練期間,大比例的隨機(jī)的圖像塊子集(如 75%)被屏蔽掉。編碼器用于可見patch的小子集。在編碼器之后引入掩碼標(biāo)記,并且完整的編碼塊和掩碼標(biāo)記集由一個(gè)小型解碼器處理,該解碼器以像素為單位重建原始圖像。
          ?
          預(yù)訓(xùn)練后,解碼器被丟棄,編碼器應(yīng)用于未損壞的圖像以生成識別任務(wù)的表示。
          ?
          ?
          MAE 是一種簡單的自編碼方法,可以在給定部分觀察的情況下重建原始信號。由編碼器將觀察到的信號映射到潛在表示,再由解碼器從潛在表示重建原始信號。
          ?
          與經(jīng)典的自動編碼器不同,MAE采用非對稱設(shè)計(jì),允許編碼器僅對部分觀察信號(無掩碼標(biāo)記)進(jìn)行操作,并采用輕量級解碼器從潛在表示和掩碼標(biāo)記中重建完整信號。
          ?
          掩膜
          ?
          將圖像劃分為規(guī)則的非重疊patch。對patch的子集進(jìn)行采樣并屏蔽剩余patch。我們的采樣策略很簡單:均勻分布,簡單稱為“隨機(jī)抽樣”。
          ?
          ?
          MAE 編碼器
          ?
          編碼器僅適用于可見的、未屏蔽的patch。編碼器通過添加位置嵌入的線性投影嵌入patch,然后通過一系列 Transformer 塊處理結(jié)果集。編碼器只對整個(gè)集合的一小部分(如 25%)進(jìn)行操作。
          ?
          被屏蔽的patch會被移除;不使用掩碼令牌。這樣可以節(jié)約計(jì)算資源,使用一小部分計(jì)算和內(nèi)存來訓(xùn)練非常大的編碼器。
          ?
          ?
          MAE解碼器
          ?
          解碼器的輸入是完整的令牌集。每個(gè)掩碼標(biāo)記代表一個(gè)共享的、學(xué)習(xí)過的向量,表示存在要預(yù)測的缺失patch。
          ?
          解碼器僅在預(yù)訓(xùn)練期間用于執(zhí)行圖像重建任務(wù)。因此,它的設(shè)計(jì)可以獨(dú)立于編碼器。實(shí)驗(yàn)中使用的解碼器更加輕量級。通過這種非對稱設(shè)計(jì),顯著減少了預(yù)訓(xùn)練時(shí)間。
          ?
          圖像目標(biāo)的重建
          ?
          MAE 通過預(yù)測每個(gè)掩碼塊的像素值來重建輸入圖像。
          ?
          解碼器輸出中的每個(gè)元素都是一個(gè)表示補(bǔ)丁的像素值向量。解碼器的最后一層是線性投影,其輸出通道的數(shù)量等于補(bǔ)丁中像素值的數(shù)量。解碼器的輸出被重新整形以形成重建的圖像。
          ?
          MAE 預(yù)訓(xùn)練實(shí)施效率高,實(shí)現(xiàn)方式簡單,而且不需要任何專門的稀疏操作。
          ?
          ?
          從上圖可以看出,隨著輸入圖像被遮住的比例升高,MAE的性能迅速上升,在75%左右達(dá)到最佳效果。


          性能驚艷:ImageNet-1K最高87.8%


          與當(dāng)前SOTA自監(jiān)督預(yù)訓(xùn)練方法相比,對于 ViT-B 的表現(xiàn)結(jié)果都很接近。對于 ViT-L不同方法的結(jié)果就存在很大差距,這表明更大模型的挑戰(zhàn)是減少過度擬合。


          再看最后一列,僅使用ImageNet-1K數(shù)據(jù)時(shí),ViT-Huge模型的最高精確度為87.8%,這明顯超過了所有在ImageNet-21K 預(yù)訓(xùn)練的ViT變種模型。
          ?
          作者總結(jié)道,與 BEiT方法相比,MAE更準(zhǔn)確、更簡單、更高效。
          ?
          ?


          網(wǎng)友:respect


          「現(xiàn)在是2021年11月12日中午,愷明剛放出來幾個(gè)小時(shí),就預(yù)定了CVPR2022 best paper candidate(這里說的是best paper candidate,不是best paper)」

          ?
          這篇文章推翻了之前視覺自監(jiān)督領(lǐng)域的統(tǒng)領(lǐng)范式(NLP里面確實(shí)用的比較多,但是CV里面用的并不多),提出了簡單本質(zhì)有效的自監(jiān)督方法: 基于mask和autoencoder的恢復(fù)方法。
          ?

          ?
          「大致看了一遍,做的很solid,在iGPT和BEiT的基礎(chǔ)上,化繁為簡,找出了最關(guān)鍵的點(diǎn),能夠讓BERT式預(yù)訓(xùn)練在CV上也能訓(xùn)到很好!未來可以預(yù)見能比肩GPT3的CV大模型不遠(yuǎn)矣。」
          ?
          ?
          「只想說,凱明大佬cv封神!!!膜拜大佬,求今年cvpr中簽。」
          ?
          ?

          作者介紹

          ?
          何愷明,本科就讀于清華大學(xué),博士畢業(yè)于香港中文大學(xué)多媒體實(shí)驗(yàn)室。
          ?
          ?
          2011年加入微軟亞洲研究院(MSRA)工作,主要研究計(jì)算機(jī)視覺和深度學(xué)習(xí)。2016年,加入Facebook AI Research(FAIR)擔(dān)任研究科學(xué)家。
          ?
          2020年1月11日,榮登AI全球最具影響力學(xué)者榜單。
          ?
          參考資料:
          ?
          https://arxiv.org/abs/2111.06377
          https://www.zhihu.com/question/498364155/answers/updated
          https://www.zhihu.com/question/498364155/answer/2219622610

          瀏覽 33
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評論
          圖片
          表情
          推薦
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  天天干天天日天天 | 小姐操逼视频 | 精品国产一区二区三区久久久狼,91精品一 | 男女福利网 | 美女裸身久久久 |