<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          大道至簡,何愷明最新一作火了:讓計算機覺視覺通向大模型!

          共 5045字,需瀏覽 11分鐘

           ·

          2021-11-14 21:26

          何愷明,清華大學本科,港中文博士

          點擊下方卡片,關(guān)注“新機器視覺”公眾號

          視覺/圖像重磅干貨,第一時間送達

          來源 | 知乎,MLNLP編輯

          https://www.zhihu.com/question/498364155


          原問題:如何看待何愷明最新一作論文Masked Autoencoders?


          論文鏈接:https://arxiv.org/pdf/2111.06377.pdf



          01


          回答一:作者-田永龍

          我一般判斷看一篇方法類文章將來是否有影響力從下面三個角度(重要程度依次遞減)

          (1) 驚人程度,Surprise

          研究的目的就是探索前人不知道的知識,挖掘新的信息。我認為MAE在這點上很棒,它告訴了我直接reconstruct image原圖也可以做到很work,這改變了我們絕大多數(shù)人的認知(之前iGPT沒有很work; 其他答案提的BEIT也并不是reconstruct原圖,而是reconstruct feature)。

          在NLP reconstruct效果很好是因為文字本身就是highly semantic,所以模型預(yù)測的目標信息量大,而噪音小; 圖片相比而言語意信息密度低,如果模型要完全預(yù)測對目標的話就要浪費capacity去model那些不重要的玩意兒。因此我一直覺得reconstruction這個學習目標不太對。

          但這篇文章似乎是換了種方式來解決這個問題(個人偏見),就是壓根就沒想讓模型完全恢復原圖,MAE只輸入很少的patch,那無論如何也恢復不了原圖。同時我們都知道,相比高頻信號而言,神經(jīng)網(wǎng)絡(luò)更擅長抓住低頻的信號。高頻是局部細節(jié),低頻更多是high level semantics。所以netwok最后可能以fit低頻信號為主學到了high-level feature? 論文里面的visualization看起來也比較契合。

          以前CovNets時代做不了,如果把mask的圖丟給convnet,artifacts太大了,預(yù)訓練時候模型時既得費勁入管mask out掉的region,預(yù)訓練完了后還造成了跟后面完整圖片的domain gap,吃力不討好,我之前用convnet試過這種mask patch的相關(guān)的東西,結(jié)果亂七八糟的不work。但MAE里Transformer可以很好避開這個坑,太妙了。我的導師也評價說我們AI的ecosystem一直在變,所以方法的有效性和相對優(yōu)越性也在evolve,不是一層不變的。

          (2) 簡單性 simplicity

          這篇文章非常idea非常簡單,實現(xiàn)起來也快捷,有趣的是文章里面一個公式都沒放哈哈。我受導師Phillip的影響,認為在保持核心idea不變的情況下,或者說surpriseness不變的情況下,我們應(yīng)該最小化系統(tǒng)的復雜度。因為越簡單,也會愈發(fā)凸顯驚訝程度。害,說起來我最開始接觸科研老想著瞎加玩意兒,即使現(xiàn)在也經(jīng)常做加法而不是減法,確實比較菜…

          (3) 通用性 generality

          其實(2)和(3)我也不確信哪個更重要,有時候(2)和(3)也相輔相成,越簡單越通用。無疑MAE在(3)也做的很棒,幾乎影響所有vision里面的recognition類別的任務(wù),不過這也是做representation learning這方向的好處…死磕基礎(chǔ)問題。

          所以,綜合這幾點我覺得無疑是visual representation learning今年最有影響力的文章…

          P.S. 看到有個答案說KM的研究品味不高,我完全不敢同意,每個人喜好做不同類型的工作罷了,在做方法算法這塊,KM的的品味絕對是最top的,傳聞就有做graphics的很solid的教授評價他: whatever this guy touches become gold。當然如果不是方法類的研究,而是要做一件從0到1的事,或者挖坑帶領(lǐng)大家前進,那影響力就不能從這三個標準來看了,得看vision了。


          02


          回答二:作者-胡瀚

          趁著寫論文的間歇來寫個回答,講幾個感想:

          1. 除了idea和實驗方面的天賦,還想說愷明對于技術(shù)趨勢的敏銳性和革命前夕的神準把握方面實在太牛了。一直覺得創(chuàng)新本身不是最重要的,更重要的是帶來改變領(lǐng)域走向的理解或者技術(shù),愷明這篇論文無疑是會達到這一成就的,MoCo和Mask R-CNN也是如此,大巧無工,但真的改變了領(lǐng)域。

          2. 過去我們過于看重linear probe這個指標,MAE無疑會改變這一現(xiàn)狀,以及讓我們重新去看待contrastive learning和mask image modeling的未來。很巧的是,一年前,我們NLC組的同事Hangbo Gao、 @董力 以及韋福如和我們提到要做和MAE類似路線的方法:BEIT,那時還覺得這個路線的方法學到的特征會太low-level,沒想到半年后他們居然搞出來了,結(jié)果非常驚艷,事實上也改變了我的認知。MAE這個工作無疑也會讓BEIT也大火起來, 盡管過去4、5個月BEIT其實在小范圍內(nèi)已經(jīng)很受關(guān)注,但它受到的關(guān)注顯然小于它實際的貢獻。愷明大神這次的論文,讓這個方向工作的重要性得到了應(yīng)有的證明。




          3. 看到愷明Intro里的一句話:”The idea of masked autoencoders, a form of more general denoising autoencoders [48], is natural and applicable in computer vision as well. Indeed, closely related research in vision [49, 39] preceded BERT.” 要特別贊一下這句話,其實也是有共鳴的,今年在RACV上講了一個態(tài)度比較鮮明(或者極端吧。。)的talk,說要“重建CV人的文化自信”,就拿它作為其中一個例子:Mask Image Modeling或者視覺里叫Inpainting的方法在CV里做的蠻早的,在BERT之前就已經(jīng)有一些。


          4. 想再次感嘆一下,CV和NLP以及更多領(lǐng)域的融合看來真的是大勢所驅(qū)了,希望不同領(lǐng)域的人多多合作,一起來搞事情。前幾天見到董力和福如,他們提到有個多模態(tài)的工作因為掛了Arxiv不能投ACL了,我提議他們投CVPR,不曉得他們最后是什么決定。無論如何,CV的會議是很開放和包容的,理論的、偏工程的、交叉的、基于toy data做的,只要有點意思都有機會被接收,相信這也是CV領(lǐng)域能夠長期這么繁榮的重要原因之一。在AI各個子領(lǐng)域技術(shù)趨同的背景下,它們之間的聯(lián)系和跨界也會越來越緊密,這正是CV這個社區(qū)體現(xiàn)開放和包容心態(tài)的時候,吸引更多NLP的同仁們加入CV或者交叉研究中,以及我們自己去嘗試給其他AI子領(lǐng)域進行貢獻的時候,最終的目標就是和各個領(lǐng)域一起共舞,共同推進AI的進展。


          03


          回答三:作者-田柯宇


          MAE 簡單來說是把 pixel-level inpainting 在 ssl 上又做成功了(超過 contrastive learning) 這件事情:1)反常識. BEiT驗證了 pixel reconstruction 相比 token prediction 更難學習,iGPT的性能也體現(xiàn)了這一點。2)大勢所趨. 最近爆火的 contrastive learning 存在過度依賴 augmentation 的固有問題,而比較優(yōu)雅的、在 nlp 領(lǐng)域全面開花的 generative ssl 在 vision 上卻一直處于“低估/未被充分挖掘”的狀態(tài)。

          先擺明立場:

          非常期待非 contrastive learning 的 ssl 方式在視覺領(lǐng)域的突破性進展(也算是輪回了)。下文會有一些關(guān)于這個點的討論。

          理智看待。“造神”或者“best paper 預(yù)訂”的一些言論確實有些過度了,但個人也不贊同“認為 BEiT/MAE 是 BERT 的機械搬運”的觀點。能把一個大膽的想法/一個無現(xiàn)成解法的問題做work(遠超 iGPT,linear prob和finetune都很高),其實本身也是solid work的體現(xiàn),其中肯定也包含了有價值的insight和細節(jié)處理可以挖。實際BERT在nlp中也不是第一個做biLM的工作,但的確是方案最成熟,也是時間見證了最有impact的那一支工作。

          具體 comments:

          一直覺得近期的 augmentation-based contrastive learning 并不是 ssl for vision 最優(yōu)雅的方式:

          • 雖然這波方法用上了圖像數(shù)據(jù)上有很好先驗的 data augmentation 這個文本數(shù)據(jù)沒有的超大優(yōu)勢,但存在一個很大的固有問題:本質(zhì)是學了一堆 transformation-invariant 的 representation. 而要判斷用哪些 augmentation 是好的,i.e. 要判斷讓模型學到什么樣的 transformation invariance 是好的,本身就依賴于要知道下游任務(wù)具體要干什么(比如下游任務(wù)如果認為顏色語義很重要,那么 color-based augmentation 就不應(yīng)該用在 pretrain 中),導致“要想上游 pretrain 得好,就得先知道下游任務(wù)需要哪些語義信息”的奇怪尷尬局面。

          • 這個問題在[3]中也有指出。另外最近一些工作似乎也在嘗試讓 contrastive learning 不僅僅只學一堆 invariance(例如同時保持對各種 transformation 的 variant 和 invariant,從而讓下游自己去挑選),以期望得到一個更 general 的 ssl algorithm.

          早些陣子的 vision ssl,pretext-task 更五花八門一些,主要是一些 discriminative(rotation degree prediction,location prediction,jigsaw,etc.)和 generative(inpainting)的方法。個人認為 inpainting 還是更優(yōu)雅一些,也更接近 self-supervised 的本質(zhì)(參考 LeCun's talk。

          但圖像數(shù)據(jù)相比文本數(shù)據(jù)天然有更弱的語義性/語義密度、更強的連續(xù)性和不確定性,導致 pixel-level inpainting 天然很難做到像 BERT 那樣的驚艷效果。再加上在 vision 大家都很關(guān)注的 linear probing 實驗,又天然不利于 generative ssl 施展拳腳,就導致了現(xiàn)在 contrastive learning 大行其道、非 contrastive learning 被冷落的局面。

          也許有人會 argue 說是因為早期 inpainting ssl 使用的模型太弱。但最近的 ViT,SiT,iGPT,甚至是 BEiT的 ablation,也說明了即便用上了先進的 ViT,探索一條不是 contrastive learning 的 ssl 道路仍然是艱難的。

          所以,現(xiàn)在看到 BEiT、MAE 這樣的工作,真的很欣慰。期待后續(xù)更多追溯原因和更深層解讀的 paper。也希望 vision pretraining 能走的更好,感覺一組很強的 pretrained vision model 帶來的社會價值真的很高。后續(xù)也會 post 上一些詳細解讀的筆記(有一些點真的很有意思,例如 BEiT 似乎體現(xiàn)了 用 dVAE 去 tokenizate 可以一定程度上緩解 pixel-level 帶來的高連續(xù)性和不確定性的問題 但是 MAE 發(fā)現(xiàn) tokenize 是沒有必要的),簡單梳理一下 vision ssl 然后重點理解下 BEiT 和 MAE,包括 coding 細節(jié),希望能和大家多多交流~

          —版權(quán)聲明—

          僅用于學術(shù)分享,版權(quán)屬于原作者。

          若有侵權(quán),請聯(lián)系微信號:yiyang-sy 刪除或修改!


          —THE END—
          瀏覽 69
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  人人爱人人摸人人舔 | 天天综合网永久入口 | 黄片免费观看 | 亚洲最大的激情4438 | 首页AV天堂 |