<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          如何評(píng)價(jià)FAIR提出的MaskFeat:一種適用圖像和視頻分類的自監(jiān)督學(xué)...

          共 5135字,需瀏覽 11分鐘

           ·

          2022-01-03 18:42

          ↑ 點(diǎn)擊藍(lán)字?關(guān)注邁微AI研習(xí)社
          作者丨謝凌曦、董力、小麻花來源丨h(huán)ttps://www.zhihu.com/question/506657286

          邁微導(dǎo)讀

          ?

          Facebook新作MaskFeat,該工作的ViT-B在ImageNet 1K上的準(zhǔn)確率達(dá)到了84.0%,MViT-L在Kinetics-400上的準(zhǔn)確率達(dá)到了86.7%,一舉超越了MAE,BEiT和SimMIM等方法。


          #?回答一

          作者:謝凌曦

          來源鏈接:https://www.zhihu.com/question/506657286/answer/2275700206

          所有內(nèi)容均只代表作者本人觀點(diǎn),均有可能被推翻,二次轉(zhuǎn)載務(wù)必連同聲明一起轉(zhuǎn)載。

          利益相關(guān):做過且正在做自監(jiān)督學(xué)習(xí)相關(guān)研究,認(rèn)識(shí)本文的一作,并且討論過近期發(fā)展趨勢(shì)。


          一句話評(píng)價(jià):MaskFeat提供了一條新的線索,讓我們能夠?qū)徱暿止ぬ卣髟谏墒侥P椭械淖饔谩?/span>


          但是,從整體看今年這波自監(jiān)督學(xué)習(xí)的工作(包括但不限于BEIT、iBOT、MAE、SimMIM、PeCo、SaGe、MaskFeat),我感受到的迷茫比希望要更多一些。


          下面簡(jiǎn)單解釋一下我的觀點(diǎn)。限于個(gè)人水平,很多看法并不全面,還請(qǐng)輕噴。


          自監(jiān)督學(xué)習(xí),本質(zhì)上就是要解決一個(gè)問題:新知識(shí)從哪里來?過去幾年,業(yè)界經(jīng)歷了基于幾何的學(xué)習(xí)方法(包括預(yù)測(cè)patch相對(duì)位置、預(yù)測(cè)圖像旋轉(zhuǎn)角度等)、基于對(duì)比的學(xué)習(xí)方法(包括instance discrimination、feature prediction等)后,終于開始回歸最本源的,基于生成的學(xué)習(xí)方法。然而,在基于生成的學(xué)習(xí)中,我們必然面臨一個(gè)核心問題:如何判斷生成圖像的質(zhì)量?


          怎樣的視覺識(shí)別算法才是完整的?(https://zhuanlan.zhihu.com/p/376145664)


          這個(gè)問題,我曾經(jīng)在之前的文章https://arxiv.org/abs/2105.13978中討論過,文章大意可參見上面的知乎鏈接。我的觀點(diǎn)是:解決圖像質(zhì)量判斷問題,等價(jià)于解決新知識(shí)從哪里來的問題,也就等價(jià)于自監(jiān)督學(xué)習(xí)本身。在我們用各種方式擾亂輸入的情況下(包括我一直倡議的對(duì)圖像信號(hào)做壓縮),像素級(jí)評(píng)測(cè)恢復(fù)效果顯然不是最佳方案。相信這個(gè)道理大家都懂,但是大家是如何做的呢?看看近期的工作:


          • MAE、SimMIM:直接用像素評(píng)判;
          • BEIT、PeCo:使用一個(gè)離線預(yù)訓(xùn)練的tokenizer:這個(gè)tokenizer和VQ-VAE掛鉤,而VQ-VAE的目標(biāo)是恢復(fù)像素——因此幾乎可以認(rèn)為,這種tokenizer的作用和像素級(jí)恢復(fù)是相當(dāng)?shù)模?/span>
          • iBOT:將上述tokenizer改為在線訓(xùn)練,利用類似于teacher-student的方式做監(jiān)督——我很喜歡它無需引入離線預(yù)訓(xùn)練的性質(zhì),雖然它的訓(xùn)練效率要低一些;
          • SaGe:使用一個(gè)離線BYOL預(yù)訓(xùn)練的網(wǎng)絡(luò)來抽特征;
          • MaskFeat:使用手工的HOG特征——這是2005年的CVPR paper,新人們有多少能第一時(shí)間反應(yīng)出HOG是啥玩意兒的?

          然后重點(diǎn)來了:根據(jù)我們的研判,上述幾種方法的效果,其實(shí)沒有很本質(zhì)的差別。這波工作只所以能夠達(dá)到看似很高的性能,關(guān)鍵在于vision transformer的應(yīng)用,以及它和masked image modeling任務(wù)的絕妙配合。當(dāng)然,一組組優(yōu)秀的參數(shù)也是功不可沒的。


          這意味著什么呢?視覺自監(jiān)督領(lǐng)域做了這么些年,從最早的生成式學(xué)習(xí)出發(fā),繞了一圈,又回到生成式學(xué)習(xí)。到頭來,我們發(fā)現(xiàn)像素級(jí)特征跟各種手工特征、tokenizer、甚至離線預(yù)訓(xùn)練網(wǎng)絡(luò)得到的特征,在作為判斷生成圖像質(zhì)量方面,沒有本質(zhì)區(qū)別。也就是說,自監(jiān)督也許只是把模型和參數(shù)調(diào)得更適合下游任務(wù),但在“新知識(shí)從哪里來”這個(gè)問題上,并沒有任何實(shí)質(zhì)進(jìn)展。


          誠(chéng)然,大家可以說:視覺自監(jiān)督不需要學(xué)習(xí)任何知識(shí),只需要擬合給定數(shù)據(jù)集的分布,使得下游微調(diào)更方便即可。可我總覺得,這不應(yīng)該是自監(jiān)督所追求的唯一目標(biāo)。


          道阻且長(zhǎng)!



          #?回答二

          作者:董力

          來源鏈接:https://www.zhihu.com/question/506657286/answer/2276537031

          為了使生成式自監(jiān)督預(yù)訓(xùn)練發(fā)揮作用,BEiT( https://arxiv.org/pdf/2106.08254.pdf)中提供的一個(gè)insight是"pixel-level recovery task tends to waste modeling capability on pre-training short-range dependencies and high-frequency details",具體到每個(gè)工作,大家的解決辦法都不太一樣:



          • BEiT: 使用dVAE tokenizer構(gòu)造bottleneck,將pixel-level details學(xué)在tokenzier參數(shù)中 ("BEiT overcomes the above issue by predicting discrete visual tokens, which summarizes the details to high-level abstractions.")
          • MAE: 1) 增加了decoder部分用來記憶pixel-level details;2) encoder部分去除了[M],把masked patch信息推到decoder中;3) per-patch-norm 歸一化掉細(xì)節(jié)信息,鼓勵(lì)學(xué)習(xí)semantic content
          • PeCo: 在BEiT tokenizer中加入perceptual loss (在style transfer里面充當(dāng)content loss),鼓勵(lì)visual tokens保留semantic content,抑制具體的紋理、style等信息
          • iBOT: 框架上類似BEiT+DINO,其中DINO部分得到的online tokenizer,通過data augmentation抑制細(xì)節(jié)信息的學(xué)習(xí)
          • MaskFeat: 利用人工構(gòu)造的HOG features作為學(xué)習(xí)目標(biāo),消除細(xì)節(jié)信息

          基于BEiT中提出的masked image modeling (MIM)預(yù)訓(xùn)練任務(wù),可以發(fā)現(xiàn)目前的絕大多數(shù)工作都是從上面說的這個(gè)insight去提升自監(jiān)督效果。問題中的提到的MaskFeat驗(yàn)證了人工構(gòu)造的HOG特征,也可以起到很好的效果。希望未來有更形式化的工作,去指引大家創(chuàng)新。



          #?回答三

          作者:小麻花

          來源鏈接:

          https://www.zhihu.com/question/506657286/answer/2276460942
          c76073cc00a66b78de1e8cb9b823256d.webp

          paper:https://arxiv.org/abs/2112.09133


          論文解讀

          要想理解論文,我們先搞明白什么是HOG特征


          “HOG(方向梯度直方圖)特征是一種在計(jì)算機(jī)視覺和圖像處理中用來進(jìn)行物體檢測(cè)的特征描述子,HOG特征通過計(jì)算和統(tǒng)計(jì)圖像局部區(qū)域的梯度方向直方圖來構(gòu)成特征”


          231d365b9be8fdee7a33a81499903430.webp

          HOG可以表示圖像得物體特征,能夠檢測(cè)出這類物體,在早期的計(jì)算機(jī)視覺,HOG就已經(jīng)有應(yīng)用了,比如HOG+SVM的行人檢測(cè)


          這里不詳細(xì)講HOG,有興趣的同學(xué)可以搜論文,下面開始正題


          遮蔽左圖,人類通常能猜出這個(gè)大概是什么,并繪制想象信息的輪廓,比如我們猜 masked input,大家大概能猜出來是一個(gè)狗


          我們要教計(jì)算機(jī)來會(huì)猜,BEiT是去猜經(jīng)過dVAE的visual token,MAE是去猜pixel,而這篇工作是去猜HOG


          作者也證明猜這個(gè)HOG很牛的,不僅在視頻牛逼,而且也在圖像牛逼,通過這個(gè)思路,被訓(xùn)練的模型可以充分理解復(fù)雜時(shí)空結(jié)構(gòu)


          5a51242dbc1de3ee05e455091ccf19b9.webp

          我們看看網(wǎng)絡(luò)的結(jié)構(gòu)是什么樣的,方法很簡(jiǎn)單,一個(gè)原圖經(jīng)過masked后進(jìn)入encoder,然后linear一下,預(yù)測(cè)這個(gè)原圖的HOG,具體做法是,首先獲得原圖的HOG特征圖,然后分塊,把要mask的部分平坦化,最小化預(yù)測(cè)的HOG和原始HOG的L2損失


          d5f21e4f930e73f7e66ace91600c4721.webp

          就這么簡(jiǎn)單,沒有BEiT那種復(fù)雜的dVAE,MaskFeat 不僅在視頻方面取得了不俗的性能,而且在圖像方面也有不俗的性能,在ViT-B模型上性能超越BEiT、SimMIM、MAE等


          3b3ddb1097185d909e63dc6843f5442b.webp

          自監(jiān)督的MIM說到底就是在玩去預(yù)測(cè)什么,以及為什么預(yù)測(cè)這個(gè)能牛逼,bert是預(yù)測(cè)被mask的詞語(yǔ),beit是預(yù)測(cè)被mask的visual token,mae是預(yù)測(cè)被mask的pixel,而現(xiàn)在我們要說一下為什么maskfeat去預(yù)測(cè)被mask的部分的HOG可以work?


          為了證明HOG可以作為很好的預(yù)測(cè)特征,作者列出了其他的特征,通過實(shí)驗(yàn)對(duì)比來證明HOG的優(yōu)勢(shì)



          • pixel color

          這個(gè)在以前的圖像修補(bǔ)任務(wù)經(jīng)常用到,但是有一個(gè)潛在的缺點(diǎn),會(huì)過度擬合局部統(tǒng)計(jì)數(shù)據(jù)和高頻細(xì)節(jié),局部統(tǒng)計(jì)這里是指光照和對(duì)比變化,這會(huì)給模型理解事物本質(zhì)造成噪聲



          • HOG

          HOG擅長(zhǎng)捕捉局部形狀和外觀,一定程度不受幾何變化影響,對(duì)光照變化和對(duì)比度變化魯棒,這一點(diǎn)在HOG+SVM行人檢測(cè)十分重要,同時(shí)HOG計(jì)算開銷很小,卷積然后進(jìn)行直方圖和歸一化就行了,可以忽略



          • dVAE

          會(huì)引起額外的計(jì)算開銷,如BEiT



          • Deep feature、pseudo label

          deep feature和dVAE一樣會(huì)帶來額外的計(jì)算開銷,pseudo label參考TokenLabeling


          為了比較上述那個(gè)好,作者做了簡(jiǎn)單的實(shí)驗(yàn),如下圖所示,基于RGB和基于HOG是one stage的,因?yàn)椴粫?huì)引入別的額外模型,直接從圖像得到數(shù)據(jù),其他的都是two stage(除了scratch外),都需要設(shè)定額外模型來對(duì)原圖進(jìn)行特征提取


          aeddee6298f5ef2c8fd6d1c67f8a451e.webp

          作者注意到,在微調(diào)過程中,superviesd 和 pseudo-label 會(huì)出現(xiàn)顯著的過擬合,表明從類別標(biāo)簽學(xué)習(xí)在Maskfeat是不合適的,一定程度說明,先ssl然后做fine tune確實(shí)有一定的效果


          考慮性能和計(jì)算成本的權(quán)衡,作者選擇了HOG作為pretext task


          接下來作者基于HOG做了一系列的實(shí)驗(yàn)


          2490c7596a638358add4abc8c5d1d5cf.webp

          上圖所示,MaskFeat無需額外數(shù)據(jù)(baseline為ImagNet1k),無需額外模型,得到了具有競(jìng)爭(zhēng)力的性能,pre-train 1600 epoch,fine-tune 100 epoch(vit-l 50 epoch)有趣得的是,在vit-l大模型下得到了非常好的擴(kuò)展性,相比scratch,自監(jiān)督確實(shí)是大模型一個(gè)很好的解決之路


          此外,針對(duì)Pixel和HOG更詳細(xì)的對(duì)比,作者做了一系列的實(shí)驗(yàn),如下所示,基于Pixel的預(yù)測(cè)會(huì)生成模糊的圖像,如下所示


          420b5b936f56c3822140987da0d216af.webp

          更形象一點(diǎn),在高頻區(qū)域下,比如預(yù)測(cè)海膽,周邊的毛刺可以看做高頻區(qū)域,基于Pixel的方式會(huì)產(chǎn)生模糊的顏色預(yù)測(cè),而HOG的預(yù)測(cè)可以很好抓住高頻區(qū)域的紋理變化,對(duì)模糊性更加魯棒


          94c8a7cfff6a3067de18454c8a312496.webp

          實(shí)際上,在MAE的實(shí)驗(yàn)中,這個(gè)現(xiàn)象也存在,如下圖所示,高頻部分被模糊,紋理特征不明顯(另外推廣一下飛槳的自監(jiān)督庫(kù)PASSL~


          c361d035920ebd4005bdb304f3a0efac.webp

          Refer


          [1] Histograms of Oriented Gradients for Human Detection (inria.fr)


          [2] facebookresearch/deit: Official DeiT repository (github.com)


          [3] zihangJiang/TokenLabeling: Pytorch implementation of "All Tokens Matter: Token Labeling for Training Better Vision Transformers" (github.com)


          如果覺得有用,就請(qǐng)分享到朋友圈吧!

          △點(diǎn)擊卡片關(guān)注邁微AI研習(xí)社,獲取最新CV干貨

          公眾號(hào)后臺(tái)回復(fù)“transformer”獲取最新Transformer綜述論文下載~



          推薦閱讀

          (更多“摳圖”最新成果)

          邁微AI研習(xí)社

          微信號(hào): MaiweiE_com

          GitHub:?@Charmve

          CSDN、知乎: @Charmve

          投稿: [email protected]

          主頁(yè): github.com/Charmve


          如果覺得有用,就請(qǐng)點(diǎn)贊、轉(zhuǎn)發(fā)吧!

          瀏覽 62
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  日韩无码中文视频 | 操骚屄操骚屄操骚屄 | 国产人妻精品一区二区三水牛影视 | 国产三级毛片 | 久久ai精品 |