如何評(píng)價(jià)FAIR提出的MaskFeat:一種適用圖像和視頻分類的自監(jiān)督學(xué)...
↑ 點(diǎn)擊藍(lán)字?關(guān)注邁微AI研習(xí)社
作者丨謝凌曦、董力、小麻花來源丨h(huán)ttps://www.zhihu.com/question/506657286
邁微導(dǎo)讀
?Facebook新作MaskFeat,該工作的ViT-B在ImageNet 1K上的準(zhǔn)確率達(dá)到了84.0%,MViT-L在Kinetics-400上的準(zhǔn)確率達(dá)到了86.7%,一舉超越了MAE,BEiT和SimMIM等方法。
#?回答一
作者:謝凌曦
來源鏈接:https://www.zhihu.com/question/506657286/answer/2275700206
所有內(nèi)容均只代表作者本人觀點(diǎn),均有可能被推翻,二次轉(zhuǎn)載務(wù)必連同聲明一起轉(zhuǎn)載。
利益相關(guān):做過且正在做自監(jiān)督學(xué)習(xí)相關(guān)研究,認(rèn)識(shí)本文的一作,并且討論過近期發(fā)展趨勢(shì)。
一句話評(píng)價(jià):MaskFeat提供了一條新的線索,讓我們能夠?qū)徱暿止ぬ卣髟谏墒侥P椭械淖饔谩?/span>
但是,從整體看今年這波自監(jiān)督學(xué)習(xí)的工作(包括但不限于BEIT、iBOT、MAE、SimMIM、PeCo、SaGe、MaskFeat),我感受到的迷茫比希望要更多一些。
下面簡(jiǎn)單解釋一下我的觀點(diǎn)。限于個(gè)人水平,很多看法并不全面,還請(qǐng)輕噴。
自監(jiān)督學(xué)習(xí),本質(zhì)上就是要解決一個(gè)問題:新知識(shí)從哪里來?過去幾年,業(yè)界經(jīng)歷了基于幾何的學(xué)習(xí)方法(包括預(yù)測(cè)patch相對(duì)位置、預(yù)測(cè)圖像旋轉(zhuǎn)角度等)、基于對(duì)比的學(xué)習(xí)方法(包括instance discrimination、feature prediction等)后,終于開始回歸最本源的,基于生成的學(xué)習(xí)方法。然而,在基于生成的學(xué)習(xí)中,我們必然面臨一個(gè)核心問題:如何判斷生成圖像的質(zhì)量?
怎樣的視覺識(shí)別算法才是完整的?(https://zhuanlan.zhihu.com/p/376145664)
這個(gè)問題,我曾經(jīng)在之前的文章https://arxiv.org/abs/2105.13978中討論過,文章大意可參見上面的知乎鏈接。我的觀點(diǎn)是:解決圖像質(zhì)量判斷問題,等價(jià)于解決新知識(shí)從哪里來的問題,也就等價(jià)于自監(jiān)督學(xué)習(xí)本身。在我們用各種方式擾亂輸入的情況下(包括我一直倡議的對(duì)圖像信號(hào)做壓縮),像素級(jí)評(píng)測(cè)恢復(fù)效果顯然不是最佳方案。相信這個(gè)道理大家都懂,但是大家是如何做的呢?看看近期的工作:
- MAE、SimMIM:直接用像素評(píng)判;
- BEIT、PeCo:使用一個(gè)離線預(yù)訓(xùn)練的tokenizer:這個(gè)tokenizer和VQ-VAE掛鉤,而VQ-VAE的目標(biāo)是恢復(fù)像素——因此幾乎可以認(rèn)為,這種tokenizer的作用和像素級(jí)恢復(fù)是相當(dāng)?shù)模?/span>
- iBOT:將上述tokenizer改為在線訓(xùn)練,利用類似于teacher-student的方式做監(jiān)督——我很喜歡它無需引入離線預(yù)訓(xùn)練的性質(zhì),雖然它的訓(xùn)練效率要低一些;
- SaGe:使用一個(gè)離線BYOL預(yù)訓(xùn)練的網(wǎng)絡(luò)來抽特征;
- MaskFeat:使用手工的HOG特征——這是2005年的CVPR paper,新人們有多少能第一時(shí)間反應(yīng)出HOG是啥玩意兒的?
然后重點(diǎn)來了:根據(jù)我們的研判,上述幾種方法的效果,其實(shí)沒有很本質(zhì)的差別。這波工作只所以能夠達(dá)到看似很高的性能,關(guān)鍵在于vision transformer的應(yīng)用,以及它和masked image modeling任務(wù)的絕妙配合。當(dāng)然,一組組優(yōu)秀的參數(shù)也是功不可沒的。
這意味著什么呢?視覺自監(jiān)督領(lǐng)域做了這么些年,從最早的生成式學(xué)習(xí)出發(fā),繞了一圈,又回到生成式學(xué)習(xí)。到頭來,我們發(fā)現(xiàn)像素級(jí)特征跟各種手工特征、tokenizer、甚至離線預(yù)訓(xùn)練網(wǎng)絡(luò)得到的特征,在作為判斷生成圖像質(zhì)量方面,沒有本質(zhì)區(qū)別。也就是說,自監(jiān)督也許只是把模型和參數(shù)調(diào)得更適合下游任務(wù),但在“新知識(shí)從哪里來”這個(gè)問題上,并沒有任何實(shí)質(zhì)進(jìn)展。
誠(chéng)然,大家可以說:視覺自監(jiān)督不需要學(xué)習(xí)任何知識(shí),只需要擬合給定數(shù)據(jù)集的分布,使得下游微調(diào)更方便即可。可我總覺得,這不應(yīng)該是自監(jiān)督所追求的唯一目標(biāo)。
道阻且長(zhǎng)!
#?回答二
作者:董力
來源鏈接:https://www.zhihu.com/question/506657286/answer/2276537031
為了使生成式自監(jiān)督預(yù)訓(xùn)練發(fā)揮作用,BEiT( https://arxiv.org/pdf/2106.08254.pdf)中提供的一個(gè)insight是"pixel-level recovery task tends to waste modeling capability on pre-training short-range dependencies and high-frequency details",具體到每個(gè)工作,大家的解決辦法都不太一樣:
- BEiT: 使用dVAE tokenizer構(gòu)造bottleneck,將pixel-level details學(xué)在tokenzier參數(shù)中 ("BEiT overcomes the above issue by predicting discrete visual tokens, which summarizes the details to high-level abstractions.")
- MAE: 1) 增加了decoder部分用來記憶pixel-level details;2) encoder部分去除了[M],把masked patch信息推到decoder中;3) per-patch-norm 歸一化掉細(xì)節(jié)信息,鼓勵(lì)學(xué)習(xí)semantic content
- PeCo: 在BEiT tokenizer中加入perceptual loss (在style transfer里面充當(dāng)content loss),鼓勵(lì)visual tokens保留semantic content,抑制具體的紋理、style等信息
- iBOT: 框架上類似BEiT+DINO,其中DINO部分得到的online tokenizer,通過data augmentation抑制細(xì)節(jié)信息的學(xué)習(xí)
- MaskFeat: 利用人工構(gòu)造的HOG features作為學(xué)習(xí)目標(biāo),消除細(xì)節(jié)信息
基于BEiT中提出的masked image modeling (MIM)預(yù)訓(xùn)練任務(wù),可以發(fā)現(xiàn)目前的絕大多數(shù)工作都是從上面說的這個(gè)insight去提升自監(jiān)督效果。問題中的提到的MaskFeat驗(yàn)證了人工構(gòu)造的HOG特征,也可以起到很好的效果。希望未來有更形式化的工作,去指引大家創(chuàng)新。
#?回答三
作者:小麻花
來源鏈接:
https://www.zhihu.com/question/506657286/answer/2276460942
paper:https://arxiv.org/abs/2112.09133
論文解讀
要想理解論文,我們先搞明白什么是HOG特征
“HOG(方向梯度直方圖)特征是一種在計(jì)算機(jī)視覺和圖像處理中用來進(jìn)行物體檢測(cè)的特征描述子,HOG特征通過計(jì)算和統(tǒng)計(jì)圖像局部區(qū)域的梯度方向直方圖來構(gòu)成特征”

HOG可以表示圖像得物體特征,能夠檢測(cè)出這類物體,在早期的計(jì)算機(jī)視覺,HOG就已經(jīng)有應(yīng)用了,比如HOG+SVM的行人檢測(cè)
這里不詳細(xì)講HOG,有興趣的同學(xué)可以搜論文,下面開始正題
遮蔽左圖,人類通常能猜出這個(gè)大概是什么,并繪制想象信息的輪廓,比如我們猜 masked input,大家大概能猜出來是一個(gè)狗
我們要教計(jì)算機(jī)來會(huì)猜,BEiT是去猜經(jīng)過dVAE的visual token,MAE是去猜pixel,而這篇工作是去猜HOG
作者也證明猜這個(gè)HOG很牛的,不僅在視頻牛逼,而且也在圖像牛逼,通過這個(gè)思路,被訓(xùn)練的模型可以充分理解復(fù)雜時(shí)空結(jié)構(gòu)

我們看看網(wǎng)絡(luò)的結(jié)構(gòu)是什么樣的,方法很簡(jiǎn)單,一個(gè)原圖經(jīng)過masked后進(jìn)入encoder,然后linear一下,預(yù)測(cè)這個(gè)原圖的HOG,具體做法是,首先獲得原圖的HOG特征圖,然后分塊,把要mask的部分平坦化,最小化預(yù)測(cè)的HOG和原始HOG的L2損失

就這么簡(jiǎn)單,沒有BEiT那種復(fù)雜的dVAE,MaskFeat 不僅在視頻方面取得了不俗的性能,而且在圖像方面也有不俗的性能,在ViT-B模型上性能超越BEiT、SimMIM、MAE等

自監(jiān)督的MIM說到底就是在玩去預(yù)測(cè)什么,以及為什么預(yù)測(cè)這個(gè)能牛逼,bert是預(yù)測(cè)被mask的詞語(yǔ),beit是預(yù)測(cè)被mask的visual token,mae是預(yù)測(cè)被mask的pixel,而現(xiàn)在我們要說一下為什么maskfeat去預(yù)測(cè)被mask的部分的HOG可以work?
為了證明HOG可以作為很好的預(yù)測(cè)特征,作者列出了其他的特征,通過實(shí)驗(yàn)對(duì)比來證明HOG的優(yōu)勢(shì)
- pixel color
這個(gè)在以前的圖像修補(bǔ)任務(wù)經(jīng)常用到,但是有一個(gè)潛在的缺點(diǎn),會(huì)過度擬合局部統(tǒng)計(jì)數(shù)據(jù)和高頻細(xì)節(jié),局部統(tǒng)計(jì)這里是指光照和對(duì)比變化,這會(huì)給模型理解事物本質(zhì)造成噪聲
- HOG
HOG擅長(zhǎng)捕捉局部形狀和外觀,一定程度不受幾何變化影響,對(duì)光照變化和對(duì)比度變化魯棒,這一點(diǎn)在HOG+SVM行人檢測(cè)十分重要,同時(shí)HOG計(jì)算開銷很小,卷積然后進(jìn)行直方圖和歸一化就行了,可以忽略
- dVAE
會(huì)引起額外的計(jì)算開銷,如BEiT
- Deep feature、pseudo label
deep feature和dVAE一樣會(huì)帶來額外的計(jì)算開銷,pseudo label參考TokenLabeling
為了比較上述那個(gè)好,作者做了簡(jiǎn)單的實(shí)驗(yàn),如下圖所示,基于RGB和基于HOG是one stage的,因?yàn)椴粫?huì)引入別的額外模型,直接從圖像得到數(shù)據(jù),其他的都是two stage(除了scratch外),都需要設(shè)定額外模型來對(duì)原圖進(jìn)行特征提取

作者注意到,在微調(diào)過程中,superviesd 和 pseudo-label 會(huì)出現(xiàn)顯著的過擬合,表明從類別標(biāo)簽學(xué)習(xí)在Maskfeat是不合適的,一定程度說明,先ssl然后做fine tune確實(shí)有一定的效果
考慮性能和計(jì)算成本的權(quán)衡,作者選擇了HOG作為pretext task
接下來作者基于HOG做了一系列的實(shí)驗(yàn)

上圖所示,MaskFeat無需額外數(shù)據(jù)(baseline為ImagNet1k),無需額外模型,得到了具有競(jìng)爭(zhēng)力的性能,pre-train 1600 epoch,fine-tune 100 epoch(vit-l 50 epoch)有趣得的是,在vit-l大模型下得到了非常好的擴(kuò)展性,相比scratch,自監(jiān)督確實(shí)是大模型一個(gè)很好的解決之路
此外,針對(duì)Pixel和HOG更詳細(xì)的對(duì)比,作者做了一系列的實(shí)驗(yàn),如下所示,基于Pixel的預(yù)測(cè)會(huì)生成模糊的圖像,如下所示

更形象一點(diǎn),在高頻區(qū)域下,比如預(yù)測(cè)海膽,周邊的毛刺可以看做高頻區(qū)域,基于Pixel的方式會(huì)產(chǎn)生模糊的顏色預(yù)測(cè),而HOG的預(yù)測(cè)可以很好抓住高頻區(qū)域的紋理變化,對(duì)模糊性更加魯棒

實(shí)際上,在MAE的實(shí)驗(yàn)中,這個(gè)現(xiàn)象也存在,如下圖所示,高頻部分被模糊,紋理特征不明顯(另外推廣一下飛槳的自監(jiān)督庫(kù)PASSL~

Refer
[1] Histograms of Oriented Gradients for Human Detection (inria.fr)
[2] facebookresearch/deit: Official DeiT repository (github.com)
[3] zihangJiang/TokenLabeling: Pytorch implementation of "All Tokens Matter: Token Labeling for Training Better Vision Transformers" (github.com)
如果覺得有用,就請(qǐng)分享到朋友圈吧!
△點(diǎn)擊卡片關(guān)注邁微AI研習(xí)社,獲取最新CV干貨公眾號(hào)后臺(tái)回復(fù)“transformer”獲取最新Transformer綜述論文下載~
推薦閱讀
(更多“摳圖”最新成果)
邁微AI研習(xí)社微信號(hào): MaiweiE_com
GitHub:?@Charmve
CSDN、知乎: @Charmve
主頁(yè): github.com/Charmve
如果覺得有用,就請(qǐng)點(diǎn)贊、轉(zhuǎn)發(fā)吧!
