日日射天天干,免费看一级乱伦片,日本黄色视频WWW,俺也去俺去啦,黄片视频在线观看免费,天天干天天看,狼友在线视频,日本在线视频一区二区三区三区

↑ 點(diǎn)擊藍(lán)字?關(guān)注邁微AI研習(xí)社
作者丨謝凌曦、董力、小麻花來源丨h(huán)ttps://www.zhihu.com/question/506657286

邁微導(dǎo)讀

Facebook新作MaskFeat，該工作的ViT-B在ImageNet 1K上的準(zhǔn)確率達(dá)到了84.0%，MViT-L在Kinetics-400上的準(zhǔn)確率達(dá)到了86.7%，一舉超越了MAE，BEiT和SimMIM等方法。

#?回答一

作者：謝凌曦

來源鏈接：https://www.zhihu.com/question/506657286/answer/2275700206

所有內(nèi)容均只代表作者本人觀點(diǎn)，均有可能被推翻，二次轉(zhuǎn)載務(wù)必連同聲明一起轉(zhuǎn)載。

利益相關(guān)：做過且正在做自監(jiān)督學(xué)習(xí)相關(guān)研究，認(rèn)識(shí)本文的一作，并且討論過近期發(fā)展趨勢(shì)。

一句話評(píng)價(jià)：MaskFeat提供了一條新的線索，讓我們能夠?qū)徱暿止ぬ卣髟谏墒侥Ｐ椭械淖饔谩?/span>

但是，從整體看今年這波自監(jiān)督學(xué)習(xí)的工作（包括但不限于BEIT、iBOT、MAE、SimMIM、PeCo、SaGe、MaskFeat），我感受到的迷茫比希望要更多一些。

下面簡(jiǎn)單解釋一下我的觀點(diǎn)。限于個(gè)人水平，很多看法并不全面，還請(qǐng)輕噴。

自監(jiān)督學(xué)習(xí)，本質(zhì)上就是要解決一個(gè)問題：新知識(shí)從哪里來？過去幾年，業(yè)界經(jīng)歷了基于幾何的學(xué)習(xí)方法（包括預(yù)測(cè)patch相對(duì)位置、預(yù)測(cè)圖像旋轉(zhuǎn)角度等）、基于對(duì)比的學(xué)習(xí)方法（包括instance discrimination、feature prediction等）后，終于開始回歸最本源的，基于生成的學(xué)習(xí)方法。然而，在基于生成的學(xué)習(xí)中，我們必然面臨一個(gè)核心問題：如何判斷生成圖像的質(zhì)量？

怎樣的視覺識(shí)別算法才是完整的？（https://zhuanlan.zhihu.com/p/376145664）

這個(gè)問題，我曾經(jīng)在之前的文章https://arxiv.org/abs/2105.13978中討論過，文章大意可參見上面的知乎鏈接。我的觀點(diǎn)是：解決圖像質(zhì)量判斷問題，等價(jià)于解決新知識(shí)從哪里來的問題，也就等價(jià)于自監(jiān)督學(xué)習(xí)本身。在我們用各種方式擾亂輸入的情況下（包括我一直倡議的對(duì)圖像信號(hào)做壓縮），像素級(jí)評(píng)測(cè)恢復(fù)效果顯然不是最佳方案。相信這個(gè)道理大家都懂，但是大家是如何做的呢？看看近期的工作：

MAE、SimMIM：直接用像素評(píng)判；
BEIT、PeCo：使用一個(gè)離線預(yù)訓(xùn)練的tokenizer：這個(gè)tokenizer和VQ-VAE掛鉤，而VQ-VAE的目標(biāo)是恢復(fù)像素——因此幾乎可以認(rèn)為，這種tokenizer的作用和像素級(jí)恢復(fù)是相當(dāng)?shù)模?/span>
iBOT：將上述tokenizer改為在線訓(xùn)練，利用類似于teacher-student的方式做監(jiān)督——我很喜歡它無需引入離線預(yù)訓(xùn)練的性質(zhì)，雖然它的訓(xùn)練效率要低一些；
SaGe：使用一個(gè)離線BYOL預(yù)訓(xùn)練的網(wǎng)絡(luò)來抽特征；
MaskFeat：使用手工的HOG特征——這是2005年的CVPR paper，新人們有多少能第一時(shí)間反應(yīng)出HOG是啥玩意兒的？

然后重點(diǎn)來了：根據(jù)我們的研判，上述幾種方法的效果，其實(shí)沒有很本質(zhì)的差別。這波工作只所以能夠達(dá)到看似很高的性能，關(guān)鍵在于vision transformer的應(yīng)用，以及它和masked image modeling任務(wù)的絕妙配合。當(dāng)然，一組組優(yōu)秀的參數(shù)也是功不可沒的。

這意味著什么呢？視覺自監(jiān)督領(lǐng)域做了這么些年，從最早的生成式學(xué)習(xí)出發(fā)，繞了一圈，又回到生成式學(xué)習(xí)。到頭來，我們發(fā)現(xiàn)像素級(jí)特征跟各種手工特征、tokenizer、甚至離線預(yù)訓(xùn)練網(wǎng)絡(luò)得到的特征，在作為判斷生成圖像質(zhì)量方面，沒有本質(zhì)區(qū)別。也就是說，自監(jiān)督也許只是把模型和參數(shù)調(diào)得更適合下游任務(wù)，但在“新知識(shí)從哪里來”這個(gè)問題上，并沒有任何實(shí)質(zhì)進(jìn)展。

誠(chéng)然，大家可以說：視覺自監(jiān)督不需要學(xué)習(xí)任何知識(shí)，只需要擬合給定數(shù)據(jù)集的分布，使得下游微調(diào)更方便即可。可我總覺得，這不應(yīng)該是自監(jiān)督所追求的唯一目標(biāo)。

道阻且長(zhǎng)！

#?回答二

作者：董力

來源鏈接：https://www.zhihu.com/question/506657286/answer/2276537031

為了使生成式自監(jiān)督預(yù)訓(xùn)練發(fā)揮作用，BEiT( https://arxiv.org/pdf/2106.08254.pdf)中提供的一個(gè)insight是"pixel-level recovery task tends to waste modeling capability on pre-training short-range dependencies and high-frequency details"，具體到每個(gè)工作，大家的解決辦法都不太一樣：

BEiT: 使用dVAE tokenizer構(gòu)造bottleneck，將pixel-level details學(xué)在tokenzier參數(shù)中 ("BEiT overcomes the above issue by predicting discrete visual tokens, which summarizes the details to high-level abstractions.")
MAE: 1) 增加了decoder部分用來記憶pixel-level details；2) encoder部分去除了[M]，把masked patch信息推到decoder中；3) per-patch-norm 歸一化掉細(xì)節(jié)信息，鼓勵(lì)學(xué)習(xí)semantic content
PeCo: 在BEiT tokenizer中加入perceptual loss (在style transfer里面充當(dāng)content loss)，鼓勵(lì)visual tokens保留semantic content，抑制具體的紋理、style等信息
iBOT: 框架上類似BEiT+DINO，其中DINO部分得到的online tokenizer，通過data augmentation抑制細(xì)節(jié)信息的學(xué)習(xí)
MaskFeat: 利用人工構(gòu)造的HOG features作為學(xué)習(xí)目標(biāo)，消除細(xì)節(jié)信息

基于BEiT中提出的masked image modeling (MIM)預(yù)訓(xùn)練任務(wù)，可以發(fā)現(xiàn)目前的絕大多數(shù)工作都是從上面說的這個(gè)insight去提升自監(jiān)督效果。問題中的提到的MaskFeat驗(yàn)證了人工構(gòu)造的HOG特征，也可以起到很好的效果。希望未來有更形式化的工作，去指引大家創(chuàng)新。

#?回答三

作者：小麻花

來源鏈接：

https://www.zhihu.com/question/506657286/answer/2276460942

paper：https://arxiv.org/abs/2112.09133

論文解讀

要想理解論文，我們先搞明白什么是HOG特征

“HOG（方向梯度直方圖）特征是一種在計(jì)算機(jī)視覺和圖像處理中用來進(jìn)行物體檢測(cè)的特征描述子，HOG特征通過計(jì)算和統(tǒng)計(jì)圖像局部區(qū)域的梯度方向直方圖來構(gòu)成特征”

HOG可以表示圖像得物體特征，能夠檢測(cè)出這類物體，在早期的計(jì)算機(jī)視覺，HOG就已經(jīng)有應(yīng)用了，比如HOG+SVM的行人檢測(cè)

這里不詳細(xì)講HOG，有興趣的同學(xué)可以搜論文，下面開始正題

遮蔽左圖，人類通常能猜出這個(gè)大概是什么，并繪制想象信息的輪廓，比如我們猜 masked input，大家大概能猜出來是一個(gè)狗

我們要教計(jì)算機(jī)來會(huì)猜，BEiT是去猜經(jīng)過dVAE的visual token，MAE是去猜pixel，而這篇工作是去猜HOG

作者也證明猜這個(gè)HOG很牛的，不僅在視頻牛逼，而且也在圖像牛逼，通過這個(gè)思路，被訓(xùn)練的模型可以充分理解復(fù)雜時(shí)空結(jié)構(gòu)

我們看看網(wǎng)絡(luò)的結(jié)構(gòu)是什么樣的，方法很簡(jiǎn)單，一個(gè)原圖經(jīng)過masked后進(jìn)入encoder，然后linear一下，預(yù)測(cè)這個(gè)原圖的HOG，具體做法是，首先獲得原圖的HOG特征圖，然后分塊，把要mask的部分平坦化，最小化預(yù)測(cè)的HOG和原始HOG的L2損失

就這么簡(jiǎn)單，沒有BEiT那種復(fù)雜的dVAE，MaskFeat 不僅在視頻方面取得了不俗的性能，而且在圖像方面也有不俗的性能，在ViT-B模型上性能超越BEiT、SimMIM、MAE等

自監(jiān)督的MIM說到底就是在玩去預(yù)測(cè)什么，以及為什么預(yù)測(cè)這個(gè)能牛逼，bert是預(yù)測(cè)被mask的詞語(yǔ)，beit是預(yù)測(cè)被mask的visual token，mae是預(yù)測(cè)被mask的pixel，而現(xiàn)在我們要說一下為什么maskfeat去預(yù)測(cè)被mask的部分的HOG可以work？

為了證明HOG可以作為很好的預(yù)測(cè)特征，作者列出了其他的特征，通過實(shí)驗(yàn)對(duì)比來證明HOG的優(yōu)勢(shì)

pixel color

這個(gè)在以前的圖像修補(bǔ)任務(wù)經(jīng)常用到，但是有一個(gè)潛在的缺點(diǎn)，會(huì)過度擬合局部統(tǒng)計(jì)數(shù)據(jù)和高頻細(xì)節(jié)，局部統(tǒng)計(jì)這里是指光照和對(duì)比變化，這會(huì)給模型理解事物本質(zhì)造成噪聲

HOG擅長(zhǎng)捕捉局部形狀和外觀，一定程度不受幾何變化影響，對(duì)光照變化和對(duì)比度變化魯棒，這一點(diǎn)在HOG+SVM行人檢測(cè)十分重要，同時(shí)HOG計(jì)算開銷很小，卷積然后進(jìn)行直方圖和歸一化就行了，可以忽略

dVAE

會(huì)引起額外的計(jì)算開銷，如BEiT

Deep feature、pseudo label

deep feature和dVAE一樣會(huì)帶來額外的計(jì)算開銷，pseudo label參考TokenLabeling

為了比較上述那個(gè)好，作者做了簡(jiǎn)單的實(shí)驗(yàn)，如下圖所示，基于RGB和基于HOG是one stage的，因?yàn)椴粫?huì)引入別的額外模型，直接從圖像得到數(shù)據(jù)，其他的都是two stage（除了scratch外），都需要設(shè)定額外模型來對(duì)原圖進(jìn)行特征提取

作者注意到，在微調(diào)過程中，superviesd 和 pseudo-label 會(huì)出現(xiàn)顯著的過擬合，表明從類別標(biāo)簽學(xué)習(xí)在Maskfeat是不合適的，一定程度說明，先ssl然后做fine tune確實(shí)有一定的效果

考慮性能和計(jì)算成本的權(quán)衡，作者選擇了HOG作為pretext task

接下來作者基于HOG做了一系列的實(shí)驗(yàn)

上圖所示，MaskFeat無需額外數(shù)據(jù)（baseline為ImagNet1k）,無需額外模型，得到了具有競(jìng)爭(zhēng)力的性能，pre-train 1600 epoch，fine-tune 100 epoch（vit-l 50 epoch）有趣得的是，在vit-l大模型下得到了非常好的擴(kuò)展性，相比scratch，自監(jiān)督確實(shí)是大模型一個(gè)很好的解決之路

此外，針對(duì)Pixel和HOG更詳細(xì)的對(duì)比，作者做了一系列的實(shí)驗(yàn)，如下所示，基于Pixel的預(yù)測(cè)會(huì)生成模糊的圖像，如下所示