禁片网址,天天躁夜夜躁av天天爽,美女福利视频网,久久综合婷婷国产五区,99久久精品无码一区二区,激情五月婷婷五月,日韩不卡天堂,色播丁香五月天

點(diǎn)擊上方“視學(xué)算法”，選擇加"星標(biāo)"或“置頂”

重磅干貨，第一時(shí)間送達(dá)

楊凈發(fā)自凹非寺
量子位 | 公眾號(hào) QbitAI

上回說(shuō)道，何愷明時(shí)隔兩年發(fā)一作論文，提出了一種視覺(jué)自監(jiān)督學(xué)習(xí)新范式——

用掩蔽自編碼器MAE，為視覺(jué)大模型開(kāi)路。

這一次，北大博士生提出一個(gè)新方法CAE，在其下游任務(wù)中展現(xiàn)的泛化能力超過(guò)了MAE。

來(lái)看看這是一項(xiàng)什么樣的研究？

這是一項(xiàng)什么研究？

自何愷明提出MAE以來(lái)，基于MIM，Masked Image Modeling，這一自監(jiān)督學(xué)習(xí)表征算法就越來(lái)越引發(fā)關(guān)注。

它的主要思路，就是對(duì)輸入圖像進(jìn)行分塊和隨機(jī)掩碼操作，然后對(duì)掩碼區(qū)域做預(yù)測(cè)。

預(yù)測(cè)的目標(biāo)可以是Token ID（如微軟提出的BEiT），也可以是RGB值（如MAE）。

通過(guò)MIM這一方法，編碼器學(xué)習(xí)到好的表征，從而在下游任務(wù)中取得良好的泛化性能。

以往這一方法常見(jiàn)于NLP領(lǐng)域，但隨著ViT的提出和發(fā)展，這一方法在視覺(jué)領(lǐng)域也取得了一些進(jìn)展。

團(tuán)隊(duì)認(rèn)為，近期兩個(gè)代表性工作，BEiT和MAE，沒(méi)有充分挖掘編碼器encoder的潛力，限制了預(yù)訓(xùn)練學(xué)習(xí)的表征質(zhì)量。

簡(jiǎn)單來(lái)說(shuō)，BEiT的編碼器只有一部分負(fù)責(zé)表征學(xué)習(xí)，還有一部分在做“前置/代理任務(wù)”（pretext task）。

到了MAE則是另一種情況，解碼器也做了一部分表征學(xué)習(xí)，可能讓編碼器學(xué)會(huì)“偷懶”。

基于這一背景，團(tuán)隊(duì)提出了Context Autoencoder，簡(jiǎn)稱(chēng)CAE。核心設(shè)計(jì)思想是對(duì)“表征學(xué)習(xí)”和“前置/代理任務(wù)（pretext task）這兩個(gè)功能做分離。

在預(yù)訓(xùn)練時(shí)，編碼器只負(fù)責(zé)表征學(xué)習(xí)，解碼器只負(fù)責(zé)解決前置任務(wù)，兩者分工合作，將編碼器表征能力最大化。

CAE包含四個(gè)部分。

1、編碼器是一個(gè)ViT模型，負(fù)責(zé)學(xué)習(xí)圖像可見(jiàn)patch的表征，提取圖像特征Zv。

2、Latent contextual regressor（隱式上下文回歸器）則是在此基礎(chǔ)上預(yù)測(cè)出掩蔽patch的表征Zm。

3、解碼器以Zm和對(duì)應(yīng)的位置編碼作為輸入，通過(guò)Zm預(yù)測(cè)掩蔽patch的某些性質(zhì)，比如RGB值、Token ID。這過(guò)程中Zv不會(huì)更新，表征學(xué)習(xí)任務(wù)全交給編碼器。

4、Latent representation alignment對(duì) Zm添加約束，希望 latent contextual regressor 的輸出和編碼器的輸出在同一空間。具體來(lái)說(shuō)，圖像的掩蔽patch也將輸入到編碼器中（此過(guò)程不參與梯度反傳），獲得的這部分表征，作為Zm的學(xué)習(xí)目標(biāo)。

Alignment很重要，如果想對(duì)掩碼部分做好預(yù)測(cè)，要求latent contextual regressor 的輸出（也是解碼器的輸入）含有比較好的語(yǔ)義信息。通過(guò)對(duì)齊操作，可以鼓勵(lì)編碼器的操作也含有好的語(yǔ)義信息，提高編碼器的表征質(zhì)量。

論文對(duì)alignment做了可視化：將全部patch輸入編碼器，然后將表征直接輸入到解碼器中，進(jìn)行RGB的重建。CAE可以將原圖重建出來(lái) (第一行是原圖，第二行是重建結(jié)果)，說(shuō)明編碼器的輸出和latent contextual regressor 的輸出處于同一編碼空間。

如果訓(xùn)練時(shí)不做alignment約束，那么輸出的結(jié)果將是這樣…嗯，都是亂碼。

這種設(shè)計(jì)的編碼器學(xué)到的表征也相對(duì)更差，下游任務(wù)結(jié)果也會(huì)變差。

損失函數(shù)由兩部分組成，一個(gè)是對(duì)解碼器預(yù)測(cè)的監(jiān)督，使用的是cross-entropy loss；一個(gè)是對(duì)alignment的監(jiān)督，使用MSE損失函數(shù)。

除此之外，也進(jìn)一步驗(yàn)證了以CAE為代表的MIM方法，要比Moco v3、DINO為代表的對(duì)比學(xué)習(xí)方法更適合下游任務(wù)。

該論文從隨機(jī)裁剪操作的性質(zhì)分析，認(rèn)為隨機(jī)裁剪有很大概率包含圖像的中心區(qū)域。

而ImageNet-1K這種數(shù)據(jù)集中，中心區(qū)域通常是1000類(lèi)標(biāo)簽集中的物體（如下圖）。因此，對(duì)比學(xué)習(xí)方法主要提取圖像中主體物體的特征。

而MIM方法能學(xué)到每個(gè)patch的特征，包括圖像的背景區(qū)域，而不僅僅是圖像主體物體，這讓MIM學(xué)到的表征更適合下游檢測(cè)分割任務(wù)。

論文對(duì)CAE和MoCo v3的注意力圖做了可視化。紅色表示注意力值更高，藍(lán)色表示注意力值更低。第一行是原圖，第二行是?MoCo v3，第三行是?CAE?？梢钥吹?，MoCo v3?的注意力圖主要在圖像的主體區(qū)域有高響應(yīng)，而?CAE?能考慮到幾乎所有patch。