基礎(chǔ)模型自監(jiān)督預(yù)訓(xùn)練的數(shù)據(jù)之謎:大量數(shù)據(jù)究竟是福還是禍?
前言 在自監(jiān)督預(yù)訓(xùn)練中,是否數(shù)據(jù)越多越好?數(shù)據(jù)增廣是否始終有效?
作者:諾亞方舟實(shí)驗(yàn)室
論文鏈接:
此外,團(tuán)隊(duì)還提出了一種名為混合自編碼器 (MixedAE) 的簡單而有效的方法,將圖像混合應(yīng)用于 MAE 數(shù)據(jù)增強(qiáng)。MixedAE 在各種下游任務(wù)(包括圖像分類、語義分割和目標(biāo)檢測)上實(shí)現(xiàn)了最先進(jìn)的遷移性能,同時(shí)保持了顯著的效率。這是第一個從任務(wù)設(shè)計(jì)的角度將圖像混合作為有效數(shù)據(jù)增強(qiáng)策略應(yīng)用于基于純自編碼器結(jié)構(gòu)的 Masked Image Modeling (MIM) 的研究。該工作已被 CVPR 2023 會議接收。

論文鏈接:
研究背景

▲ 圖一:我們用ImageNet的兩個子集,Split-A和Split-B,訓(xùn)練兩個MAE模型,和全量數(shù)據(jù)集訓(xùn)練的模型相比較,后者僅在2個數(shù)據(jù)集上達(dá)到了最優(yōu)。這說明,增大數(shù)據(jù)量并不總是帶來更強(qiáng)的遷移效果。
實(shí)驗(yàn)分析
我們在之前提到的 11 個下游分類數(shù)據(jù)集和檢測分割任務(wù)上做了實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,MoCE 在多個下游任務(wù)中的性能超過了傳統(tǒng)的 MAE 預(yù)訓(xùn)練方法。具體而言,在圖像分類任務(wù)中,MoCE 相較于 MAE 實(shí)現(xiàn)了更高的準(zhǔn)確率。在目標(biāo)檢測和分割任務(wù)中,MoCE 也取得了更好的表現(xiàn),包括更高的 mIoU 和 AP 指標(biāo)。這些實(shí)驗(yàn)結(jié)果表明,MoCE 通過利用相似語義圖像進(jìn)行聚類并為每個專家進(jìn)行任務(wù)定制的自監(jiān)督預(yù)訓(xùn)練,能夠在各種下游任務(wù)中提高遷移性能。
在 14 個下游視覺任務(wù)(包括圖像分類、語義分割和物體檢測)的評估中,MixedAE 展現(xiàn)了最優(yōu)的遷移性能和卓越的計(jì)算效率。相較于 iBOT,MixedAE 實(shí)現(xiàn)了約 2 倍預(yù)訓(xùn)練加速。得益于圖像混合所帶來的物體感知預(yù)訓(xùn)練,MixedAE 在下游密集預(yù)測任務(wù)上取得更顯著的性能提升。注意力圖可視化結(jié)果表明,MixedAE 能比 MAE 更準(zhǔn)確完整地識別圖像前景物體,從而實(shí)現(xiàn)優(yōu)異的密集預(yù)測遷移性能。

▲ 圖二:注意力圖可視化。得益于ImageNet的單實(shí)例假設(shè)[2]以及物體感知的自監(jiān)督預(yù)訓(xùn)練,MixedAE可以更準(zhǔn)確完整地發(fā)現(xiàn)圖像前景物體,從而實(shí)現(xiàn)更好的密集預(yù)測遷移性能。
參考文獻(xiàn)
[1] Task-customized Self-supervised Pre-training with Scalable Dynamic Routing, AAAI 2022.
[2] MultiSiam: Self-supervised Multi-instance Siamese Representation Learning for Autonomous Driving, ICCV 2021.
