本篇分享論文 『Masked Autoencoders are Robust Data Augmentors』 ,上交&華為基于MAE提出掩蔽重建數(shù)據(jù)增強(qiáng),優(yōu)于CutMix、Cutout 和 Mixup!代碼即將開源!
詳細(xì)信息如下:
摘要
深度神經(jīng)網(wǎng)絡(luò)能夠?qū)W習(xí)強(qiáng)大的表示來解決復(fù)雜的視覺任務(wù),但會(huì)暴露出諸如過擬合問題之類的不良特性。為此,圖像增強(qiáng)等正則化技術(shù)對(duì)于深度神經(jīng)網(wǎng)絡(luò)的泛化是必要的。盡管如此,大多數(shù)流行的圖像增強(qiáng)方法都將自己局限于現(xiàn)成的線性變換,如縮放、翻轉(zhuǎn)和顏色抖動(dòng)。由于它們的手工屬性,這些增強(qiáng)不足以生成真正的難增強(qiáng)示例。
在本文中,作者提出了一種新的增強(qiáng)視角來規(guī)范訓(xùn)練過程。受最近成功將掩蔽圖像建模(masked image modeling )應(yīng)用于自監(jiān)督學(xué)習(xí)的啟發(fā),作者采用自監(jiān)督掩蔽自動(dòng)編碼器來生成輸入圖像的失真視圖。利用這種基于模型的非線性變換作為數(shù)據(jù)增強(qiáng)可以改善高級(jí)識(shí)別任務(wù)。作者將提出的方法稱為 掩蔽重建增強(qiáng)(Mask-Reconstruct Augmentation,MRA) 。在各種圖像分類基準(zhǔn)上的廣泛實(shí)驗(yàn)驗(yàn)證了所提出的增強(qiáng)的有效性。具體來說,MRA 不斷提高監(jiān)督、半監(jiān)督和少樣本分類的性能。
Motivation
在過去的十年中,計(jì)算機(jī)視覺見證了深度學(xué)習(xí)的強(qiáng)大力量。通過骨干模型、訓(xùn)練數(shù)據(jù)集、優(yōu)化方法的革命,這種數(shù)據(jù)驅(qū)動(dòng)的學(xué)習(xí)方案在圖像分類、目標(biāo)檢測(cè)和場(chǎng)景分割等各種視覺任務(wù)上取得了重大突破。 然而,這些方法嚴(yán)重依賴大量數(shù)據(jù)以避免過度擬合,其中模型通過強(qiáng)制記憶訓(xùn)練數(shù)據(jù)完美擬合訓(xùn)練數(shù)據(jù),但在測(cè)試集上表現(xiàn)不佳。
為了緩解過度擬合問題,數(shù)據(jù)增強(qiáng)被用作常見的訓(xùn)練技巧,以增加訓(xùn)練數(shù)據(jù)的多樣性,特別是對(duì)于小規(guī)模數(shù)據(jù)集。 主流的訓(xùn)練方法采用基本的圖像處理作為數(shù)據(jù)增強(qiáng),主要可以表示為線性變換,包括核過濾器、顏色空間變換、幾何變換等。 這些手動(dòng)設(shè)計(jì)的方法可以快速、可重復(fù)且可靠地對(duì)原始數(shù)據(jù)集上顏色和幾何空間的不變性進(jìn)行編碼。
同時(shí),他們享受標(biāo)簽保留的特性,即對(duì)圖像進(jìn)行的轉(zhuǎn)換不會(huì)改變高級(jí)語義信息。 然而,最近關(guān)于自監(jiān)督學(xué)習(xí)的工作表明,這些低級(jí)變換可以很容易地被深度神經(jīng)網(wǎng)絡(luò)掌握,這表明這種基本的圖像處理方法可能不足以有效地概括輸入分布。
一系列工作沒有使用傳統(tǒng)的圖像處理,而是引入了生成對(duì)抗網(wǎng)絡(luò)(GAN)以提高數(shù)據(jù)增強(qiáng)的質(zhì)量,這可以看作是一種基于模型的數(shù)據(jù)增強(qiáng)。GAN 非常強(qiáng)大,可以使用兩個(gè)對(duì)抗網(wǎng)絡(luò)來執(zhí)行無監(jiān)督生成,一個(gè)生成自然圖像,而另一個(gè)將假圖像與真實(shí)圖像區(qū)分開來。
合成的圖像數(shù)據(jù)在不方便收集數(shù)據(jù)集的低數(shù)據(jù)區(qū)域中運(yùn)行良好,例如醫(yī)學(xué)成像。但是這種樣本合成方法不能很好地推廣到大規(guī)模的標(biāo)記數(shù)據(jù)集。根本原因可能是對(duì)生成的結(jié)果沒有保證或定量評(píng)估。與原始訓(xùn)練數(shù)據(jù)相比,看起來不錯(cuò)的復(fù)合樣本可能具有不同的分布。
相反,獲得相鄰似然性的模型可能會(huì)生成不切實(shí)際的樣本。結(jié)果,生成的對(duì)象可能具有任何荒謬的形狀和外觀,與它們之前的分布有很大不同。因此,GAN 的不確定性和不穩(wěn)定特性限制了其在圖像增強(qiáng)中的應(yīng)用。因此,需要使生成更可控。這樣,就可以合理有效地構(gòu)建增強(qiáng)圖像。
本文遵循基于模型的數(shù)據(jù)增強(qiáng),并聲稱如果以適當(dāng)?shù)姆绞郊s束,基于生成的方法實(shí)際上可以提高高級(jí)識(shí)別。受圖像修復(fù)的啟發(fā),本文的方法稱為掩蔽重建增強(qiáng) (MRA),旨在恢復(fù)部分圖像,而不是對(duì)抗性學(xué)習(xí)。
具體來說,作者通過自監(jiān)督掩蔽重建策略預(yù)訓(xùn)練了一個(gè)極輕量級(jí)的自動(dòng)編碼器。Follow最近的自監(jiān)督方法 MAE,作者首先將圖像劃分為patch,并從輸入圖像中掩蔽一組patch,這意味著只有部分圖像輸入到自動(dòng)編碼器。然后,需要自動(dòng)編碼器在像素空間中重建缺失的patch。
最后,作者將重建圖像作為識(shí)別視覺任務(wù)的增強(qiáng)。通過這種方式,MRA 不僅可以進(jìn)行強(qiáng)非線性增強(qiáng)來訓(xùn)練魯棒的深度神經(jīng)網(wǎng)絡(luò),還可以在重建任務(wù)的范圍內(nèi)調(diào)節(jié)具有相似高級(jí)語義的生成。為此,可控圖像重建是生成相似似然分布的不錯(cuò)選擇。換句話說,模型可以生成具有相似語義的魯棒圖像,并使模型能夠在不同的識(shí)別任務(wù)中很好地泛化。在下游評(píng)估期間,作者選擇性地掩蔽掉注意力值較低的patch,這些patch更有可能是背景。
實(shí)驗(yàn)表明,擦除與標(biāo)簽無關(guān)的噪聲patch會(huì)導(dǎo)致更預(yù)期和更受約束的生成,這非常有利于穩(wěn)定訓(xùn)練并增強(qiáng)模型的對(duì)象意識(shí)。值得注意的是,MRA 的整個(gè)預(yù)訓(xùn)練過程是無標(biāo)簽的,成本效益高。作者在多個(gè)圖像分類基準(zhǔn)上評(píng)估 MRA。MRA 全面獲得了優(yōu)異的實(shí)驗(yàn)結(jié)果。
具體來說,使用 ResNet-50,僅應(yīng)用 MRA 即可實(shí)現(xiàn) 78.35% 的 ImageNet Top-1 準(zhǔn)確度,比baseline提高 2.04%。在細(xì)粒度、長(zhǎng)尾、半監(jiān)督和少樣本分類上取得了一致的改進(jìn),顯示了本文方法的強(qiáng)大泛化能力。此外,在對(duì)遮擋樣本測(cè)試模型時(shí),與 CutMix、Cutout 和 Mixup相比,MRA 還顯示出很強(qiáng)的魯棒性,這表明掩蔽自動(dòng)編碼器是魯棒的數(shù)據(jù)增強(qiáng)器。
簡(jiǎn)而言之,本文做出 以下貢獻(xiàn) :
受圖像修復(fù)的啟發(fā),本文提出了一種稱為 MRA 的魯棒數(shù)據(jù)增強(qiáng)方法,以幫助規(guī)范深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練。 通過引入基于注意力的掩蔽策略進(jìn)一步限制生成,該策略對(duì)訓(xùn)練進(jìn)行降噪并提取對(duì)象感知表示。 MRA 在一堆分類基準(zhǔn)中統(tǒng)一提升了性能,證明了 MRA 的有效性和穩(wěn)健性。
方法
在本節(jié)中,將介紹本文的 Mask-Reconstruct Augmentation (MRA)。在 3.1 節(jié)中,首先回顧基于掩蔽自編碼器的預(yù)訓(xùn)練框架 。然后,在第 3.2 節(jié)中詳細(xì)介紹了一種基于注意力的掩蔽策略來約束增強(qiáng)。最終,第 3.3 節(jié)說明了上圖所示的整個(gè)pipeline。作者采用預(yù)訓(xùn)練的掩蔽自動(dòng)編碼器作為數(shù)據(jù)增強(qiáng)器,為下游分類任務(wù)重建掩蔽輸入圖像
3.1 Masked Autoencoders 給定未標(biāo)記的訓(xùn)練集 ,掩蔽自動(dòng)編碼器旨在學(xué)習(xí)具有參數(shù) 的編碼器 ,其中 表示patch大小為 16 × 16 像素的逐塊二進(jìn)制掩碼。 同時(shí),訓(xùn)練一個(gè)帶有參數(shù) 的解碼器 ,以從掩蔽圖像的潛在嵌入中恢復(fù)原始圖像: ,其中 表示重建圖像。本文端到端訓(xùn)練編碼器 和解碼器 ,學(xué)習(xí)目標(biāo)是像素空間中重建圖像 和原始圖像 之間的均方誤差 (MSE) 。 在實(shí)踐中,作者發(fā)現(xiàn)顯著壓縮自動(dòng)編碼器的模型大小仍然能夠達(dá)到一個(gè)相當(dāng)高的性能。因此,為了在速度和性能之間取得理想的平衡,作者設(shè)計(jì)了一個(gè)迷你版的掩蔽自動(dòng)編碼器,在將其與 ResNet-50 集成以進(jìn)行下游分類時(shí),在一個(gè) NVIDIA V100 GPU 上實(shí)現(xiàn)了 963 imgs/s 的吞吐量,就整個(gè)訓(xùn)練而言,這是負(fù)擔(dān)得起的。3.2 Attention-based Masking 為了指導(dǎo)增強(qiáng)對(duì)象感知,本文將對(duì)象位置的歸納偏差利用到mask策略中。作者采用注意力探測(cè)作為合理的判斷來確定patch是否屬于前景對(duì)象。并將高度注意力的patch作為輸入,并刪除其余的patch。給定預(yù)訓(xùn)練的編碼器 ,可以計(jì)算每個(gè)輸入patch的注意力圖。 為了適應(yīng)視覺Transformer的輸入格式,輸入圖像 被劃分為不重疊的patch ,其中 (H, W ) 表示圖像的高度和寬度輸入圖像,C 表示通道維度,p 表示patch大小。最近的研究表明,在沒有監(jiān)督的情況下訓(xùn)練的視覺Transformer可以自動(dòng)學(xué)習(xí)與對(duì)象相關(guān)的表示。此外,CLS token的注意力圖可以提供可靠的前景建議。在此觀察的驅(qū)動(dòng)下,作者計(jì)算圖像patch i 上的CLS token的注意力圖: 其中 是CLS token的查詢, 制定了patch i 的鍵嵌入。 和 都是從編碼器的最后一個(gè)block中獲取的。然后,作者對(duì)注意力圖 進(jìn)行排序并得到前 k 個(gè)索引集 : 其中函數(shù) 返回前 k 個(gè)最大元素的索引。將 top-k 索引設(shè)置為 ,并生成一個(gè)基于注意力的二進(jìn)制掩碼 為: 其中 表示向下舍入運(yùn)算,而 mod(·) 表示模運(yùn)算。在輸入圖像 x 上應(yīng)用基于注意力的二進(jìn)制掩碼 后,作者期望可能的背景區(qū)域被抹去,而前景區(qū)域則完好無損。注意,僅在下游任務(wù)期間利用基于注意力的掩蔽策略,而在預(yù)訓(xùn)練自動(dòng)編碼器階段繼續(xù)隨機(jī)掩蔽patch。 3.3 Mask-Reconstruct Augmentation MRA 的最終架構(gòu)如上圖所示。使用基于注意力的二進(jìn)制掩碼 ,作者首先獲取掩蔽圖像 。然后,劃分掩蔽圖像 成不重疊的patch并丟棄mask patch。剩余的可見patch被送入預(yù)訓(xùn)練的編碼器 和解碼器 以生成重建圖像 。 重建后的圖像 可以看作是 的增強(qiáng)版本,可用于多種分類任務(wù)。注意,一旦經(jīng)過預(yù)訓(xùn)練,MRA是固定的,并且在對(duì)不同的數(shù)據(jù)集和任務(wù)進(jìn)行測(cè)試時(shí)不需要進(jìn)一步微調(diào),它仍然可以生成穩(wěn)健且可信的增強(qiáng)。
如上表所示,MRA 使用 ResNet-50 作為主干實(shí)現(xiàn)了 78.35% 的 top-1 準(zhǔn)確率,優(yōu)于一系列自動(dòng)增強(qiáng)搜索方法。作者還比較了 ImageNet 上預(yù)訓(xùn)練和預(yù)搜索的 GPU 小時(shí)數(shù),與 AutoAugment 和 Fast AutoAugment 相比,MRA 也具有可承受的計(jì)算成本。 此外,一旦經(jīng)過預(yù)訓(xùn)練,MRA 就可以應(yīng)用于多個(gè)分類任務(wù),而無需額外的微調(diào)。CutMix及其變體可以通過引入樣本間正則化來獲得更好的結(jié)果。MRA 還可以與 CutMix 結(jié)合使用以進(jìn)一步提高性能。通過結(jié)合 CutMix,MRA 在 ImageNet 上達(dá)到 78.93% 的 top-1 準(zhǔn)確率,優(yōu)于精心設(shè)計(jì)的混合策略。 作者還評(píng)估了 MRA 在幾個(gè)細(xì)粒度分類數(shù)據(jù)集上的泛化,包括 CUB-200-2011、FGVC-Aircraft和 StanfordCars。對(duì)于所有實(shí)驗(yàn),從 PyTorch提供的官方預(yù)訓(xùn)練checkpoint對(duì) ResNet-50 進(jìn)行了 90 個(gè) epoch 的微調(diào)。 作者在運(yùn)行baseline監(jiān)督實(shí)驗(yàn)和 MRA 實(shí)驗(yàn)期間保持超參數(shù)完全相同,以確保比較是公平的。如上表所示,MRA 不斷提高細(xì)粒度分類的性能。 作者進(jìn)一步在長(zhǎng)尾分類上評(píng)估MRA。本文使用兩種平衡采樣方法用作baseline:Instance-Balanced 和 Class-Balanced。在簡(jiǎn)單的 RandomResizedCrop 增強(qiáng)后,MRA 直接應(yīng)用于 224 × 224 圖像。ResNeXt50被用作一致性的主干。 如上表所示,MRA在兩種不同的設(shè)置下提高了長(zhǎng)尾分類準(zhǔn)確率,驗(yàn)證了其有效性。 半監(jiān)督分類側(cè)重于深度學(xué)習(xí)中的label-hungry設(shè)置。在半監(jiān)督學(xué)習(xí)中,只有一小部分樣本被標(biāo)記,其余樣本未標(biāo)記。FixMatch是半監(jiān)督分類中的一種強(qiáng)大的baseline方法,它創(chuàng)建一個(gè)圖像的兩個(gè)增強(qiáng)版本。 特別是,一個(gè)用弱增強(qiáng)處理(RandomResizedCrop),另一個(gè)用強(qiáng)增強(qiáng)處理(RandAugment)。該模型經(jīng)過訓(xùn)練以最大化兩個(gè)增強(qiáng)圖像之間的一致性。MRA 的重建圖像也可以看作是原始輸入的強(qiáng)增強(qiáng)版本。 作者提出使用 MRA 的重建圖像作為 FixMatch 中的一種強(qiáng)增。 如上表所示,在 FixMatch 中使用 MRA 增強(qiáng)明顯優(yōu)于標(biāo)準(zhǔn)強(qiáng)增強(qiáng),即RandAugment,這驗(yàn)證了 MRA 在不同應(yīng)用中的有效性。 在few-shot learning中,首先在一些基本類別上給出大量標(biāo)記的訓(xùn)練樣本,然后目標(biāo)是在只有少數(shù)K-shot樣本被標(biāo)記的新類別上進(jìn)行預(yù)測(cè)?;绢悇e和新穎類別不重疊。 作者在 miniImageNet 數(shù)據(jù)集上評(píng)估少樣本分類。最近的工作提出了一種簡(jiǎn)單但有效的baseline方法,用于少樣本分類,其中主干在基本類別上以完全監(jiān)督的方式進(jìn)行預(yù)訓(xùn)練,并且分類器在固定主干上的新類別上重新訓(xùn)練。 基于此baseline,作者在基礎(chǔ)類別的預(yù)訓(xùn)練階段應(yīng)用 MRA,而后續(xù)新類別的再訓(xùn)練階段保持不變。如上表所示,與baseline方法相比,使用 MRA 預(yù)訓(xùn)練的模型在新類別上表現(xiàn)出更強(qiáng)的泛化能力。 為了檢查掩蔽率如何影響增強(qiáng)質(zhì)量,作者將掩蔽率從 20% 到 80% 范圍內(nèi)消融。在圖上 中報(bào)告了結(jié)果。它表明在 40% 的比率下預(yù)訓(xùn)練的 MAE-Mini 達(dá)到了最佳性能。作者推測(cè)較小的模型可能無法在較高的掩蔽率下很好地收斂。然而,極小的掩蔽率也會(huì)使預(yù)訓(xùn)練任務(wù)過于簡(jiǎn)單,這可能會(huì)影響預(yù)訓(xùn)練的 MAE-Mini 的泛化能力。 為了驗(yàn)證強(qiáng)調(diào)語義相關(guān)patch可以提高模型性能,作者將本文的策略與選擇mask高注意力值的patch或隨機(jī)patch的其他策略進(jìn)行比較。在上表中報(bào)告了相應(yīng)的分類精度。證明了掩蔽區(qū)域的選擇對(duì)性能有顯著影響。 上圖展示了不同mask策略的可視化結(jié)果。如果刪除圖像中像鳥頭這樣的高度注意力的patch,由于特定類別區(qū)域的模糊性,重建的圖像很難識(shí)別。它驗(yàn)證了高度注意力的patch作為生成線索可以產(chǎn)生更健壯的原始圖像附近。 作者消融了 MAE 的模型大小。如上表所示,在相同的掩蔽率下,采用更大的模型作為增強(qiáng)器帶來更高的分類準(zhǔn)確率。這并不奇怪,因?yàn)楦蟮哪P筒东@了更準(zhǔn)確的注意力信息并提供了更強(qiáng)的正則化。但是,大型 MAE 模型的顯存和速度成本是無法承受的。通過調(diào)整掩蔽率,作者表明與 MAE-Large 相比,更小的 MAE-Mini 可以實(shí)現(xiàn)更好的性能,速度提高 6 倍,參數(shù)減少 95%。 Pretraining Epochs 是自監(jiān)督學(xué)習(xí)的重要超參數(shù)。例如,MoCo-v2 需要 800 個(gè) epoch,MAE 需要 1600 個(gè) epoch 才能與大型模型收斂。作者在上表中比較了不同預(yù)訓(xùn)練 epoch 下與 MRA 的分類精度。將預(yù)訓(xùn)練 epoch 從 200 擴(kuò)展到 800 時(shí)沒有明顯差異,這表明 200 epoch 的預(yù)訓(xùn)練對(duì)于輕量級(jí) MAE-Mini 來說已經(jīng)足夠了。 基于注意力的掩蔽和重建是 MRA 中的兩個(gè)主要步驟。為了證明重建的重要性,作者設(shè)計(jì)了一個(gè)僅mask輸入圖像的實(shí)驗(yàn)。如上表所示,MRA 中基于注意力的mask優(yōu)于普通的 Cutout 增強(qiáng)。與本文的直覺一致的是,基于注意力的掩蔽可以看作是一種高級(jí)的 Cutout。此外,通過重建進(jìn)一步提高了性能,顯示了基于生成的增強(qiáng)的有效性。
本文提出了一種魯棒的數(shù)據(jù)增強(qiáng)方法,Mask-Reconstruct Augmentation (MRA) 來規(guī)范深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練。通過 Mask-Reconstruct Augmentation,作者實(shí)現(xiàn)了重建原始圖像的部分區(qū)域來增強(qiáng)原始圖像。 當(dāng)只生成mask區(qū)域時(shí),增強(qiáng)是可控的且很強(qiáng)的。一堆分類基準(zhǔn)中的實(shí)驗(yàn)證明了 MRA 的有效性和魯棒性。盡管本文的工作顯示出有希望的結(jié)果,但仍然存在一些局限性。這種增強(qiáng)不適用于實(shí)例分割等密集預(yù)測(cè)任務(wù),因?yàn)樯稍鰪?qiáng)很容易破壞實(shí)例的邊界。 參考資料 [1]https://arxiv.org/abs/2206.04846 [2]https://github.com/haohang96/MRA