只需2040張圖片,訓(xùn)練視覺(jué)Transformer:南大吳建鑫團(tuán)隊(duì)提出IDMM

來(lái)源:機(jī)器之心 本文共3000字,建議閱讀5分鐘 本文研究了如何使用有限數(shù)據(jù)訓(xùn)練 ViT,由于可以捕獲特征對(duì)齊和實(shí)例相似性,新方法展現(xiàn)了優(yōu)勢(shì)。

提出了用于自監(jiān)督 ViT 訓(xùn)練的 IDMM,即使在 7 個(gè)小型數(shù)據(jù)集上對(duì)各種 ViT 主干網(wǎng)絡(luò)從頭開(kāi)始訓(xùn)練也能獲得 SOTA 結(jié)果; 對(duì)于在處理小數(shù)據(jù)時(shí)為什么應(yīng)該更注重參數(shù)實(shí)例判別,該研究給出了損失角度的理論分析。此外,展示了 CutMix 等策略應(yīng)如何從梯度的角度緩解不頻繁更新的問(wèn)題; 該研究通過(guò)實(shí)驗(yàn)表明,投影 MLP 頭對(duì)于非參數(shù)方法(例如,SimCLR)是必不可少的,但對(duì)于參數(shù)實(shí)例判別而言卻不是,這要?dú)w功于實(shí)例判別中最終可學(xué)習(xí)的全連接層; 分析了小數(shù)據(jù)集的遷移能力,發(fā)現(xiàn)即使在小數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練,ViT 也具有良好的遷移能力。

,其中第 j 類的輸出是
。最后,將 O^(i) 被傳到 softmax 層以獲得有效的概率分布 P^(i)。

首先是數(shù)據(jù)。當(dāng)前的 ViT 模型往往是在大規(guī)模數(shù)據(jù)集(如 ImageNet 或更大)上預(yù)訓(xùn)練,然后在各種下游任務(wù)中微調(diào)。典型卷積歸納偏差的缺失也使得這些模型比常見(jiàn) CNN 更需要數(shù)據(jù)。因此,探究是否可以針對(duì)某個(gè)可用圖像有限的任務(wù)從頭開(kāi)始訓(xùn)練 ViT 模型非常重要; 其次是計(jì)算。大規(guī)模數(shù)據(jù)集、大量 epoch 和復(fù)雜的骨干網(wǎng)絡(luò),這些組合在一起意味著 ViT 訓(xùn)練的計(jì)算成本非常高。這種現(xiàn)象導(dǎo)致 ViT 模型成為少數(shù)機(jī)構(gòu)研究人員才能使用的「特權(quán)」; 最后是靈活性。下游微調(diào)范式之前的預(yù)訓(xùn)練有時(shí)會(huì)變得非常麻煩。例如,我們可能需要為同一個(gè)任務(wù)訓(xùn)練 10 個(gè)不同的模型,并將它們部署到不同的硬件平臺(tái),但在大規(guī)模數(shù)據(jù)集上預(yù)訓(xùn)練 10 個(gè)模型是不切實(shí)際的。








評(píng)論
圖片
表情
