I-JEPA基于圖像的聯(lián)合嵌入預(yù)測架構(gòu)
I-JEPA 是一種自我監(jiān)督學(xué)習(xí)的方法。在高層次上,I-JEPA 從同一圖像的其他部分的表征中預(yù)測圖像的一部分的表征。值得注意的是,這種方法學(xué)習(xí)語義圖像特征:
- 不依賴于預(yù)先指定的不變性來進(jìn)行手工制作的數(shù)據(jù)轉(zhuǎn)換,這往往會偏向于特定的下游任務(wù),
- 并且沒有讓模型填充 pixel-level 細(xì)節(jié),這往往會導(dǎo)致學(xué)習(xí)較少語義意義的表征。
與具有像素解碼器的生成方法相反,I-JEPA 具有在潛在空間中進(jìn)行預(yù)測的預(yù)測器。I-JEPA 中的預(yù)測器可以看作是一個原始的(和受限的)世界模型,它能夠從部分可觀察的上下文中模擬靜態(tài)圖像中的空間不確定性。這個世界模型是語義的,因為它預(yù)測圖像中不可見區(qū)域的高級信息,而不是 pixel-level 細(xì)節(jié)。
項目團隊訓(xùn)練了一個隨機解碼器,它將 I-JEPA 預(yù)測的表示映射回像素空間中作為草圖。該模型正確捕捉位置不確定性并生成具有正確姿勢的高級對象部分(例如,狗的頭、狼的前腿)。
I-JEPA 預(yù)訓(xùn)練在計算上也很高效。它不涉及與應(yīng)用更多計算密集型數(shù)據(jù)擴充來生成多個視圖相關(guān)的任何開銷。目標(biāo)編碼器只需要處理圖像的一個視圖,上下文編碼器只需要處理上下文塊。根據(jù)經(jīng)驗,I-JEPA 在不使用手工視圖增強的情況下學(xué)習(xí)強大的現(xiàn)成語義表示。
預(yù)訓(xùn)練模型
| arch. | patch size | resolution | epochs | data | download | ||
|---|---|---|---|---|---|---|---|
| ViT-H | 14x14 | 224x224 | 300 | ImageNet-1K | full checkpoint | logs | configs |
| ViT-H | 16x16 | 448x448 | 300 | ImageNet-1K | full checkpoint | logs | configs |
| ViT-H | 14x14 | 224x224 | 66 | ImageNet-22K | full checkpoint | logs | configs |
| ViT-g | 16x16 | 224x224 | 44 | ImageNet-22K | full checkpoint | logs | configs |
評論
圖片
表情
