五月天色度导航,日本一区二区三区在线观看视频,在线h片,青娱乐成人论坛,欧美,日韩,亚洲,中文,97精品国产手机,天堂资源在线网,婷婷色女

I-JEPA基于圖像的聯(lián)合嵌入預(yù)測架構(gòu)

聯(lián)合創(chuàng)作 · 2023-09-25 23:49

I-JEPA 是一種自我監(jiān)督學(xué)習(xí)的方法。在高層次上，I-JEPA 從同一圖像的其他部分的表征中預(yù)測圖像的一部分的表征。值得注意的是，這種方法學(xué)習(xí)語義圖像特征：

不依賴于預(yù)先指定的不變性來進(jìn)行手工制作的數(shù)據(jù)轉(zhuǎn)換，這往往會偏向于特定的下游任務(wù)，
并且沒有讓模型填充 pixel-level 細(xì)節(jié)，這往往會導(dǎo)致學(xué)習(xí)較少語義意義的表征。

與具有像素解碼器的生成方法相反，I-JEPA 具有在潛在空間中進(jìn)行預(yù)測的預(yù)測器。I-JEPA 中的預(yù)測器可以看作是一個原始的（和受限的）世界模型，它能夠從部分可觀察的上下文中模擬靜態(tài)圖像中的空間不確定性。這個世界模型是語義的，因為它預(yù)測圖像中不可見區(qū)域的高級信息，而不是 pixel-level 細(xì)節(jié)。

項目團隊訓(xùn)練了一個隨機解碼器，它將 I-JEPA 預(yù)測的表示映射回像素空間中作為草圖。該模型正確捕捉位置不確定性并生成具有正確姿勢的高級對象部分（例如，狗的頭、狼的前腿）。

I-JEPA 預(yù)訓(xùn)練在計算上也很高效。它不涉及與應(yīng)用更多計算密集型數(shù)據(jù)擴充來生成多個視圖相關(guān)的任何開銷。目標(biāo)編碼器只需要處理圖像的一個視圖，上下文編碼器只需要處理上下文塊。根據(jù)經(jīng)驗，I-JEPA 在不使用手工視圖增強的情況下學(xué)習(xí)強大的現(xiàn)成語義表示。

預(yù)訓(xùn)練模型

arch.	patch size	resolution	epochs	data	download
ViT-H	14x14	224x224	300	ImageNet-1K	full checkpoint	logs	configs
ViT-H	16x16	448x448	300	ImageNet-1K	full checkpoint	logs	configs
ViT-H	14x14	224x224	66	ImageNet-22K	full checkpoint	logs	configs
ViT-g	16x16	224x224	44	ImageNet-22K	full checkpoint	logs	configs

點贊

評論

編輯分享

舉報