<p id="m2nkj"><option id="m2nkj"><big id="m2nkj"></big></option></p>
    <strong id="m2nkj"></strong>
    <ruby id="m2nkj"></ruby>

    <var id="m2nkj"></var>
  • I-JEPA基于圖像的聯(lián)合嵌入預(yù)測架構(gòu)

    聯(lián)合創(chuàng)作 · 2023-09-25 23:49

    I-JEPA 是一種自我監(jiān)督學(xué)習(xí)的方法。在高層次上,I-JEPA 從同一圖像的其他部分的表征中預(yù)測圖像的一部分的表征。值得注意的是,這種方法學(xué)習(xí)語義圖像特征:

    1. 不依賴于預(yù)先指定的不變性來進(jìn)行手工制作的數(shù)據(jù)轉(zhuǎn)換,這往往會偏向于特定的下游任務(wù),
    2. 并且沒有讓模型填充 pixel-level 細(xì)節(jié),這往往會導(dǎo)致學(xué)習(xí)較少語義意義的表征。

    與具有像素解碼器的生成方法相反,I-JEPA 具有在潛在空間中進(jìn)行預(yù)測的預(yù)測器。I-JEPA 中的預(yù)測器可以看作是一個原始的(和受限的)世界模型,它能夠從部分可觀察的上下文中模擬靜態(tài)圖像中的空間不確定性。這個世界模型是語義的,因為它預(yù)測圖像中不可見區(qū)域的高級信息,而不是 pixel-level 細(xì)節(jié)。

    項目團隊訓(xùn)練了一個隨機解碼器,它將 I-JEPA 預(yù)測的表示映射回像素空間中作為草圖。該模型正確捕捉位置不確定性并生成具有正確姿勢的高級對象部分(例如,狗的頭、狼的前腿)。

    I-JEPA 預(yù)訓(xùn)練在計算上也很高效。它不涉及與應(yīng)用更多計算密集型數(shù)據(jù)擴充來生成多個視圖相關(guān)的任何開銷。目標(biāo)編碼器只需要處理圖像的一個視圖,上下文編碼器只需要處理上下文塊。根據(jù)經(jīng)驗,I-JEPA 在不使用手工視圖增強的情況下學(xué)習(xí)強大的現(xiàn)成語義表示。

    預(yù)訓(xùn)練模型

    arch. patch size resolution epochs data download
    ViT-H 14x14 224x224 300 ImageNet-1K full checkpoint logs configs
    ViT-H 16x16 448x448 300 ImageNet-1K full checkpoint logs configs
    ViT-H 14x14 224x224 66 ImageNet-22K full checkpoint logs configs
    ViT-g 16x16 224x224 44 ImageNet-22K full checkpoint logs configs
    瀏覽 14
    點贊
    評論
    收藏
    分享

    手機掃一掃分享

    編輯 分享
    舉報
    評論
    圖片
    表情
    推薦
    點贊
    評論
    收藏
    分享

    手機掃一掃分享

    編輯 分享
    舉報
    <p id="m2nkj"><option id="m2nkj"><big id="m2nkj"></big></option></p>
    <strong id="m2nkj"></strong>
    <ruby id="m2nkj"></ruby>

    <var id="m2nkj"></var>
  • 色婷婷国产在线播放 | 欧美三级成人理伦 | jzzijzzij亚洲成熟少妇在线播放 | 97人人操超碰 | 久久久成人剧场 | 在线视频免费播放 | 在线成人视频网站大香蕉在线网站 | 国产免费无码精品视频网站 | 精品1卡二卡三卡四卡老狼 | 日韩国产在线一区 |