↑ 點擊藍(lán)字 關(guān)注極市平臺

作者丨科技猛獸

編輯丨極市平臺

極市導(dǎo)讀

首個能夠同時綁定六種模式數(shù)據(jù)的人工智能模型，ImageBind 提出了一種通過利用多種模態(tài) (text, audio, depth, IMU) 與 image 的配對數(shù)據(jù)來學(xué)習(xí)共享的表征空間的方法。它不需要所有模態(tài)彼此同時出現(xiàn)的數(shù)據(jù)集，而是只需要與 image/video 配對的數(shù)據(jù)即可 >>加入極市CV技術(shù)交流群，走在計算機(jī)視覺的最前沿

本文目錄

1 ImageBind：圖像配對數(shù)據(jù)綁定6種模態(tài)
(來自 FAIR, Meta AI)
1.1 背景和動機(jī)：嵌入特征的模態(tài)局限性
1.2 ImageBind 的貢獻(xiàn)
1.3 ImageBind 具體方法
1.4 ImageBind 的實現(xiàn)
1.5 ImageBind 實驗設(shè)置
1.6 Emergent Zero-Shot Classification 實驗結(jié)果
1.7 Zero-Shot 檢索和分類任務(wù)實驗結(jié)果
1.8 Few-shot 分類性能
1.9 ImageBind 分析

太長不看版

ImageBind 是一個學(xué)習(xí)一個聯(lián)合特征嵌入 (Joint Embedding) 的方法，這個聯(lián)合嵌入可以同時編碼 images, text, audio, depth, thermal, 和 IMU 數(shù)據(jù)。而且，在訓(xùn)練這個聯(lián)合嵌入的時候，不需要所有模態(tài)彼此同時出現(xiàn)的數(shù)據(jù)集，比如不需要配對的 image + text + audio + depth + IMU 數(shù)據(jù)。而是只需要與 image/video 配對的數(shù)據(jù)即可，比如，image + text，image + audio 這樣的數(shù)據(jù)集。

這個性質(zhì)可以為 ImageBind 帶來一些開箱即用的功能，比如：跨模態(tài)檢索，將模態(tài)與算術(shù)相結(jié)合，跨模態(tài)檢測和生成等。

1 ImageBind：圖像配對數(shù)據(jù)綁定6種模態(tài)

論文名稱：IMAGEBIND: One Embedding Space To Bind Them All (CVPR 2023)

論文地址：

http://arxiv.org/pdf/2305.05665.pdf

項目主頁：

http://imagebind.metademolab.com/

代碼地址：

http://github.com/facebookresearch/ImageBind

1.1 背景和動機(jī)：嵌入特征的模態(tài)局限性

一張簡單的圖片，能讓人回憶起很多經(jīng)歷：海灘的圖片可以讓人想起海浪的聲音，沙子的紋理，想起陣陣海風(fēng)，甚至是一首詩。這種圖像和多種模態(tài)信息的 "綁定" 給人們提供了許多監(jiān)督的來源來學(xué)習(xí)視覺的特征，其方法就是人們會將圖像與自己其他的感官信息 "對齊"。理想的情況下，是不是有一種聯(lián)合的嵌入空間，可以將所有的這些種類的模態(tài)信息對齊來學(xué)習(xí)視覺特征。但是，這就需要所有類型的模態(tài)的數(shù)據(jù)集組合，比如需要聲音，文字，圖像等等所有的信息，從現(xiàn)在研究的角度出發(fā)，比較困難。

最近，有很多工作試圖學(xué)習(xí)與文本對齊的圖像特征，音頻特征等。比如 CLIP 就把圖片和文本這兩種模態(tài)做了對齊。但是這些工作所學(xué)習(xí)到的嵌入 (Embedding) 有兩個局限性：

只使用一對嵌入 (比如視覺和文本)，或者較少的幾對嵌入。
學(xué)習(xí)到的嵌入僅限于用于訓(xùn)練的模態(tài)對。比如，視頻音頻嵌入不能直接用于圖像文本任務(wù)。

1.2 ImageBind 的貢獻(xiàn)

ImageBind 提出了一種通過利用多種模態(tài) (text, audio, depth, IMU) 與 image 的配對數(shù)據(jù)來學(xué)習(xí)共享的表征空間的方法。它不需要所有模態(tài)彼此同時出現(xiàn)的數(shù)據(jù)集，比如不需要配對的 image + text + audio + depth + IMU 數(shù)據(jù)。而是只需要與 image/video 配對的數(shù)據(jù)即可，比如，image + text，image + audio 這樣的數(shù)據(jù)集。這就大大減小了對數(shù)據(jù)集質(zhì)量的要求。

因此，本文方法取名 ImageBind ，意思是通過 image/video 這種模態(tài)，來 "綁定" 其他多種模態(tài)的數(shù)據(jù)。這允許 ImageBind 將文本嵌入隱式對齊到其他模態(tài)，例如音頻、深度等，從而在該模態(tài)上實現(xiàn)零樣本識別能力，而無需顯式語義或文本配對。而且，作者表明 ImageBind 可以使用 CLIP 等大規(guī)模視覺語言模型進(jìn)行初始化，從而利用這些模型豐富的圖像和文本表示。因此，ImageBind 可以在只進(jìn)行少量訓(xùn)練的情況下輕松應(yīng)用于多種模態(tài)任務(wù)。

ImageBind 使用的數(shù)據(jù)集不僅有圖像-文本對，還包括了4種新的模態(tài)：audio, depth, thermal, 和 Inertial Measurement Unit (IMU)，并在每種模態(tài)的任務(wù)上面都表現(xiàn)出了強(qiáng)大的 Emergent Zero-Shot 分類和檢索性能。

ImageBind 的聯(lián)合嵌入表征可以用于各種組合任務(wù)，如下圖1所示，包括1) 跨模態(tài)檢索：快速對齊音頻，深度圖和文本信息。2) 給一個嵌入增加來自不同模態(tài)的另一個嵌入可以自然地增加語音信息。3) 音頻到圖像的生成，通過預(yù)訓(xùn)練的 DALLE-2 解碼器，旨在與 CLIP 的文本嵌入一起工作

圖1：ImageBind 的聯(lián)合嵌入表征可以用于各種組合任務(wù)。1) 跨模態(tài)檢索：快速對齊音頻，深度圖和文本信息。2) 給一個嵌入增加來自不同模態(tài)的另一個嵌入可以自然地增加語音信息。3) 音頻到圖像的生成，通過預(yù)訓(xùn)練的 DALLE-2 解碼器，可以利用擴(kuò)散模型使用不同類型的聲音生成合理的圖像

1.3 ImageBind 具體方法

本文的目標(biāo)是通過圖像或者視頻這個媒介，將所有的模態(tài)綁定在一起，來學(xué)習(xí)所有模態(tài)的聯(lián)合嵌入空間 (joint embedding space)。作者把除了 image, video 之外的每個模態(tài)都和 image, video 模態(tài)對齊，比如 text 模態(tài)，作者就通過 web data 和 image 對齊。再比如 IMU 模態(tài)，通過 egocentric camera 捕獲得到的結(jié)果和 video 對齊。如下圖2所示，這個聯(lián)合嵌入空間 (joint embedding space) 的優(yōu)點是：具有強(qiáng)大的 Zero-Shot 能力。比如訓(xùn)練集里面并沒有任何配對的 IMU-text 數(shù)據(jù)，但是聯(lián)合嵌入空間使得 ImageBind 模型可以關(guān)聯(lián)這兩種模態(tài)。不同模態(tài)的數(shù)據(jù)在不同的數(shù)據(jù)來源中自然出現(xiàn)，比如網(wǎng)絡(luò)數(shù)據(jù)中有很多 images+text，video+audio 數(shù)據(jù)。image 里面自帶 depth 或 thermal 信息，egocentric camera 得到的 video 中包含 IMU 信息。ImageBind 方法把所有模態(tài)與 image, video 相關(guān)聯(lián)。

圖2：ImageBind 方法概述。不同模態(tài)的數(shù)據(jù)在不同的數(shù)據(jù)來源中自然出現(xiàn)，比如網(wǎng)絡(luò)數(shù)據(jù)中有很多 images+text，video+audio 數(shù)據(jù)。image 里面自帶 depth 或 thermal 信息，egocentric camera 得到的 video 中包含 IMU 信息。ImageBind 方法把所有模態(tài)與 image, video 相關(guān)聯(lián)

在介紹 ImageBind 的具體方法之前需要先提一下兩個常用的概念。

第1是對齊特定的模態(tài)對，比如 CLIP 里面就將 image 和 text 這2種模態(tài)對齊。在對比學(xué)習(xí)里面，我們可以使用 (image, text), (audio, text) , (image, depth) , (video, audio) 等等類型的數(shù)據(jù)對。然而，在每種情況下，我們在評估模型的時候也只能在相應(yīng)類型的數(shù)據(jù)對上做評估。比如在 (video, audio) 數(shù)據(jù)上訓(xùn)練得到的模型無法直接適用于 text 的任務(wù)，同理在 (image, text) 數(shù)據(jù)上訓(xùn)練得到的模型無法直接適用于 audio 的任務(wù)。

第2是使用 text prompt 進(jìn)行 Zero-Shot 的圖像分類。CLIP 構(gòu)建了一個描述數(shù)據(jù)集中類的文本描述列表。輸入圖像根據(jù)其與嵌入空間中的文本描述的相似性進(jìn)行分類。但是 CLIP 的訓(xùn)練需要成對的數(shù)據(jù)，比如如果希望 CLIP 支持 (audio, text) 的 Zero-Shot 分類就需要有對應(yīng)的大量 (audio, text) 數(shù)據(jù)對。但是，ImageBind 無此要求。

ImageBind 假設(shè)圖像模態(tài)數(shù)據(jù)為 , 其他模態(tài)的數(shù)據(jù)為。考慮一個數(shù)據(jù)對 , 給定一個圖像及其在另一種模態(tài) , 首先將它們編碼為歸一化的嵌入和 , 其中是深度神經(jīng)網(wǎng)絡(luò)。然后使用下面的 InfoNCE 損失函數(shù)優(yōu)化下面的目標(biāo)：

式中, 是溫度系數(shù), 這個損失函數(shù)使得使嵌入和在聯(lián)合嵌入空間中更接近, 從而對齊和。在實踐中使用對稱的損失函數(shù) 。作者觀察到即使只使用數(shù)據(jù)對和進(jìn)行訓(xùn)練, 嵌入空間可以對齊兩對模態(tài) 。這就使得 ImageBind 可以執(zhí)行各種零樣本和跨模態(tài)檢索任務(wù), 而無需對其進(jìn)行訓(xùn)練。

1.4 ImageBind 的實現(xiàn)

ImageBind 在概念上很簡單，而且可以通過多種方式實現(xiàn)。使用 ViT 作為 image 的特征提取器，使用 Patch Size 為 16 和 stride 為 10 的 ViT。

對于 video：從2秒采樣的2幀視頻剪輯。

對于 audio：使用 128 mel-spectrogram bins 將 16kHz 采樣的 2 秒音頻轉(zhuǎn)換為頻譜圖。

對于 thermal image 和 depth image：按照 channel 為1的 image 來處理。

對于 IMU：將深度轉(zhuǎn)換為視差圖，以實現(xiàn)尺度不變性。提取由 X、Y 和 Z 軸上的加速度計和陀螺儀測量組成的IMU信號。使用 5 秒的剪輯，從而產(chǎn)生 2K 時間步長 IMU 讀數(shù)，這些讀數(shù)是使用核大小為 8 的 1D 卷積投影的。

作者對 images, text, audio, thermal images, depth images, 和 IMU 使用單獨的編碼器，在每個編碼器上添加特定于模態(tài)的線性投影頭來獲得固定大小的 dd 維嵌入，該嵌入被歸一化并用于式1的 InfoNCE 損失函數(shù)。除了易于學(xué)習(xí)之外，這種設(shè)置還允許使用預(yù)訓(xùn)練的 CLIP 或 OpenCLIP 的圖像和文本編碼器。

1.5 ImageBind 實驗設(shè)置

ImageBind 所使用的數(shù)據(jù)集中包含自然與圖片配對的各種模態(tài)的數(shù)據(jù)，比如：

Audioset dataset 中包含了自然配對的 (video, audio) 數(shù)據(jù)。
SUN RGB-D dataset 中包含了自然配對的 (image, depth) 數(shù)據(jù)。
LLVIP dataset 中包含了自然配對的 (image, thermal) 數(shù)據(jù)。
Ego4D dataset 中包含了自然配對的 (video, IMU) 數(shù)據(jù)。

由于 SUN RGB-D 和 LLVIP 相對較小，作者將它們復(fù)制 50 倍進(jìn)行訓(xùn)練。

模型方面，作者使用了 CLIP 的預(yù)訓(xùn)練權(quán)重，視覺編碼器是 ViT-H，有 630M 參數(shù)。文本編碼器來自 OpenCLIP，有 302M 參數(shù)。audio 的編碼器使用 ViT-B，thermal 和 depth image 的編碼器使用 ViT-S。圖像和文本編碼器在 ImageBind 訓(xùn)練期間保持凍結(jié)，并更新 audio，thermal，depth 和 IMU 的編碼器。

ImageBind 的下游任務(wù)數(shù)據(jù)集如下圖3所示。

關(guān)于 Emergent Zero-Shot Classification

Emergent Zero-Shot Classification 是本文定義的一個詞。CLIP、AudioCLIP 等方法使用數(shù)據(jù)對 (image, text) 和 (audio, text) 進(jìn)行訓(xùn)練，并證明可以在 (image, text) 和 (audio, text) 數(shù)據(jù)對上進(jìn)行 Zero-Shot Classification。

但反觀 ImageBind，只需要對 (image, text) 和 (image, audio) 進(jìn)行訓(xùn)練，就可以使用 text prompt 對 audio 進(jìn)行 Zero-Shot Classification，對應(yīng)下圖4的藍(lán)色區(qū)域的結(jié)果。但是這種能力并不是直接訓(xùn)練得到的，因此作者稱之為緊急零樣本分類性能 (Emergent Zero-Shot Classification)，以與專門的 Zero-Shot Classification 區(qū)分開來。

1.6 Emergent Zero-Shot Classification 實驗結(jié)果

如下圖4所示是 Emergent Zero-Shot Classification 實驗結(jié)果。使用 text prompts 的結(jié)果使用藍(lán)色底注釋。

比如：63.4 這個數(shù)據(jù)，就是 ImageBind 模型使用 text prompt，在 LLVIP 數(shù)據(jù)集上做 Zero-Shot 分類的結(jié)果，前提是模型在訓(xùn)練時并沒有任何的 (text, thermal) 數(shù)據(jù)對，而是只有 (image, thermal) 數(shù)據(jù)對。模型是靠 (image, thermal) 和 (text, thermal) 的聯(lián)合訓(xùn)練學(xué)習(xí)到的 (text, thermal) 的 Zero-Shot 分類的性能。

Imagebind 將圖像與文本、深度、音頻、熱和 IMU 等模態(tài)對齊。生成的嵌入空間可以將文本嵌入與非圖像模態(tài)相關(guān)聯(lián)，并獲得強(qiáng)大的緊急零樣本分類性能。即使在音頻和視頻模式（例如音頻和 IMU）上也表現(xiàn)出強(qiáng)大的性能。

Imagebind 是第一個搞 Emergent Zero-Shot Classification 的工作，所以沒有任何對比的 Baseline 在。而從圖4中我們也可以發(fā)現(xiàn)，Imagebind 的 Emergent Zero-Shot Classification 性能還是相當(dāng)不錯的。在每個基準(zhǔn)測試中，Imagebind 都獲得了強(qiáng)大的增益，甚至優(yōu)于針對特定模態(tài)和任務(wù)訓(xùn)練的監(jiān)督專家模型。

這些結(jié)果表明，Imagebind 可以通過 (image, x) 和 (image, text) 數(shù)據(jù)對的對齊訓(xùn)練，來隱式地對齊 (x, text) 模態(tài)的數(shù)據(jù)，這個能力很神奇。

圖4中的 Absolute state-of-the-art (SOTA) 代表每個數(shù)據(jù)集真正的 SOTA 性能，但是這個點數(shù)通常是有監(jiān)督信號。作者報告了除 MSR-VTT (Recall@1) 和音頻 (mAP) 之外的所有數(shù)據(jù)集的 Top-1 分類精度。

圖4：Emergent Zero-Shot Classification 實驗結(jié)果。使用 text prompts 的結(jié)果使用藍(lán)色底注釋。Imagebind 將圖像與文本、深度、音頻、熱和 IMU 等模態(tài)對齊。生成的嵌入空間可以將文本嵌入與非圖像模態(tài)相關(guān)聯(lián)，并獲得強(qiáng)大的緊急零樣本分類性能

1.7 Zero-Shot 檢索和分類任務(wù)實驗結(jié)果

Zero-shot text to audio 檢索和分類

之前的工作 AudioCLIP 這個方法使用了 (audio, text) 監(jiān)督信號，AVFIC 這個工作也使用了 (audio, text) 監(jiān)督信號，作者在圖5中比較了它們的性能。ImageBind 在音頻文本檢索基準(zhǔn)上顯著優(yōu)于先前的工作。在 Clotho 數(shù)據(jù)集上，盡管在訓(xùn)練期間沒有使用任何文本配對的音頻，但是 ImageBind 的性能是 AVFIC 的兩倍。與監(jiān)督訓(xùn)練得到的 AudioCLIP 模型相比，ImageBind 在 ESC 數(shù)據(jù)集上實現(xiàn)了相當(dāng)?shù)囊纛l分類性能。ImageBind 在所有3個基準(zhǔn)上的強(qiáng)大性能，驗證了它能夠使用 image 作為橋梁來對齊 audio 和 text 模態(tài)。

Text to audio and video 檢索

作者使用 MSR-VTT 1k-A benchmark 來評估 Text to audio and video 檢索性能。

ImagBind 在僅使用 audio 的情況下，text-based 的檢索性能 (Emergent Zero-Shot Retrieval) 性能不錯，與 MIL-NCE 等先前工作的視頻檢索性能相比，還是實現(xiàn)了不錯的緊急檢索性能。

ImagBind 結(jié)合 audio 和 video 模態(tài)的情況下，可以進(jìn)一步獲得強(qiáng)大的性能，表明 ImageBind 的特征在檢索模型上的實用性。

1.8 Few-shot 分類性能

作者接下來通過對 Few-shot 分類性能進(jìn)行評估來評估 ImageBind 的標(biāo)簽效率，作者使用來自 ImageBind 的audio 和 depth 的 Encoder，并分別評測其 audio 和 depth 分類的性能，實驗結(jié)果如圖7所示。對于 ≥1-shot 的結(jié)果，就訓(xùn)練一個 Linear Classifier。

Audio 分類任務(wù)作者比較的模型是：

Self-supervised AudioMAE 模型。
用于音頻分類任務(wù)的微調(diào) supervised AudioMAE 模型。

以上兩個 Baseline 都使用 ViT-B 模型作為 audio encoder，和 ImageBind 保持一致。

ImageBind 在所有設(shè)置中都顯著優(yōu)于 AudioMAE 模型，在 ≤4-shot 分類上以 top-1 準(zhǔn)確度提高了約 40%。ImageBind 在 ≥1-shot 分類上也匹配或優(yōu)于監(jiān)督模型。ImageBind 的緊急零樣本性能超過了有監(jiān)督的 ≤2-shot 性能。

Depth 分類任務(wù)作者比較的模型是：MultiMAE 模型，即 ViT-B/16 模型。在所有 Few-Shot 的設(shè)置中，ImageBind 的性能明顯優(yōu)于 MultiMAE。這些結(jié)果表明使用圖像對齊訓(xùn)練的 ImageBind 在 audio 和 depth 特征中具有很強(qiáng)的泛化能力。

1.9 ImageBind 分析

1) 多模態(tài)嵌入空間的算術(shù)

作者研究了 ImageBind 的嵌入是否可以用于跨模態(tài)組合信息。如下圖8所示，通過把 image 和 audio 的 Embedding 加在一起，得到的聯(lián)合嵌入，使得我們可以組合兩個 Embedding。比如：桌子上水果的圖像+啁啾鳥的聲音，并檢索包含這些概念的圖像，就得到了有鳥和水果的樹的圖片。

通過這個特點，我們可以在沒有重新訓(xùn)練的情況下，借助使用其他模態(tài)的 ImageBind 模型來升級已有的基于 CLIP 的視覺模型。

圖8：通過把 image 和 audio 的 Embedding 加在一起得到聯(lián)合嵌入，組合已有的嵌入

2) 將基于文本的檢測器升級為基于音頻的檢測器

預(yù)訓(xùn)練的基于文本的檢測模型 Detic，簡單地將其基于 CLIP 的 text Embedding 替換為 ImageBind 的 audio 嵌入。在沒有訓(xùn)練的情況下，就得到了一個基于 audio 的檢測器，可以根據(jù)音頻提示檢測和分割對象。如下圖9所示，輸入狗叫的聲音，可以定位出狗的位置。輸入敲擊鍵盤的聲音，可以對鍵盤進(jìn)行分割。

圖9：基于音頻的檢測器：輸入狗叫的聲音，檢測出狗的位置。輸入敲擊鍵盤的聲音，分割出鍵盤的 mask

3) 將基于文本的擴(kuò)散模型升級為基于音頻的擴(kuò)散模型

作者使用預(yù)訓(xùn)練的 DALLE-2 擴(kuò)散模型并將其 Prompt Embedding 替換為 ImageBind 的 audio 嵌入。這樣就得到了一個基于 audio 的擴(kuò)散模型。如圖1所示，作者觀察到可以利用擴(kuò)散模型使用不同類型的聲音生成合理的圖像。

參考