CVPR'23|Meta統(tǒng)一表征模型的設(shè)想ImageBind:圖像配對數(shù)據(jù)綁定6種模態(tài)!
極市導(dǎo)讀
首個能夠同時綁定六種模式數(shù)據(jù)的人工智能模型,ImageBind 提出了一種通過利用多種模態(tài) (text, audio, depth, IMU) 與 image 的配對數(shù)據(jù)來學(xué)習(xí)共享的表征空間的方法。它不需要所有模態(tài)彼此同時出現(xiàn)的數(shù)據(jù)集,而是只需要與 image/video 配對的數(shù)據(jù)即可 >>加入極市CV技術(shù)交流群,走在計算機(jī)視覺的最前沿
本文目錄
1 ImageBind:圖像配對數(shù)據(jù)綁定6種模態(tài)
(來自 FAIR, Meta AI)
1.1 背景和動機(jī):嵌入特征的模態(tài)局限性
1.2 ImageBind 的貢獻(xiàn)
1.3 ImageBind 具體方法
1.4 ImageBind 的實現(xiàn)
1.5 ImageBind 實驗設(shè)置
1.6 Emergent Zero-Shot Classification 實驗結(jié)果
1.7 Zero-Shot 檢索和分類任務(wù)實驗結(jié)果
1.8 Few-shot 分類性能
1.9 ImageBind 分析
太長不看版
ImageBind 是一個學(xué)習(xí)一個聯(lián)合特征嵌入 (Joint Embedding) 的方法,這個聯(lián)合嵌入可以同時編碼 images, text, audio, depth, thermal, 和 IMU 數(shù)據(jù)。而且,在訓(xùn)練這個聯(lián)合嵌入的時候,不需要所有模態(tài)彼此同時出現(xiàn)的數(shù)據(jù)集,比如不需要配對的 image + text + audio + depth + IMU 數(shù)據(jù)。而是只需要與 image/video 配對的數(shù)據(jù)即可,比如,image + text,image + audio 這樣的數(shù)據(jù)集。
這個性質(zhì)可以為 ImageBind 帶來一些開箱即用的功能,比如:跨模態(tài)檢索,將模態(tài)與算術(shù)相結(jié)合,跨模態(tài)檢測和生成等。
1 ImageBind:圖像配對數(shù)據(jù)綁定6種模態(tài)
論文名稱:IMAGEBIND: One Embedding Space To Bind Them All (CVPR 2023)
論文地址:
http://arxiv.org/pdf/2305.05665.pdf
項目主頁:
http://imagebind.metademolab.com/
代碼地址:
http://github.com/facebookresearch/ImageBind
1.1 背景和動機(jī):嵌入特征的模態(tài)局限性
一張簡單的圖片,能讓人回憶起很多經(jīng)歷:海灘的圖片可以讓人想起海浪的聲音,沙子的紋理,想起陣陣海風(fēng),甚至是一首詩。這種圖像和多種模態(tài)信息的 "綁定" 給人們提供了許多監(jiān)督的來源來學(xué)習(xí)視覺的特征,其方法就是人們會將圖像與自己其他的感官信息 "對齊"。理想的情況下,是不是有一種聯(lián)合的嵌入空間,可以將所有的這些種類的模態(tài)信息對齊來學(xué)習(xí)視覺特征。但是,這就需要所有類型的模態(tài)的數(shù)據(jù)集組合,比如需要聲音,文字,圖像等等所有的信息,從現(xiàn)在研究的角度出發(fā),比較困難。
最近,有很多工作試圖學(xué)習(xí)與文本對齊的圖像特征,音頻特征等。比如 CLIP 就把圖片和文本這兩種模態(tài)做了對齊。但是這些工作所學(xué)習(xí)到的嵌入 (Embedding) 有兩個局限性:
-
只使用一對嵌入 (比如視覺和文本),或者較少的幾對嵌入。 -
學(xué)習(xí)到的嵌入僅限于用于訓(xùn)練的模態(tài)對。比如,視頻音頻嵌入不能直接用于圖像文本任務(wù)。
1.2 ImageBind 的貢獻(xiàn)
ImageBind 提出了一種通過利用多種模態(tài) (text, audio, depth, IMU) 與 image 的配對數(shù)據(jù)來學(xué)習(xí)共享的表征空間的方法。它不需要所有模態(tài)彼此同時出現(xiàn)的數(shù)據(jù)集,比如不需要配對的 image + text + audio + depth + IMU 數(shù)據(jù)。而是只需要與 image/video 配對的數(shù)據(jù)即可,比如,image + text,image + audio 這樣的數(shù)據(jù)集。這就大大減小了對數(shù)據(jù)集質(zhì)量的要求。
因此,本文方法取名 ImageBind ,意思是通過 image/video 這種模態(tài),來 "綁定" 其他多種模態(tài)的數(shù)據(jù)。這允許 ImageBind 將文本嵌入隱式對齊到其他模態(tài),例如音頻、深度等,從而在該模態(tài)上實現(xiàn)零樣本識別能力,而無需顯式語義或文本配對。而且,作者表明 ImageBind 可以使用 CLIP 等大規(guī)模視覺語言模型進(jìn)行初始化,從而利用這些模型豐富的圖像和文本表示。因此,ImageBind 可以在只進(jìn)行少量訓(xùn)練的情況下輕松應(yīng)用于多種模態(tài)任務(wù)。
ImageBind 使用的數(shù)據(jù)集不僅有圖像-文本對,還包括了4種新的模態(tài):audio, depth, thermal, 和 Inertial Measurement Unit (IMU),并在每種模態(tài)的任務(wù)上面都表現(xiàn)出了強(qiáng)大的 Emergent Zero-Shot 分類和檢索性能。
ImageBind 的聯(lián)合嵌入表征可以用于各種組合任務(wù),如下圖1所示,包括1) 跨模態(tài)檢索:快速對齊音頻,深度圖和文本信息。2) 給一個嵌入增加來自不同模態(tài)的另一個嵌入可以自然地增加語音信息。3) 音頻到圖像的生成,通過預(yù)訓(xùn)練的 DALLE-2 解碼器,旨在與 CLIP 的文本嵌入一起工作
1.3 ImageBind 具體方法
本文的目標(biāo)是通過圖像或者視頻這個媒介,將所有的模態(tài)綁定在一起,來學(xué)習(xí)所有模態(tài)的聯(lián)合嵌入空間 (joint embedding space)。作者把除了 image, video 之外的每個模態(tài)都和 image, video 模態(tài)對齊,比如 text 模態(tài),作者就通過 web data 和 image 對齊。再比如 IMU 模態(tài),通過 egocentric camera 捕獲得到的結(jié)果和 video 對齊。如下圖2所示,這個聯(lián)合嵌入空間 (joint embedding space) 的優(yōu)點是:具有強(qiáng)大的 Zero-Shot 能力。比如訓(xùn)練集里面并沒有任何配對的 IMU-text 數(shù)據(jù),但是聯(lián)合嵌入空間使得 ImageBind 模型可以關(guān)聯(lián)這兩種模態(tài)。不同模態(tài)的數(shù)據(jù)在不同的數(shù)據(jù)來源中自然出現(xiàn),比如網(wǎng)絡(luò)數(shù)據(jù)中有很多 images+text,video+audio 數(shù)據(jù)。image 里面自帶 depth 或 thermal 信息,egocentric camera 得到的 video 中包含 IMU 信息。ImageBind 方法把所有模態(tài)與 image, video 相關(guān)聯(lián)。
在介紹 ImageBind 的具體方法之前需要先提一下兩個常用的概念。
第1是對齊特定的模態(tài)對,比如 CLIP 里面就將 image 和 text 這2種模態(tài)對齊。在對比學(xué)習(xí)里面,我們可以使用 (image, text), (audio, text) , (image, depth) , (video, audio) 等等類型的數(shù)據(jù)對。然而,在每種情況下,我們在評估模型的時候也只能在相應(yīng)類型的數(shù)據(jù)對上做評估。比如在 (video, audio) 數(shù)據(jù)上訓(xùn)練得到的模型無法直接適用于 text 的任務(wù),同理在 (image, text) 數(shù)據(jù)上訓(xùn)練得到的模型無法直接適用于 audio 的任務(wù)。
第2是使用 text prompt 進(jìn)行 Zero-Shot 的圖像分類。CLIP 構(gòu)建了一個描述數(shù)據(jù)集中類的文本描述列表。輸入圖像根據(jù)其與嵌入空間中的文本描述的相似性進(jìn)行分類。但是 CLIP 的訓(xùn)練需要成對的數(shù)據(jù),比如如果希望 CLIP 支持 (audio, text) 的 Zero-Shot 分類就需要有對應(yīng)的大量 (audio, text) 數(shù)據(jù)對。但是,ImageBind 無此要求。
ImageBind 假設(shè)圖像模態(tài)數(shù)據(jù)為 , 其他模態(tài)的數(shù)據(jù)為 。考慮一個數(shù)據(jù)對 , 給定一個圖像 及其在另一種模態(tài) , 首先將它們編碼為歸一化的嵌入 和 , 其中 是深度神經(jīng)網(wǎng)絡(luò)。然后使用下面的 InfoNCE 損失函數(shù)優(yōu)化下面的目標(biāo):
式中, 是溫度系數(shù), 這個損失函數(shù)使得使嵌入 和 在聯(lián)合嵌入空間中更接近, 從而對齊 和 。在實踐中使用對稱的損失函數(shù) 。作者觀察到即使只使用數(shù)據(jù)對 和 進(jìn)行訓(xùn)練, 嵌入空間可以對齊兩對模態(tài) 。這就使得 ImageBind 可以執(zhí)行各種零樣本和跨模態(tài)檢索任務(wù), 而無需對其進(jìn)行訓(xùn)練。
1.4 ImageBind 的實現(xiàn)
ImageBind 在概念上很簡單,而且可以通過多種方式實現(xiàn)。使用 ViT 作為 image 的特征提取器,使用 Patch Size 為 16 和 stride 為 10 的 ViT。
對于 video:從2秒采樣的2幀視頻剪輯。
對于 audio:使用 128 mel-spectrogram bins 將 16kHz 采樣的 2 秒音頻轉(zhuǎn)換為頻譜圖。
對于 thermal image 和 depth image:按照 channel 為1的 image 來處理。
對于 IMU:將深度轉(zhuǎn)換為視差圖,以實現(xiàn)尺度不變性。提取由 X、Y 和 Z 軸上的加速度計和陀螺儀測量組成的IMU信號。使用 5 秒的剪輯,從而產(chǎn)生 2K 時間步長 IMU 讀數(shù),這些讀數(shù)是使用核大小為 8 的 1D 卷積投影的。
作者對 images, text, audio, thermal images, depth images, 和 IMU 使用單獨的編碼器,在每個編碼器上添加特定于模態(tài)的線性投影頭來獲得固定大小的 dd 維嵌入,該嵌入被歸一化并用于式1的 InfoNCE 損失函數(shù)。除了易于學(xué)習(xí)之外,這種設(shè)置還允許使用預(yù)訓(xùn)練的 CLIP 或 OpenCLIP 的圖像和文本編碼器。
1.5 ImageBind 實驗設(shè)置
ImageBind 所使用的數(shù)據(jù)集中包含自然與圖片配對的各種模態(tài)的數(shù)據(jù),比如:
-
Audioset dataset 中包含了自然配對的 (video, audio) 數(shù)據(jù)。 -
SUN RGB-D dataset 中包含了自然配對的 (image, depth) 數(shù)據(jù)。 -
LLVIP dataset 中包含了自然配對的 (image, thermal) 數(shù)據(jù)。 -
Ego4D dataset 中包含了自然配對的 (video, IMU) 數(shù)據(jù)。
由于 SUN RGB-D 和 LLVIP 相對較小,作者將它們復(fù)制 50 倍進(jìn)行訓(xùn)練。
模型方面,作者使用了 CLIP 的預(yù)訓(xùn)練權(quán)重,視覺編碼器是 ViT-H,有 630M 參數(shù)。文本編碼器來自 OpenCLIP,有 302M 參數(shù)。audio 的編碼器使用 ViT-B,thermal 和 depth image 的編碼器使用 ViT-S。圖像和文本編碼器在 ImageBind 訓(xùn)練期間保持凍結(jié),并更新 audio,thermal,depth 和 IMU 的編碼器。
ImageBind 的下游任務(wù)數(shù)據(jù)集如下圖3所示。
關(guān)于 Emergent Zero-Shot Classification
Emergent Zero-Shot Classification 是本文定義的一個詞。CLIP、AudioCLIP 等方法使用數(shù)據(jù)對 (image, text) 和 (audio, text) 進(jìn)行訓(xùn)練,并證明可以在 (image, text) 和 (audio, text) 數(shù)據(jù)對上進(jìn)行 Zero-Shot Classification。
但反觀 ImageBind,只需要對 (image, text) 和 (image, audio) 進(jìn)行訓(xùn)練,就可以使用 text prompt 對 audio 進(jìn)行 Zero-Shot Classification,對應(yīng)下圖4的藍(lán)色區(qū)域的結(jié)果。但是這種能力并不是直接訓(xùn)練得到的,因此作者稱之為緊急零樣本分類性能 (Emergent Zero-Shot Classification),以與專門的 Zero-Shot Classification 區(qū)分開來。
1.6 Emergent Zero-Shot Classification 實驗結(jié)果
如下圖4所示是 Emergent Zero-Shot Classification 實驗結(jié)果。使用 text prompts 的結(jié)果使用藍(lán)色底注釋。
比如:63.4 這個數(shù)據(jù),就是 ImageBind 模型使用 text prompt,在 LLVIP 數(shù)據(jù)集上做 Zero-Shot 分類的結(jié)果,前提是模型在訓(xùn)練時并沒有任何的 (text, thermal) 數(shù)據(jù)對,而是只有 (image, thermal) 數(shù)據(jù)對。模型是靠 (image, thermal) 和 (text, thermal) 的聯(lián)合訓(xùn)練學(xué)習(xí)到的 (text, thermal) 的 Zero-Shot 分類的性能。
Imagebind 將圖像與文本、深度、音頻、熱和 IMU 等模態(tài)對齊。生成的嵌入空間可以將文本嵌入與非圖像模態(tài)相關(guān)聯(lián),并獲得強(qiáng)大的緊急零樣本分類性能。即使在音頻和視頻模式(例如音頻和 IMU)上也表現(xiàn)出強(qiáng)大的性能。
Imagebind 是第一個搞 Emergent Zero-Shot Classification 的工作,所以沒有任何對比的 Baseline 在。而從圖4中我們也可以發(fā)現(xiàn),Imagebind 的 Emergent Zero-Shot Classification 性能還是相當(dāng)不錯的。在每個基準(zhǔn)測試中,Imagebind 都獲得了強(qiáng)大的增益,甚至優(yōu)于針對特定模態(tài)和任務(wù)訓(xùn)練的監(jiān)督專家模型。
這些結(jié)果表明,Imagebind 可以通過 (image, x) 和 (image, text) 數(shù)據(jù)對的對齊訓(xùn)練,來隱式地對齊 (x, text) 模態(tài)的數(shù)據(jù),這個能力很神奇。
圖4中的 Absolute state-of-the-art (SOTA) 代表每個數(shù)據(jù)集真正的 SOTA 性能,但是這個點數(shù)通常是有監(jiān)督信號。作者報告了除 MSR-VTT (Recall@1) 和音頻 (mAP) 之外的所有數(shù)據(jù)集的 Top-1 分類精度。
1.7 Zero-Shot 檢索和分類任務(wù)實驗結(jié)果
Zero-shot text to audio 檢索和分類
之前的工作 AudioCLIP 這個方法使用了 (audio, text) 監(jiān)督信號,AVFIC 這個工作也使用了 (audio, text) 監(jiān)督信號,作者在圖5中比較了它們的性能。ImageBind 在音頻文本檢索基準(zhǔn)上顯著優(yōu)于先前的工作。在 Clotho 數(shù)據(jù)集上,盡管在訓(xùn)練期間沒有使用任何文本配對的音頻,但是 ImageBind 的性能是 AVFIC 的兩倍。與監(jiān)督訓(xùn)練得到的 AudioCLIP 模型相比,ImageBind 在 ESC 數(shù)據(jù)集上實現(xiàn)了相當(dāng)?shù)囊纛l分類性能。ImageBind 在所有3個基準(zhǔn)上的強(qiáng)大性能,驗證了它能夠使用 image 作為橋梁來對齊 audio 和 text 模態(tài)。
Text to audio and video 檢索
作者使用 MSR-VTT 1k-A benchmark 來評估 Text to audio and video 檢索性能。
ImagBind 在僅使用 audio 的情況下,text-based 的檢索性能 (Emergent Zero-Shot Retrieval) 性能不錯,與 MIL-NCE 等先前工作的視頻檢索性能相比,還是實現(xiàn)了不錯的緊急檢索性能。
ImagBind 結(jié)合 audio 和 video 模態(tài)的情況下,可以進(jìn)一步獲得強(qiáng)大的性能,表明 ImageBind 的特征在檢索模型上的實用性。
1.8 Few-shot 分類性能
作者接下來通過對 Few-shot 分類性能進(jìn)行評估來評估 ImageBind 的標(biāo)簽效率,作者使用來自 ImageBind 的audio 和 depth 的 Encoder,并分別評測其 audio 和 depth 分類的性能,實驗結(jié)果如圖7所示。對于 ≥1-shot 的結(jié)果,就訓(xùn)練一個 Linear Classifier。
Audio 分類任務(wù)作者比較的模型是:
-
Self-supervised AudioMAE 模型。 -
用于音頻分類任務(wù)的微調(diào) supervised AudioMAE 模型。
以上兩個 Baseline 都使用 ViT-B 模型作為 audio encoder,和 ImageBind 保持一致。
ImageBind 在所有設(shè)置中都顯著優(yōu)于 AudioMAE 模型,在 ≤4-shot 分類上以 top-1 準(zhǔn)確度提高了約 40%。ImageBind 在 ≥1-shot 分類上也匹配或優(yōu)于監(jiān)督模型。ImageBind 的緊急零樣本性能超過了有監(jiān)督的 ≤2-shot 性能。
Depth 分類任務(wù)作者比較的模型是:MultiMAE 模型,即 ViT-B/16 模型。在所有 Few-Shot 的設(shè)置中,ImageBind 的性能明顯優(yōu)于 MultiMAE。這些結(jié)果表明使用圖像對齊訓(xùn)練的 ImageBind 在 audio 和 depth 特征中具有很強(qiáng)的泛化能力。
1.9 ImageBind 分析
1) 多模態(tài)嵌入空間的算術(shù)
作者研究了 ImageBind 的嵌入是否可以用于跨模態(tài)組合信息。如下圖8所示,通過把 image 和 audio 的 Embedding 加在一起,得到的聯(lián)合嵌入,使得我們可以組合兩個 Embedding。比如:桌子上水果的圖像+啁啾鳥的聲音,并檢索包含這些概念的圖像,就得到了有鳥和水果的樹的圖片。
通過這個特點,我們可以在沒有重新訓(xùn)練的情況下,借助使用其他模態(tài)的 ImageBind 模型來升級已有的基于 CLIP 的視覺模型。
2) 將基于文本的檢測器升級為基于音頻的檢測器
預(yù)訓(xùn)練的基于文本的檢測模型 Detic,簡單地將其基于 CLIP 的 text Embedding 替換為 ImageBind 的 audio 嵌入。在沒有訓(xùn)練的情況下,就得到了一個基于 audio 的檢測器,可以根據(jù)音頻提示檢測和分割對象。如下圖9所示,輸入狗叫的聲音,可以定位出狗的位置。輸入敲擊鍵盤的聲音,可以對鍵盤進(jìn)行分割。
3) 將基于文本的擴(kuò)散模型升級為基于音頻的擴(kuò)散模型
作者使用預(yù)訓(xùn)練的 DALLE-2 擴(kuò)散模型并將其 Prompt Embedding 替換為 ImageBind 的 audio 嵌入。這樣就得到了一個基于 audio 的擴(kuò)散模型。如圖1所示,作者觀察到可以利用擴(kuò)散模型使用不同類型的聲音生成合理的圖像。
參考
-
^Representation Learning with Contrastive Predictive Coding

公眾號后臺回復(fù)“極市直播”獲取100+期極市技術(shù)直播回放+PPT
極市干貨
# 極市平臺簽約作者#
科技猛獸
知乎:科技猛獸
清華大學(xué)自動化系19級碩士
研究領(lǐng)域:AI邊緣計算 (Efficient AI with Tiny Resource):專注模型壓縮,搜索,量化,加速,加法網(wǎng)絡(luò),以及它們與其他任務(wù)的結(jié)合,更好地服務(wù)于端側(cè)設(shè)備。
作品精選
