操操插插,无码一区二区三,成人在线18,欧美丰满少妇人妻精品,在线免费看黄视频,我要操逼,九九黄色小视频,玖玖国产在线

點擊下方卡片，關(guān)注“CVer”公眾號

AI/CV重磅干貨，第一時間送達

轉(zhuǎn)載自：機器之心? |? 編輯：杜偉、陳萍

這個 BLIP 模型可以「看圖說話」，提取圖像的主要內(nèi)容，不僅如此，它還能回答你提出的關(guān)于圖像的問題。

視覺 - 語言預(yù)訓(xùn)練 (Vision-Language Pre-training，VLP) 提高了許多視覺 - 語言任務(wù)的性能。然而，大多數(shù)現(xiàn)有的預(yù)訓(xùn)練模型只能在基于理解任務(wù)或基于生成任務(wù)中表現(xiàn)出色。

現(xiàn)有的 VLP 方法主要存在兩個局限性：

（1）從模型角度來講，大多數(shù)方法采用基于編碼器的模型，或者采用基于編碼器 - 解碼器模型。然而，基于編碼器的模型很難直接轉(zhuǎn)換到文本生成任務(wù)中，而編碼器 - 解碼器模型還沒有成功地用于圖像 - 文本檢索任務(wù)；

（2）從數(shù)據(jù)角度來講，像 CLIP、SimVLM 等 SOTA 模型通過在 web 上收集的圖像 - 文本對進行預(yù)訓(xùn)練，盡管擴大數(shù)據(jù)集獲得了性能提升，但 web 上的文本具有噪聲，對 VLP 來說并不是最優(yōu)。?

近日，來自 Salesforce Research 的研究者提出了 BLIP（Bootstrapping Language-Image Pre-training），用于統(tǒng)一視覺 - 語言理解和生成任務(wù)。BLIP 是一個新的 VLP 框架，可以支持比現(xiàn)有方法更廣泛的下游任務(wù)。BLIP 通過自展標注（bootstrapping the captions），可以有效地利用帶有噪聲的 web 數(shù)據(jù)，其中標注器（captioner）生成標注，過濾器（filter）去除有噪聲的標注。

該研究在視覺 - 語言任務(wù)上取得了 SOTA 性能，例如在圖像 - 文本檢索任務(wù)上， recall@1 提高 2.7%；在圖像標注任務(wù)上，CIDEr 提高 2.8%、VQA 提高 +1.6%。當將 BLIP 以零樣本的方式直接遷移到視頻 - 語言任務(wù)時，BLIP 也表現(xiàn)出很強的泛化能力。

論文一作為Salesforce亞洲研究院高級研究科學(xué)家Junnan Li，香港大學(xué)電子工程學(xué)士，新加坡國立大學(xué)計算機科學(xué)博士。他的主要研究興趣在于自監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)、弱監(jiān)督學(xué)習(xí)、遷移學(xué)習(xí)以及視覺與語言。?

論文地址：https://arxiv.org/pdf/2201.12086.pdf
代碼地址：https://github.com/salesforce/BLIP
試玩地址：https://huggingface.co/spaces/akhaliq/BLIP

BLIP 的效果如何呢？用戶只需上傳一張圖像，或單擊內(nèi)置示例加載圖像就可完成。

BLIP 模型具有兩個功能：圖像標注和回答問題。這里，我們上傳了貓咪和狗的圖片：在圖像標注這一功能下，模型輸出「caption: a puppy and a kitten sitting in the grass（一只小狗和一只小貓坐在草地上）」（如下圖紅框所示）。

在回答問題功能下：當我們輸入問題「what is the color of the puppy（小狗的顏色是什么）」，模型輸出「tan（棕黃色）」。

上傳著名油畫《星夜》，在圖像標注功能下模型輸出「caption: a painting of a starry night over a city（一幅描繪城市星空的畫）」。

上傳經(jīng)典動畫《龍貓》，向模型提問「who is standing next to totoro（誰坐在龍貓旁邊）」，模型回答「little girl（小女孩）」。

架構(gòu) & 方法

研究者提出的 BLIP 是一個統(tǒng)一的視覺語言預(yù)訓(xùn)練（vision-language pre-training, VLP）框架，從有噪聲的圖像文本對中學(xué)習(xí)。接下來詳細解讀模型架構(gòu) MED（mixture of encoder-decoder）、它的預(yù)訓(xùn)練目標以及用于數(shù)據(jù)集自展的方法 CapFilt。下圖 2 為 BLIP 的預(yù)訓(xùn)練模型架構(gòu)和目標。

動態(tài)運行示意圖如下：

模型架構(gòu)

研究者將一個視覺 transformer 用作圖像編碼器，該編碼器將輸入圖像分解為 patch，然后將這些 patch 編碼為序列嵌入，并使用一個額外的[CLS] token 表征全局圖像特征。相較于將預(yù)訓(xùn)練目標檢測器用于視覺特征提取的方法，使用 ViT 在計算上更友好，并且已被最近很多方法所采用。

為了預(yù)訓(xùn)練一個具備理解和生成能力的統(tǒng)一模型，研究者提出了多任務(wù)模型 MED（mixture of encoder-decoder），它可以執(zhí)行以下三種功能的任意一種：

單峰編碼器
基于圖像的文本編碼器
基于圖像的文本解碼器

?預(yù)訓(xùn)練目標

研究者在預(yù)訓(xùn)練過程中共同優(yōu)化了三個目標，分別是兩個基于理解的目標和一個基于生成的目標。每個圖像文本對只需要一個前向傳播通過計算更重（computational-heavier）的視覺 transformer，需要三個前向傳播通過文本 transformer，其中激活不同的功能以計算以下 3 個損失，分別是：

圖像文本對比損失（image-text contrastive loss, ITC），激活單峰編碼器，旨在通過鼓勵正圖像文本對（而非負對）具有相似的表征來對齊視覺與文本 transformer 的特征空間；
圖像文本匹配損失（image-text matching loss, ITM），激活基于圖像的文本編碼器，旨在學(xué)習(xí)捕獲視覺與語言之間細粒度對齊的圖像文本多模態(tài)表征；
語言建模損失（language modeling loss, LM），激活基于圖像的文本解碼器，旨在給定一張圖像時生成文本描述。

為了在利用多任務(wù)學(xué)習(xí)的同時實現(xiàn)高效的預(yù)訓(xùn)練，文本編碼器和解碼器必須共享除自注意力（self-attention, SA）層之外的所有參數(shù)。具體地，編碼器使用雙向自注意力為當前輸入 token 構(gòu)建表征，同時解碼器使用因果自注意力預(yù)測接下來的 token。

另外，嵌入層、交叉注意力（cross attention, CA）層和 FFN 在編碼和解碼任務(wù)之間功能類似，因此共享這些層可以提升訓(xùn)練效率并能從多任務(wù)學(xué)習(xí)中獲益。

?CapFilt?

研究者提出了一種提升文本語料庫質(zhì)量的新方法——CapFilt（Captioning and Filtering）。如下圖 3 所示，CapFilt 引入了兩個主要的模塊：一個是為給定 web 圖像生成標注的標注器（captioner），另一個是消除有噪聲圖像文本對的過濾器（filter）。這兩個模塊都源于同一個預(yù)訓(xùn)練 MED 模型，并各自在 COCO 數(shù)據(jù)集上微調(diào)。

具體地，標注器是一個基于圖像的文本解碼器。它利用 LM 目標進行微調(diào)，以解碼給定圖像的文本。比如，給定 web 圖像 I_w，則標注器生成標注 T_s，其中每張圖像一個標注。

過濾器是一個基于圖像的文本編碼器。它利用 ITC 和 ITM 目標進行微調(diào)，以學(xué)習(xí)文本是否與圖像匹配。過濾器消除原始 web 文本 T_w 和合成文本 T_s 中的噪聲文本，其中如果 ITM 頭（head）預(yù)測一個文本與圖像不匹配，則該文本被認為有噪聲。

最后，研究者將過濾后的圖像文本對于人工注釋對相結(jié)合以生成一個新的數(shù)據(jù)集，并用它預(yù)訓(xùn)練了新模型。

實驗結(jié)果

研究者在 PyTorch 中實現(xiàn)模型，并在兩個 16-GPU 節(jié)點上預(yù)訓(xùn)練模型。其中，圖像 transformer 源于在 ImageNet 上預(yù)訓(xùn)練的 ViT，文本 transformer 源于 BERT_base。

CapFilt 的效果

下表 1 中，研究者比較了在不同數(shù)據(jù)集上預(yù)訓(xùn)練的模型，以驗證 CapFilt 在下游任務(wù)（包括微調(diào)和零樣本設(shè)置下的圖像文本檢索和圖像標注）上的效用。

下圖 4 中給出了一些標注示例以及對應(yīng)的圖像，從而在質(zhì)量上驗證了標注器有效地生成新的文本描述，過濾器有效地消除原始 web 文本和合成文本中的噪聲標注。

合成標注的關(guān)鍵：多樣性?

在 CapFilt 方法中，研究者使用一種隨機解碼方法——核抽樣（nucleus sampling）來生成合成標注。下表 2 中與束搜索（beam search）方法進行了比較，可以看到核抽樣取得了更好的數(shù)據(jù)結(jié)果，盡管由于過濾器更高的噪聲比導(dǎo)致了更大的噪聲。

參數(shù)共享與解耦

在預(yù)訓(xùn)練中，文本編碼器和解碼器共享所有參數(shù)，除自注意力層外。表 3 評估了使用不同參數(shù)共享策略進行預(yù)訓(xùn)練的模型性能，其中預(yù)訓(xùn)練是在 14M 帶有 web 文本的圖像上進行的。

結(jié)果表明，除 SA 外，所有層具有參數(shù)共享優(yōu)于那些沒有進行參數(shù)共享的，同時也減少了模型的大小，從而提高了訓(xùn)練效率。

在 CapFilt 中，標注器和過濾器分別在 COCO 上進行了端到端的微調(diào)，表 4 研究了標注器和過濾器以共享參數(shù)的方式進行預(yù)訓(xùn)練的影響。

由于參數(shù)共享，標注器產(chǎn)生的噪聲標注不會被過濾器過濾掉，這可以從較低的噪聲比 (8% 比 25%) 看出。

與 SOTA 模型進行比較

該研究將 BLIP 與 VLP 模型在視覺 - 語言下游任務(wù)上進行了比較。如表 5 所示，與現(xiàn)有方法相比，BLIP 實現(xiàn)了性能改進。使用相同的 14M 預(yù)訓(xùn)練圖像，BLIP 在 COCO 上的 recall@1 比之前的最佳模型 ALBEF 高 2.7%。

該研究還通過將在 COCO 上微調(diào)的模型直接遷移到 Flickr30K 來執(zhí)行零樣本檢索。結(jié)果如表 6 所示，BLIP 也大大優(yōu)于現(xiàn)有方法。

在圖像標注任務(wù)上，該研究采用兩個數(shù)據(jù)集：NoCaps 和 COCO，兩者都使用在 COCO 上微調(diào)并具有 LM 損失的模型進行評估。如表 7 所示，使用 14M 預(yù)訓(xùn)練圖像的 BLIP 顯著優(yōu)于使用相似數(shù)量的預(yù)訓(xùn)練數(shù)據(jù)的方法。使用 129M 圖片的 BLIP 與使用 200M 圖片的 LEMON 相比，具有相媲美性能。

視覺問答 (VQA) 要求模型在給定圖像和問題的情況下預(yù)測答案。該研究沒有將 VQA 制定為多答案分類任務(wù)，而是遵循 Li 等人研究將其視為一個答案生成任務(wù)，它支持開放式 VQA。

結(jié)果如表 8 所示，在測試集上，使用 14M 圖像，BLIP 的性能比 ALBEF 高出 1.64%。使用 129M 圖像，BLIP 比 SimVLM 獲得了更好的性能，而 SimVLM 使用了 13 倍多的預(yù)訓(xùn)練數(shù)據(jù)和更大的視覺骨干，并附加了一個卷積階段。

更多實驗數(shù)據(jù)請參見原論文。

這個預(yù)訓(xùn)練不簡單！BLIP：統(tǒng)一視覺-語言理解和生成任務(wù)

這個預(yù)訓(xùn)練不簡單！BLIP：統(tǒng)一視覺-語言理解和生成任務(wù)