<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          這個預(yù)訓(xùn)練不簡單!BLIP:統(tǒng)一視覺-語言理解和生成任務(wù)

          共 4399字,需瀏覽 9分鐘

           ·

          2022-02-12 08:07

          點擊下方卡片,關(guān)注“CVer”公眾號

          AI/CV重磅干貨,第一時間送達

          轉(zhuǎn)載自:機器之心? |? 編輯:杜偉、陳萍
          這個 BLIP 模型可以「看圖說話」,提取圖像的主要內(nèi)容,不僅如此,它還能回答你提出的關(guān)于圖像的問題。

          視覺 - 語言預(yù)訓(xùn)練 (Vision-Language Pre-training,VLP) 提高了許多視覺 - 語言任務(wù)的性能。然而,大多數(shù)現(xiàn)有的預(yù)訓(xùn)練模型只能在基于理解任務(wù)或基于生成任務(wù)中表現(xiàn)出色。

          現(xiàn)有的 VLP 方法主要存在兩個局限性:

          (1)從模型角度來講,大多數(shù)方法采用基于編碼器的模型,或者采用基于編碼器 - 解碼器模型。然而,基于編碼器的模型很難直接轉(zhuǎn)換到文本生成任務(wù)中,而編碼器 - 解碼器模型還沒有成功地用于圖像 - 文本檢索任務(wù);
          (2)從數(shù)據(jù)角度來講,像 CLIP、SimVLM 等 SOTA 模型通過在 web 上收集的圖像 - 文本對進行預(yù)訓(xùn)練,盡管擴大數(shù)據(jù)集獲得了性能提升,但 web 上的文本具有噪聲,對 VLP 來說并不是最優(yōu)。?

          近日,來自 Salesforce Research 的研究者提出了 BLIP(Bootstrapping Language-Image Pre-training),用于統(tǒng)一視覺 - 語言理解和生成任務(wù)。BLIP 是一個新的 VLP 框架,可以支持比現(xiàn)有方法更廣泛的下游任務(wù)。BLIP 通過自展標注(bootstrapping the captions),可以有效地利用帶有噪聲的 web 數(shù)據(jù),其中標注器(captioner)生成標注,過濾器(filter)去除有噪聲的標注。

          該研究在視覺 - 語言任務(wù)上取得了 SOTA 性能,例如在圖像 - 文本檢索任務(wù)上, recall@1 提高 2.7%;在圖像標注任務(wù)上,CIDEr 提高 2.8%、VQA 提高 +1.6%。當將 BLIP 以零樣本的方式直接遷移到視頻 - 語言任務(wù)時,BLIP 也表現(xiàn)出很強的泛化能力。

          論文一作為Salesforce亞洲研究院高級研究科學(xué)家Junnan Li,香港大學(xué)電子工程學(xué)士,新加坡國立大學(xué)計算機科學(xué)博士。他的主要研究興趣在于自監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)、弱監(jiān)督學(xué)習(xí)、遷移學(xué)習(xí)以及視覺與語言。?


          • 論文地址:https://arxiv.org/pdf/2201.12086.pdf

          • 代碼地址:https://github.com/salesforce/BLIP

          • 試玩地址:https://huggingface.co/spaces/akhaliq/BLIP


          BLIP 的效果如何呢?用戶只需上傳一張圖像,或單擊內(nèi)置示例加載圖像就可完成。

          BLIP 模型具有兩個功能:圖像標注和回答問題。這里,我們上傳了貓咪和狗的圖片:在圖像標注這一功能下,模型輸出「caption: a puppy and a kitten sitting in the grass(一只小狗和一只小貓坐在草地上)」(如下圖紅框所示)。


          在回答問題功能下:當我們輸入問題「what is the color of the puppy(小狗的顏色是什么)」,模型輸出「tan(棕黃色)」。


          上傳著名油畫《星夜》,在圖像標注功能下模型輸出「caption: a painting of a starry night over a city(一幅描繪城市星空的畫)」。


          上傳經(jīng)典動畫《龍貓》,向模型提問「who is standing next to totoro(誰坐在龍貓旁邊)」,模型回答「little girl(小女孩)」。


          架構(gòu) & 方法

          研究者提出的 BLIP 是一個統(tǒng)一的視覺語言預(yù)訓(xùn)練(vision-language pre-training, VLP)框架,從有噪聲的圖像文本對中學(xué)習(xí)。接下來詳細解讀模型架構(gòu) MED(mixture of encoder-decoder)、它的預(yù)訓(xùn)練目標以及用于數(shù)據(jù)集自展的方法 CapFilt。下圖 2 為 BLIP 的預(yù)訓(xùn)練模型架構(gòu)和目標。


          動態(tài)運行示意圖如下:


          模型架構(gòu)

          研究者將一個視覺 transformer 用作圖像編碼器,該編碼器將輸入圖像分解為 patch,然后將這些 patch 編碼為序列嵌入,并使用一個額外的[CLS] token 表征全局圖像特征。相較于將預(yù)訓(xùn)練目標檢測器用于視覺特征提取的方法,使用 ViT 在計算上更友好,并且已被最近很多方法所采用。

          為了預(yù)訓(xùn)練一個具備理解和生成能力的統(tǒng)一模型,研究者提出了多任務(wù)模型 MED(mixture of encoder-decoder),它可以執(zhí)行以下三種功能的任意一種:

          • 單峰編碼器

          • 基于圖像的文本編碼器

          • 基于圖像的文本解碼器


          ?預(yù)訓(xùn)練目標

          研究者在預(yù)訓(xùn)練過程中共同優(yōu)化了三個目標,分別是兩個基于理解的目標和一個基于生成的目標。每個圖像文本對只需要一個前向傳播通過計算更重(computational-heavier)的視覺 transformer,需要三個前向傳播通過文本 transformer,其中激活不同的功能以計算以下 3 個損失,分別是:

          • 圖像文本對比損失(image-text contrastive loss, ITC),激活單峰編碼器,旨在通過鼓勵正圖像文本對(而非負對)具有相似的表征來對齊視覺與文本 transformer 的特征空間;

          • 圖像文本匹配損失(image-text matching loss, ITM),激活基于圖像的文本編碼器,旨在學(xué)習(xí)捕獲視覺與語言之間細粒度對齊的圖像文本多模態(tài)表征;

          • 語言建模損失(language modeling loss, LM),激活基于圖像的文本解碼器,旨在給定一張圖像時生成文本描述。


          為了在利用多任務(wù)學(xué)習(xí)的同時實現(xiàn)高效的預(yù)訓(xùn)練,文本編碼器和解碼器必須共享除自注意力(self-attention, SA)層之外的所有參數(shù)。具體地,編碼器使用雙向自注意力為當前輸入 token 構(gòu)建表征,同時解碼器使用因果自注意力預(yù)測接下來的 token。

          另外,嵌入層、交叉注意力(cross attention, CA)層和 FFN 在編碼和解碼任務(wù)之間功能類似,因此共享這些層可以提升訓(xùn)練效率并能從多任務(wù)學(xué)習(xí)中獲益。

          ?CapFilt?

          研究者提出了一種提升文本語料庫質(zhì)量的新方法——CapFilt(Captioning and Filtering)。如下圖 3 所示,CapFilt 引入了兩個主要的模塊:一個是為給定 web 圖像生成標注的標注器(captioner),另一個是消除有噪聲圖像文本對的過濾器(filter)。這兩個模塊都源于同一個預(yù)訓(xùn)練 MED 模型,并各自在 COCO 數(shù)據(jù)集上微調(diào)。


          具體地,標注器是一個基于圖像的文本解碼器。它利用 LM 目標進行微調(diào),以解碼給定圖像的文本。比如,給定 web 圖像 I_w,則標注器生成標注 T_s,其中每張圖像一個標注。

          過濾器是一個基于圖像的文本編碼器。它利用 ITC 和 ITM 目標進行微調(diào),以學(xué)習(xí)文本是否與圖像匹配。過濾器消除原始 web 文本 T_w 和合成文本 T_s 中的噪聲文本,其中如果 ITM 頭(head)預(yù)測一個文本與圖像不匹配,則該文本被認為有噪聲。

          最后,研究者將過濾后的圖像文本對于人工注釋對相結(jié)合以生成一個新的數(shù)據(jù)集,并用它預(yù)訓(xùn)練了新模型。

          實驗結(jié)果

          研究者在 PyTorch 中實現(xiàn)模型,并在兩個 16-GPU 節(jié)點上預(yù)訓(xùn)練模型。其中,圖像 transformer 源于在 ImageNet 上預(yù)訓(xùn)練的 ViT,文本 transformer 源于 BERT_base。

          CapFilt 的效果

          下表 1 中,研究者比較了在不同數(shù)據(jù)集上預(yù)訓(xùn)練的模型,以驗證 CapFilt 在下游任務(wù)(包括微調(diào)和零樣本設(shè)置下的圖像文本檢索和圖像標注)上的效用。


          下圖 4 中給出了一些標注示例以及對應(yīng)的圖像,從而在質(zhì)量上驗證了標注器有效地生成新的文本描述,過濾器有效地消除原始 web 文本和合成文本中的噪聲標注。


          合成標注的關(guān)鍵:多樣性?

          在 CapFilt 方法中,研究者使用一種隨機解碼方法——核抽樣(nucleus sampling)來生成合成標注。下表 2 中與束搜索(beam search)方法進行了比較,可以看到核抽樣取得了更好的數(shù)據(jù)結(jié)果,盡管由于過濾器更高的噪聲比導(dǎo)致了更大的噪聲。


          參數(shù)共享與解耦

          在預(yù)訓(xùn)練中,文本編碼器和解碼器共享所有參數(shù),除自注意力層外。表 3 評估了使用不同參數(shù)共享策略進行預(yù)訓(xùn)練的模型性能,其中預(yù)訓(xùn)練是在 14M 帶有 web 文本的圖像上進行的。

          結(jié)果表明,除 SA 外,所有層具有參數(shù)共享優(yōu)于那些沒有進行參數(shù)共享的,同時也減少了模型的大小,從而提高了訓(xùn)練效率。


          在 CapFilt 中,標注器和過濾器分別在 COCO 上進行了端到端的微調(diào),表 4 研究了標注器和過濾器以共享參數(shù)的方式進行預(yù)訓(xùn)練的影響。

          由于參數(shù)共享,標注器產(chǎn)生的噪聲標注不會被過濾器過濾掉,這可以從較低的噪聲比 (8% 比 25%) 看出。


          與 SOTA 模型進行比較

          該研究將 BLIP 與 VLP 模型在視覺 - 語言下游任務(wù)上進行了比較。如表 5 所示,與現(xiàn)有方法相比,BLIP 實現(xiàn)了性能改進。使用相同的 14M 預(yù)訓(xùn)練圖像,BLIP 在 COCO 上的 recall@1 比之前的最佳模型 ALBEF 高 2.7%。


          該研究還通過將在 COCO 上微調(diào)的模型直接遷移到 Flickr30K 來執(zhí)行零樣本檢索。結(jié)果如表 6 所示,BLIP 也大大優(yōu)于現(xiàn)有方法。


          在圖像標注任務(wù)上,該研究采用兩個數(shù)據(jù)集:NoCaps 和 COCO,兩者都使用在 COCO 上微調(diào)并具有 LM 損失的模型進行評估。如表 7 所示,使用 14M 預(yù)訓(xùn)練圖像的 BLIP 顯著優(yōu)于使用相似數(shù)量的預(yù)訓(xùn)練數(shù)據(jù)的方法。使用 129M 圖片的 BLIP 與使用 200M 圖片的 LEMON 相比,具有相媲美性能。


          視覺問答 (VQA) 要求模型在給定圖像和問題的情況下預(yù)測答案。該研究沒有將 VQA 制定為多答案分類任務(wù),而是遵循 Li 等人研究將其視為一個答案生成任務(wù),它支持開放式 VQA。

          結(jié)果如表 8 所示,在測試集上,使用 14M 圖像,BLIP 的性能比 ALBEF 高出 1.64%。使用 129M 圖像,BLIP 比 SimVLM 獲得了更好的性能,而 SimVLM 使用了 13 倍多的預(yù)訓(xùn)練數(shù)據(jù)和更大的視覺骨干,并附加了一個卷積階段。


          更多實驗數(shù)據(jù)請參見原論文。

          瀏覽 223
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  日本欧美亚洲 | XXX久久久久监听 | 五月开心网 | 一级a一级a爰片免费免软件ww | 囯产精品99久久久久久WWW |