<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          看圖說話!MDETR:實現(xiàn)真正的端到端多模態(tài)推理|ICCV 2021 Oral

          共 4474字,需瀏覽 9分鐘

           ·

          2021-08-01 14:09

          點擊下方AI算法與圖像處理”,一起進步!

          重磅干貨,第一時間送達

          作者丨小馬
          編輯丨極市平臺

          導讀

           

          本文提出了MDETR,一種端到端調(diào)制檢測器,能夠根據(jù)原始文本query直接來檢測圖像中的目標,基于Transformer的結(jié)構(gòu),通過在模型的早期階段融合這兩種模態(tài)的信息,來對文本和圖像進行共同的推理。在檢測和多個下游任務(wù)上都取得了SOTA的性能。

          寫在前面

          目前,多模態(tài)推理模型大多都依賴于預先訓練好的目標檢測器來從圖像中提取proposal。然而檢測器只能檢測出固定類別的目標,這使得模型很難適應(yīng)自由文本中視覺concept的長尾分布,因此本文提出了MDETR,一種端到端調(diào)制檢測器,能夠根據(jù)原始文本query直接來檢測圖像中的目標,基于Transformer的結(jié)構(gòu),通過在模型的早期階段融合這兩種模態(tài)的信息,來對文本和圖像進行共同的推理。最終,MDETR在檢測和多個下游任務(wù)上都取得了SOTA的性能。

          1. 論文和代碼地址

          論文地址:https://arxiv.org/abs/2104.12763

          代碼地址:https://github.com/ashkamath/mdetr

          2. Motivation

          在SOTA的多模態(tài)語義理解系統(tǒng)中,通常會采用目標檢測網(wǎng)絡(luò)從圖像中提取proposal。

          這樣的處理方式會導致一些問題,比如不適用于一些下游任務(wù)、成為模型性能提升的瓶頸等等。除此之外,由于在模型的訓練過程中,目標檢測網(wǎng)絡(luò)的參數(shù)通常是被固定的,這就會進一步影響模型的感知能力;另外,使用的檢測網(wǎng)絡(luò)提取的特征,也會導致模型只能訪問到檢測區(qū)域的信息,不能感知整張圖片的信息。因此,在視覺-語言的跨模態(tài)任務(wù)中,這樣的方式就會導致語言和視覺信息的交互限制在了語言信息和檢測結(jié)果之間的交互,極大地影響了模型的性能上限。

          因此,本文的作者基于DETR,提出了一個端到端的調(diào)制檢測器MDETR,結(jié)合訓練數(shù)據(jù)中的自然語言理解來執(zhí)行目標檢測任務(wù),真正實現(xiàn)了端到端的多模態(tài)推理。在訓練過程中,MDETR將文本和檢測框的對齊作為一種監(jiān)督信號。

          不同于目前的目標檢測網(wǎng)絡(luò),MDETR能夠檢測出自由形式文本中的concept,然后泛化到?jīng)]見過的類別和屬性的組合。(如下圖所示,對于 “A pink elephant”,雖然MDETR在訓練過程中沒有見過粉色和藍色的大象,但是依舊能夠推理檢測出正確顏色的大象。)

          通過200,000張圖片的預訓練,MDETR基于Flickr30k數(shù)據(jù)集,在phrase grounding任務(wù)上SOTA;基于RefCOCO/+/g數(shù)據(jù)集,在REC任務(wù)上SOTA;基于Phrase Cut數(shù)據(jù)集 ,在RES任務(wù)上SOTA;基于GQA和CLEVR數(shù)據(jù)集,在VQA任務(wù)上也到了比較好的性能。

          3. 方法

          3.1. Background

          本文提出的MDETR基于DETR[1]模型,DETR是一個由Backbone和Transformer Encoder-Decoder組成的端到端目標檢測網(wǎng)絡(luò)(DETR結(jié)構(gòu)如下圖所示)。

          DETR首先將圖片經(jīng)過一個CNN backbone生成視覺特征,然后將這些視覺特征flatten之后,加上position encoding,送入到Transformer的Encoder中。Decoder的輸入為N個可學習的embedding,原文中叫做object queries,這些queries可以被視為模型需要填充檢測目標的插槽。

          這些object queries送入到decoder之后,采用cross-attention層,與encoded的圖像特征做信息交互,并預測每個query的輸出embedding。

          最后每個query的輸出embedding通過一個參數(shù)共享的FFN來預測框的坐標和類別標簽。

          因為每個query負責預測一個框,所以預設(shè)的query數(shù)量是圖像中object數(shù)量的上界。由于圖像中的實際對象數(shù)量可能小于的query數(shù)量N,作者使用一個與“無對象”對應(yīng)的額外類標簽,由表示。

          DETR在訓練過程中采用了Hungarian matching loss,用來計算N和queries對應(yīng)的object和ground-truth的二分匹配。每個匹配的對象都使用相應(yīng)的目標作為ground truth進行監(jiān)督,而不匹配的對象則用“無對象”標簽進行監(jiān)督。

          分類的head用cross-entropy進行監(jiān)督,bounding box的head用L1 Loss和廣義IoU進行監(jiān)督。

          3.2. MDETR

          3.2.1. Architecture

          MDETR的結(jié)構(gòu)如上圖所示。

          對于圖像模型,MDETR采用的是一個CNN backbone來提取視覺特征,然后加上二維的位置編碼;對于語言模態(tài),作者采用了一個預訓練好的Transformer語言模型來生成與輸入值相同大小的hidden state。然后作者采用了一個模態(tài)相關(guān)的Linear Projection將圖像和文本特征映射到一個共享的embedding空間。

          接著,將圖像embedding和語言embedding進行concat,生成一個樣本的圖像和文本特征序列。這個序列特征首先被送入到一個Cross Encoder進行處理,后面的步驟就和DETR一樣,設(shè)置Object Query用于預測目標框。

          3.2.2. Training

          除了DETR的損失函數(shù),作者提出了兩個額外的loss用于圖像和文本的對齊。第一個是soft token prediction loss,是一個無參數(shù)的對齊損失;第二個是text-query contrastive alignment loss,是一個有參數(shù)的損失函數(shù),用于拉近對齊的query和token的相似度。

          Soft token prediction

          不同于傳統(tǒng)的目標檢測,modulated detection不是對每一個檢測到的物體都感興趣,而是只對原始文本中出現(xiàn)的object感興趣。

          首先,作者把token的最大數(shù)量設(shè)置為256。對于每一個與GT匹配的預測框,模型被訓練用來預測在所有token位置上的分布。上圖展示了一個例子,貓的預測框被訓練來預測前兩個單詞的分布,下圖展示了該例子soft token prediction loss的可視化結(jié)果。

          文本與圖像是“多對多”的關(guān)系,文本中的幾個單詞可以對應(yīng)于圖像中的同一對象,相反,幾個對象可以對應(yīng)于同一文本。

          Contrastive alignment

          soft token prediction loss是用于目標和文本位置的對齊,contrastive alignment loss用于加強視覺和文本embedded特征表示的對齊,確保對齊的視覺特征表示和語言特征表示在特征空間上是比較接近的。這個損失函數(shù)不是作用于位置,而是直接作用在特征層面,提高對應(yīng)樣本之間的相似度。

          這個損失函數(shù)采用了參考了對比學習中的InfoNCE,可以表示成下面的公式:

          在實驗中,作者采用了這兩個損失函數(shù)的平均值當做contrastive alignment loss。

          4.實驗

          4.1. Synthetic Images

          上圖為在 CLEVR數(shù)據(jù)集上訓練示意圖

          可以看出,本文的方法超過了不使用額外監(jiān)督信號的方法,和NS-VQA(采用了額外的監(jiān)督信號)性能相似。

          4.2. Natural Images

          對于句子“the person in the grey shirt with a watch on their wrist. the other person wearing a blue sweater. the third person in a gray coat and scarf.”,模型能夠準確地根據(jù)描述,檢測出不同屬性的三個人。

          4.3. Phrase grounding

          Flickr30k實體數(shù)據(jù)集上,Phrase grounding任務(wù)的結(jié)果

          4.4. Referring expression comprehension

          上表為REC的準確性結(jié)果,可以看出本文的方法相比于其他預訓練方法有較大的性能優(yōu)勢。

          4.5. Visual Question Answering

          在GQA數(shù)據(jù)集上VQA結(jié)果 ,可以看出MDETR也能取得比較好的結(jié)果。

          4.6.  Few-shot transfer for long-tailed detection

          相比于DETR,在少樣本的長尾數(shù)據(jù)集檢測任務(wù)上,MDETR也能取得比較好的效果。

          5. 總結(jié)

          本文提出了MDETR,一個完全可微的調(diào)制檢測器。在各種數(shù)據(jù)集上,MDETR在多模態(tài)理解任務(wù)上都取得了不錯的性能,并且在各種下游任務(wù)中也取得了非常好的性能。除此之外,本文的MDETR還去掉了用目標檢測器來提取特征,使得各種任務(wù)的性能上限得到了提升,因為目標檢測器一定程度上可能成為影響性能提升的瓶頸。

          參考文獻

          [1]. Carion, Nicolas, et al. "End-to-end object detection with transformers." European Conference on Computer Vision . Springer, Cham, 2020.


          本文亮點總結(jié)


          1.本文的作者基于DETR,提出了一個端到端的調(diào)制檢測器MDETR,結(jié)合訓練數(shù)據(jù)中的自然語言理解來執(zhí)行目標檢測任務(wù),真正實現(xiàn)了端到端的多模態(tài)推理。在訓練過程中,MDETR將文本和檢測框的對齊作為一種監(jiān)督信號。

          2.除了DETR的損失函數(shù),作者提出了兩個額外的loss用于圖像和文本的對齊。第一個是soft token prediction loss,是一個無參數(shù)的對齊損失;第二個是text-query contrastive alignment loss,是一個有參數(shù)的損失函數(shù),用于拉近對齊的query和token的相似度。

          努力分享優(yōu)質(zhì)的計算機視覺相關(guān)內(nèi)容,歡迎關(guān)注:

          個人微信(如果沒有備注不拉群!
          請注明:地區(qū)+學校/企業(yè)+研究方向+昵稱



          下載1:何愷明頂會分享


          AI算法與圖像處理」公眾號后臺回復:何愷明,即可下載。總共有6份PDF,涉及 ResNet、Mask RCNN等經(jīng)典工作的總結(jié)分析


          下載2:終身受益的編程指南:Google編程風格指南


          AI算法與圖像處理」公眾號后臺回復:c++,即可下載。歷經(jīng)十年考驗,最權(quán)威的編程規(guī)范!



          下載3 CVPR2021

          AI算法與圖像處公眾號后臺回復:CVPR,即可下載1467篇CVPR 2020論文 和 CVPR 2021 最新論文

          點亮 ,告訴大家你也在看



          瀏覽 27
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  欧美三级欧美成人高清 | 天堂国产在线观看 | 天天日天天色 | 日皮视频在线观看官网免费 | 亚洲精品综合 |