↑ 點擊藍字關注極市平臺

作者丨小馬

編輯丨極市平臺

極市導讀

本文提出了MDETR，一種端到端調(diào)制檢測器，能夠根據(jù)原始文本query直接來檢測圖像中的目標，基于Transformer的結(jié)構，通過在模型的早期階段融合這兩種模態(tài)的信息，來對文本和圖像進行共同的推理。在檢測和多個下游任務上都取得了SOTA的性能。 >>加入極市CV技術交流群，走在計算機視覺的最前沿

寫在前面

目前，多模態(tài)推理模型大多都依賴于預先訓練好的目標檢測器來從圖像中提取proposal。然而檢測器只能檢測出固定類別的目標，這使得模型很難適應自由文本中視覺concept的長尾分布，因此本文提出了MDETR，一種端到端調(diào)制檢測器，能夠根據(jù)原始文本query直接來檢測圖像中的目標，基于Transformer的結(jié)構，通過在模型的早期階段融合這兩種模態(tài)的信息，來對文本和圖像進行共同的推理。最終，MDETR在檢測和多個下游任務上都取得了SOTA的性能。

1. 論文和代碼地址

論文地址：https://arxiv.org/abs/2104.12763

代碼地址：https://github.com/ashkamath/mdetr

2. Motivation

在SOTA的多模態(tài)語義理解系統(tǒng)中，通常會采用目標檢測網(wǎng)絡從圖像中提取proposal。

這樣的處理方式會導致一些問題，比如不適用于一些下游任務、成為模型性能提升的瓶頸等等。除此之外，由于在模型的訓練過程中，目標檢測網(wǎng)絡的參數(shù)通常是被固定的，這就會進一步影響模型的感知能力；另外，使用的檢測網(wǎng)絡提取的特征，也會導致模型只能訪問到檢測區(qū)域的信息，不能感知整張圖片的信息。因此，在視覺-語言的跨模態(tài)任務中，這樣的方式就會導致語言和視覺信息的交互限制在了語言信息和檢測結(jié)果之間的交互，極大地影響了模型的性能上限。

因此，本文的作者基于DETR，提出了一個端到端的調(diào)制檢測器MDETR，結(jié)合訓練數(shù)據(jù)中的自然語言理解來執(zhí)行目標檢測任務，真正實現(xiàn)了端到端的多模態(tài)推理。在訓練過程中，MDETR將文本和檢測框的對齊作為一種監(jiān)督信號。

不同于目前的目標檢測網(wǎng)絡，MDETR能夠檢測出自由形式文本中的concept，然后泛化到?jīng)]見過的類別和屬性的組合。（如下圖所示，對于 “A pink elephant”，雖然MDETR在訓練過程中沒有見過粉色和藍色的大象，但是依舊能夠推理檢測出正確顏色的大象。）

通過200,000張圖片的預訓練，MDETR基于Flickr30k數(shù)據(jù)集，在phrase grounding任務上SOTA；基于RefCOCO/+/g數(shù)據(jù)集，在REC任務上SOTA；基于Phrase Cut數(shù)據(jù)集，在RES任務上SOTA；基于GQA和CLEVR數(shù)據(jù)集，在VQA任務上也到了比較好的性能。

3. 方法

3.1. Background

本文提出的MDETR基于DETR[1]模型，DETR是一個由Backbone和Transformer Encoder-Decoder組成的端到端目標檢測網(wǎng)絡（DETR結(jié)構如下圖所示）。

DETR首先將圖片經(jīng)過一個CNN backbone生成視覺特征，然后將這些視覺特征flatten之后，加上position encoding，送入到Transformer的Encoder中。Decoder的輸入為N個可學習的embedding，原文中叫做object queries，這些queries可以被視為模型需要填充檢測目標的插槽。

這些object queries送入到decoder之后，采用cross-attention層，與encoded的圖像特征做信息交互，并預測每個query的輸出embedding。

最后每個query的輸出embedding通過一個參數(shù)共享的FFN來預測框的坐標和類別標簽。

因為每個query負責預測一個框，所以預設的query數(shù)量是圖像中object數(shù)量的上界。由于圖像中的實際對象數(shù)量可能小于的query數(shù)量N，作者使用一個與“無對象”對應的額外類標簽，由表示。

DETR在訓練過程中采用了Hungarian matching loss，用來計算N和queries對應的object和ground-truth的二分匹配。每個匹配的對象都使用相應的目標作為ground truth進行監(jiān)督，而不匹配的對象則用“無對象”標簽進行監(jiān)督。

分類的head用cross-entropy進行監(jiān)督，bounding box的head用L1 Loss和廣義IoU進行監(jiān)督。

3.2. MDETR

3.2.1. Architecture

MDETR的結(jié)構如上圖所示。

對于圖像模型，MDETR采用的是一個CNN backbone來提取視覺特征，然后加上二維的位置編碼；對于語言模態(tài)，作者采用了一個預訓練好的Transformer語言模型來生成與輸入值相同大小的hidden state。然后作者采用了一個模態(tài)相關的Linear Projection將圖像和文本特征映射到一個共享的embedding空間。

接著，將圖像embedding和語言embedding進行concat，生成一個樣本的圖像和文本特征序列。這個序列特征首先被送入到一個Cross Encoder進行處理，后面的步驟就和DETR一樣，設置Object Query用于預測目標框。

3.2.2. Training

除了DETR的損失函數(shù)，作者提出了兩個額外的loss用于圖像和文本的對齊。第一個是soft token prediction loss，是一個無參數(shù)的對齊損失；第二個是text-query contrastive alignment loss，是一個有參數(shù)的損失函數(shù)，用于拉近對齊的query和token的相似度。

Soft token prediction

不同于傳統(tǒng)的目標檢測，modulated detection不是對每一個檢測到的物體都感興趣，而是只對原始文本中出現(xiàn)的object感興趣。

首先，作者把token的最大數(shù)量設置為256。對于每一個與GT匹配的預測框，模型被訓練用來預測在所有token位置上的分布。上圖展示了一個例子，貓的預測框被訓練來預測前兩個單詞的分布，下圖展示了該例子soft token prediction loss的可視化結(jié)果。

文本與圖像是“多對多”的關系，文本中的幾個單詞可以對應于圖像中的同一對象，相反，幾個對象可以對應于同一文本。

Contrastive alignment

soft token prediction loss是用于目標和文本位置的對齊，contrastive alignment loss用于加強視覺和文本embedded特征表示的對齊，確保對齊的視覺特征表示和語言特征表示在特征空間上是比較接近的。這個損失函數(shù)不是作用于位置，而是直接作用在特征層面，提高對應樣本之間的相似度。

這個損失函數(shù)采用了參考了對比學習中的InfoNCE，可以表示成下面的公式：

在實驗中，作者采用了這兩個損失函數(shù)的平均值當做contrastive alignment loss。

4.實驗

4.1. Synthetic Images

上圖為在 CLEVR數(shù)據(jù)集上訓練示意圖

可以看出，本文的方法超過了不使用額外監(jiān)督信號的方法，和NS-VQA（采用了額外的監(jiān)督信號）性能相似。

4.2. Natural Images

對于句子“the person in the grey shirt with a watch on their wrist. the other person wearing a blue sweater. the third person in a gray coat and scarf.”，模型能夠準確地根據(jù)描述，檢測出不同屬性的三個人。

4.3. Phrase grounding

Flickr30k實體數(shù)據(jù)集上，Phrase grounding任務的結(jié)果

4.4. Referring expression comprehension

上表為REC的準確性結(jié)果，可以看出本文的方法相比于其他預訓練方法有較大的性能優(yōu)勢。

4.5. Visual Question Answering

在GQA數(shù)據(jù)集上VQA結(jié)果，可以看出MDETR也能取得比較好的結(jié)果。

4.6. Few-shot transfer for long-tailed detection

相比于DETR，在少樣本的長尾數(shù)據(jù)集檢測任務上，MDETR也能取得比較好的效果。

5. 總結(jié)

本文提出了MDETR，一個完全可微的調(diào)制檢測器。在各種數(shù)據(jù)集上，MDETR在多模態(tài)理解任務上都取得了不錯的性能，并且在各種下游任務中也取得了非常好的性能。除此之外，本文的MDETR還去掉了用目標檢測器來提取特征，使得各種任務的性能上限得到了提升，因為目標檢測器一定程度上可能成為影響性能提升的瓶頸。

參考文獻

[1]. Carion, Nicolas, et al. "End-to-end object detection with transformers." European Conference on Computer Vision . Springer, Cham, 2020.

本文亮點總結(jié)

1.本文的作者基于DETR，提出了一個端到端的調(diào)制檢測器MDETR，結(jié)合訓練數(shù)據(jù)中的自然語言理解來執(zhí)行目標檢測任務，真正實現(xiàn)了端到端的多模態(tài)推理。在訓練過程中，MDETR將文本和檢測框的對齊作為一種監(jiān)督信號。

2.除了DETR的損失函數(shù)，作者提出了兩個額外的loss用于圖像和文本的對齊。第一個是soft token prediction loss，是一個無參數(shù)的對齊損失；第二個是text-query contrastive alignment loss，是一個有參數(shù)的損失函數(shù)，用于拉近對齊的query和token的相似度。

如果覺得有用，就請分享到朋友圈吧！

△點擊卡片關注極市平臺，獲取最新CV干貨

公眾號后臺回復“CVPR21檢測”獲取CVPR2021目標檢測論文下載～

極市干貨

YOLO教程：一文讀懂YOLO V5 與 YOLO V4｜大盤點｜YOLO 系目標檢測算法總覽｜全面解析YOLO V4網(wǎng)絡結(jié)構

實操教程：PyTorch vs LibTorch：網(wǎng)絡推理速度誰更快？｜只用兩行代碼，我讓Transformer推理加速了50倍｜PyTorch AutoGrad C++層實現(xiàn)

算法技巧（trick）：深度學習訓練tricks總結(jié)（有實驗支撐）｜深度強化學習調(diào)參Tricks合集｜長尾識別中的Tricks匯總（AAAI2021）