<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          完全基于Transformer的目標檢測器,ICLR匿名論文實現(xiàn)視覺、檢測統(tǒng)一

          共 3625字,需瀏覽 8分鐘

           ·

          2022-02-20 23:45

          點擊上方視學算法”,選擇加"星標"或“置頂

          重磅干貨,第一時間送達

          來源丨機器之心
          編輯丨極市平臺

          導(dǎo)讀

          ?

          一種新的集成視覺和檢測 Transformer 的目標檢測器 ViDT。ViDT 在現(xiàn)有的完全基于 transformer 的目標檢測器中獲得了最佳的 AP 和延遲權(quán)衡,其對大型模型的高可擴展性,可達 49.2AP。?

          Transformer 在 NLP 任務(wù)中取得不錯的發(fā)展,許多研究將其引入到計算機視覺任務(wù)中。毫不夸張的說,Transformer 正在改變計算機視覺的格局,尤其是在識別任務(wù)方面。例如 Detection transformer 是第一個用于目標檢測的、端到端的學習系統(tǒng),而 vision transformer 是第一個完全基于 transformer 的圖像分類架構(gòu)。在本文中,一篇被 ICLR 2022 接收的匿名論文集成了視覺和檢測 Transformer (Vision and Detection Transformer,ViDT) 來構(gòu)建有效且高效的目標檢測器。

          ViDT 引入了一個重新配置的注意力模塊(reconfigured attention module),將 Swin Transformer 擴展為一個獨立的目標檢測器,之后是一個計算高效的 Transformer 解碼器,該解碼器利用多尺度特征和輔助(auxiliary)技術(shù),在不增加計算負載的情況下提高檢測性能。

          在 Microsoft COCO 基準數(shù)據(jù)集上的評估表明,ViDT 在現(xiàn)有的完全基于 transformer 的目標檢測器中獲得了最佳的 AP 和延遲權(quán)衡,其對大型模型的高可擴展性,可達 49.2AP。

          論文地址:https://openreview.net/pdf?id=w4cXZDDib1H

          ViDT:視覺與檢測 Transformer

          ViDT 架構(gòu)如下圖 2 (c) 所示:

          • 首先,ViDT 引入了一種改進的注意力機制,名為 Reconfigured Attention Module (RAM),該模塊有助于 ViT 變體處理附加的 [DET(detection tokens)] 和 [PATCH(patch tokens)] token 以進行目標檢測。因此,ViDT 可以將最新的帶有 RAM 的 Swin Transformer 主干修改為目標檢測器,并利用其具有線性復(fù)雜度的局部注意力機制獲得高可擴展性;

          • 其次,ViDT 采用輕量級的無編碼器 neck 架構(gòu)來減少計算開銷,同時仍然在 neck 模塊上啟用額外的優(yōu)化技術(shù)。請注意,neck 編碼器是不必要的,因為 RAM 直接提取用于目標檢測的細粒度表示,即 [DET ] token。結(jié)果,ViDT 獲得了比 neck-free 對應(yīng)物更好的性能;

          • 最后,該研究引入了用于知識蒸餾的 token 匹配新概念,它可以在不影響檢測效率的情況下從大型模型到小型模型帶來額外的性能提升。

          RAM 模塊

          該研究引入了 RAM 模塊,它將與 [PATCH] 和 [DET] token 相關(guān)的單個全局注意力分解為三個不同的注意力,即 [PATCH]×[PATCH]、[DET]× [DET] 和 [DET] × [PATCH] 注意力。如圖 3 所示,通過共享 [DET] 和 [PATCH] token 的投影層,全部復(fù)用 Swin Transformer 的所有參數(shù),并執(zhí)行三種不同的注意力操作:

          ENCODER-FREE ?neck 結(jié)構(gòu)

          為了利用多尺度特征圖,ViDT 結(jié)合了多層可變形 transformer 解碼器。在 DETR 家族中(圖 2 (a)),其 neck 部分需要一個 transformer 編碼器,用于將從骨干中提取的用于圖像分類的特征轉(zhuǎn)換為適合目標檢測的特征;編碼器通常在計算上很昂貴,因為它涉及 [PATCH] × [PATCH] 注意力。然而,ViDT 只保留了一個 Transformer 解碼器作為其 neck,因為帶有 RAM 的 Swin Transformer 直接提取適合目標檢測的細粒度特征作為獨立的目標檢測器。因此,ViDT 的 neck 結(jié)構(gòu)在計算上是高效的。

          解碼器從帶有 RAM 的 Swin Transformer 接收兩個輸入:(1)從每個階段生成的 [PATCH] token(2)從最后階段生成的 [DET ] token,如圖 2 (c) 的 Neck 所示。在每個可變形的 transformer 層中,首先執(zhí)行 [DET] × [DET] 注意力。對于每個 [DET] token,應(yīng)用多尺度可變形注意力以生成一個新的 [DET] token,聚合從多尺度特征圖中采樣的一小組關(guān)鍵內(nèi)容:

          用于目標檢測的 token 匹配知識蒸餾

          雖然大型模型具有實現(xiàn)高性能的高容量,但在實際使用中它的計算成本可能很高。因此,該研究還提出了一種簡單的知識蒸餾方法,可以通過 token 匹配從大型 ViDT 模型中遷移知識。

          匹配每一層的所有 token 在訓練中非常低效,因此,該研究只匹配對預(yù)測貢獻最大的 token。兩組 token 直接相關(guān):(1)P:用作多尺度特征圖的 [PATCH] token 集合,由 body 中的每個階段生成,(2)D:[DET ] token 的集合,它們是從 neck 的每個解碼層生成的。因此,基于 token 匹配的蒸餾損失公式為:

          評估

          表 2 將 ViDT 與 DETR (ViT) 和 YOLOS 的 AP、FPS 等進行了比較,其中 DETR (ViT) 有兩個變體:DETR 和 Deformable DETR。

          實驗結(jié)果表明:ViDT 實現(xiàn)了 AP 和 FPS 之間的最佳權(quán)衡。憑借其高可擴展性,其性能優(yōu)于 1 億個參數(shù)的 Swin-base,在相似的 AP 的下,F(xiàn)PS 比 Deformable DETR 快 2 倍。此外,ViDT 參數(shù)為 16M,得到 40.4AP,比 DETR (swin-nano) 和 DETR (swin-tiny) 高分別高 6.3AP、12.6AP。

          表 3 對比了不同空間位置編碼與 ViDT(w.o. Neck)的結(jié)果。結(jié)果表明:pre-addition 比 post-addition 帶來的性能提升更高,即 sinusoidal encoding 優(yōu)于 learnable 編碼;因此,正弦空間編碼的 2D 歸納偏置在目標檢測中更有幫助。特別是,與不使用任何編碼相比,使用正弦編碼的預(yù)加法(pre-addition)將 AP 增加了 5.0。

          表 4 總結(jié)了使用不同選擇策略進行交叉注意力(cross-attention)時的 AP 和 FPS,其中 Swin Transformer 總共包含四個階段。有趣的是,只要在最后階段激活交叉注意力,所有策略都表現(xiàn)出相似的 AP。由于在各個階段中以自下而上的方式提取特征,因此在低級別階段很難直接獲得有關(guān)目標對象的有用信息。因此,研究者想要獲得較高的 AP 和 FPS,只使用最后階段是最好的設(shè)計選擇,因為 [PATCH] token 的數(shù)量最少。

          為了徹底驗證輔助解碼損失(auxiliary decoding loss)和迭代框細化(iterative box refinement)的有效性,該研究甚至對 YOLOS 等 neck-free 檢測器進行了擴展。表 5 顯示了兩種 neck-free 檢測器 YOLOS 和 ViDT (w.o. Neck) 性能。實驗結(jié)果證明在 ViDT 中使用 Neck 解碼器來提高目標檢測性能是合理的。

          下圖表明:教師模型的規(guī)模越大,學生模型的收益越大。從系數(shù)來看,系數(shù)值越大,性能越好。模型蒸餾將 AP 提高了 1.0-1.7,而不會影響學生模型的推理速度。

          研究者將所有提議的組件結(jié)合起來,以實現(xiàn)目標檢測的高精度和速度。如表 8 所示,有四個組件:(1) RAM 將 Swin Transformer 擴展為獨立的目標檢測器,(2) neck 解碼器利用多尺度特征和兩種輔助技術(shù),(3) 從大模型中獲益知識蒸餾,(4) 解碼層 drop 進一步加快推理速度。結(jié)果表明:當使用 Swin-nano 作為其主干時,它僅使用 13M 參數(shù)就達到了 41.7AP 和合理的 FPS。此外,當使用 Swin-tiny 時,它僅損失了 2.7 FPS 而表現(xiàn)出 46.4AP。

          如果覺得有用,就請分享到朋友圈吧!


          點個在看 paper不斷!

          瀏覽 45
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  国产激情视频免费在线看 | 久久久久久91香蕉国产 | 人成午夜视频 | 无码精品一区二区三区四区五区六区 | 久久久久久伊人 |