<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          完全基于Transformer的目標(biāo)檢測(cè)器,ICLR匿名論文實(shí)現(xiàn)視覺(jué)、檢測(cè)統(tǒng)一

          共 3758字,需瀏覽 8分鐘

           ·

          2022-02-11 06:19

          點(diǎn)擊上方“程序員大白”,選擇“星標(biāo)”公眾號(hào)

          重磅干貨,第一時(shí)間送達(dá)

          來(lái)源丨機(jī)器之心
          編輯丨極市平臺(tái)

          導(dǎo)讀

          ?

          一種新的集成視覺(jué)和檢測(cè) Transformer 的目標(biāo)檢測(cè)器 ViDT。ViDT 在現(xiàn)有的完全基于 transformer 的目標(biāo)檢測(cè)器中獲得了最佳的 AP 和延遲權(quán)衡,其對(duì)大型模型的高可擴(kuò)展性,可達(dá) 49.2AP。

          Transformer 在 NLP 任務(wù)中取得不錯(cuò)的發(fā)展,許多研究將其引入到計(jì)算機(jī)視覺(jué)任務(wù)中。毫不夸張的說(shuō),Transformer 正在改變計(jì)算機(jī)視覺(jué)的格局,尤其是在識(shí)別任務(wù)方面。例如 Detection transformer 是第一個(gè)用于目標(biāo)檢測(cè)的、端到端的學(xué)習(xí)系統(tǒng),而 vision transformer 是第一個(gè)完全基于 transformer 的圖像分類(lèi)架構(gòu)。在本文中,一篇被 ICLR 2022 接收的匿名論文集成了視覺(jué)和檢測(cè) Transformer (Vision and Detection Transformer,ViDT) 來(lái)構(gòu)建有效且高效的目標(biāo)檢測(cè)器。

          ViDT 引入了一個(gè)重新配置的注意力模塊(reconfigured attention module),將 Swin Transformer 擴(kuò)展為一個(gè)獨(dú)立的目標(biāo)檢測(cè)器,之后是一個(gè)計(jì)算高效的 Transformer 解碼器,該解碼器利用多尺度特征和輔助(auxiliary)技術(shù),在不增加計(jì)算負(fù)載的情況下提高檢測(cè)性能。

          在 Microsoft COCO 基準(zhǔn)數(shù)據(jù)集上的評(píng)估表明,ViDT 在現(xiàn)有的完全基于 transformer 的目標(biāo)檢測(cè)器中獲得了最佳的 AP 和延遲權(quán)衡,其對(duì)大型模型的高可擴(kuò)展性,可達(dá) 49.2AP。

          論文地址:https://openreview.net/pdf?id=w4cXZDDib1H

          ViDT:視覺(jué)與檢測(cè) Transformer

          ViDT 架構(gòu)如下圖 2 (c) 所示:

          • 首先,ViDT 引入了一種改進(jìn)的注意力機(jī)制,名為 Reconfigured Attention Module (RAM),該模塊有助于 ViT 變體處理附加的 [DET(detection tokens)] 和 [PATCH(patch tokens)] token 以進(jìn)行目標(biāo)檢測(cè)。因此,ViDT 可以將最新的帶有 RAM 的 Swin Transformer 主干修改為目標(biāo)檢測(cè)器,并利用其具有線(xiàn)性復(fù)雜度的局部注意力機(jī)制獲得高可擴(kuò)展性;

          • 其次,ViDT 采用輕量級(jí)的無(wú)編碼器 neck 架構(gòu)來(lái)減少計(jì)算開(kāi)銷(xiāo),同時(shí)仍然在 neck 模塊上啟用額外的優(yōu)化技術(shù)。請(qǐng)注意,neck 編碼器是不必要的,因?yàn)?RAM 直接提取用于目標(biāo)檢測(cè)的細(xì)粒度表示,即 [DET ] token。結(jié)果,ViDT 獲得了比 neck-free 對(duì)應(yīng)物更好的性能;

          • 最后,該研究引入了用于知識(shí)蒸餾的 token 匹配新概念,它可以在不影響檢測(cè)效率的情況下從大型模型到小型模型帶來(lái)額外的性能提升。

          RAM 模塊

          該研究引入了 RAM 模塊,它將與 [PATCH] 和 [DET] token 相關(guān)的單個(gè)全局注意力分解為三個(gè)不同的注意力,即 [PATCH]×[PATCH]、[DET]× [DET] 和 [DET] × [PATCH] 注意力。如圖 3 所示,通過(guò)共享 [DET] 和 [PATCH] token 的投影層,全部復(fù)用 Swin Transformer 的所有參數(shù),并執(zhí)行三種不同的注意力操作:

          ENCODER-FREE ?neck 結(jié)構(gòu)

          為了利用多尺度特征圖,ViDT 結(jié)合了多層可變形 transformer 解碼器。在 DETR 家族中(圖 2 (a)),其 neck 部分需要一個(gè) transformer 編碼器,用于將從骨干中提取的用于圖像分類(lèi)的特征轉(zhuǎn)換為適合目標(biāo)檢測(cè)的特征;編碼器通常在計(jì)算上很昂貴,因?yàn)樗婕?[PATCH] × [PATCH] 注意力。然而,ViDT 只保留了一個(gè) Transformer 解碼器作為其 neck,因?yàn)閹в?RAM 的 Swin Transformer 直接提取適合目標(biāo)檢測(cè)的細(xì)粒度特征作為獨(dú)立的目標(biāo)檢測(cè)器。因此,ViDT 的 neck 結(jié)構(gòu)在計(jì)算上是高效的。

          解碼器從帶有 RAM 的 Swin Transformer 接收兩個(gè)輸入:(1)從每個(gè)階段生成的 [PATCH] token(2)從最后階段生成的 [DET ] token,如圖 2 (c) 的 Neck 所示。在每個(gè)可變形的 transformer 層中,首先執(zhí)行 [DET] × [DET] 注意力。對(duì)于每個(gè) [DET] token,應(yīng)用多尺度可變形注意力以生成一個(gè)新的 [DET] token,聚合從多尺度特征圖中采樣的一小組關(guān)鍵內(nèi)容:

          用于目標(biāo)檢測(cè)的 token 匹配知識(shí)蒸餾

          雖然大型模型具有實(shí)現(xiàn)高性能的高容量,但在實(shí)際使用中它的計(jì)算成本可能很高。因此,該研究還提出了一種簡(jiǎn)單的知識(shí)蒸餾方法,可以通過(guò) token 匹配從大型 ViDT 模型中遷移知識(shí)。

          匹配每一層的所有 token 在訓(xùn)練中非常低效,因此,該研究只匹配對(duì)預(yù)測(cè)貢獻(xiàn)最大的 token。兩組 token 直接相關(guān):(1)P:用作多尺度特征圖的 [PATCH] token 集合,由 body 中的每個(gè)階段生成,(2)D:[DET ] token 的集合,它們是從 neck 的每個(gè)解碼層生成的。因此,基于 token 匹配的蒸餾損失公式為:

          評(píng)估

          表 2 將 ViDT 與 DETR (ViT) 和 YOLOS 的 AP、FPS 等進(jìn)行了比較,其中 DETR (ViT) 有兩個(gè)變體:DETR 和 Deformable DETR。

          實(shí)驗(yàn)結(jié)果表明:ViDT 實(shí)現(xiàn)了 AP 和 FPS 之間的最佳權(quán)衡。憑借其高可擴(kuò)展性,其性能優(yōu)于 1 億個(gè)參數(shù)的 Swin-base,在相似的 AP 的下,F(xiàn)PS 比 Deformable DETR 快 2 倍。此外,ViDT 參數(shù)為 16M,得到 40.4AP,比 DETR (swin-nano) 和 DETR (swin-tiny) 高分別高 6.3AP、12.6AP。

          表 3 對(duì)比了不同空間位置編碼與 ViDT(w.o. Neck)的結(jié)果。結(jié)果表明:pre-addition 比 post-addition 帶來(lái)的性能提升更高,即 sinusoidal encoding 優(yōu)于 learnable 編碼;因此,正弦空間編碼的 2D 歸納偏置在目標(biāo)檢測(cè)中更有幫助。特別是,與不使用任何編碼相比,使用正弦編碼的預(yù)加法(pre-addition)將 AP 增加了 5.0。

          表 4 總結(jié)了使用不同選擇策略進(jìn)行交叉注意力(cross-attention)時(shí)的 AP 和 FPS,其中 Swin Transformer 總共包含四個(gè)階段。有趣的是,只要在最后階段激活交叉注意力,所有策略都表現(xiàn)出相似的 AP。由于在各個(gè)階段中以自下而上的方式提取特征,因此在低級(jí)別階段很難直接獲得有關(guān)目標(biāo)對(duì)象的有用信息。因此,研究者想要獲得較高的 AP 和 FPS,只使用最后階段是最好的設(shè)計(jì)選擇,因?yàn)?[PATCH] token 的數(shù)量最少。

          為了徹底驗(yàn)證輔助解碼損失(auxiliary decoding loss)和迭代框細(xì)化(iterative box refinement)的有效性,該研究甚至對(duì) YOLOS 等 neck-free 檢測(cè)器進(jìn)行了擴(kuò)展。表 5 顯示了兩種 neck-free 檢測(cè)器 YOLOS 和 ViDT (w.o. Neck) 性能。實(shí)驗(yàn)結(jié)果證明在 ViDT 中使用 Neck 解碼器來(lái)提高目標(biāo)檢測(cè)性能是合理的。

          下圖表明:教師模型的規(guī)模越大,學(xué)生模型的收益越大。從系數(shù)來(lái)看,系數(shù)值越大,性能越好。模型蒸餾將 AP 提高了 1.0-1.7,而不會(huì)影響學(xué)生模型的推理速度。

          研究者將所有提議的組件結(jié)合起來(lái),以實(shí)現(xiàn)目標(biāo)檢測(cè)的高精度和速度。如表 8 所示,有四個(gè)組件:(1) RAM 將 Swin Transformer 擴(kuò)展為獨(dú)立的目標(biāo)檢測(cè)器,(2) neck 解碼器利用多尺度特征和兩種輔助技術(shù),(3) 從大模型中獲益知識(shí)蒸餾,(4) 解碼層 drop 進(jìn)一步加快推理速度。結(jié)果表明:當(dāng)使用 Swin-nano 作為其主干時(shí),它僅使用 13M 參數(shù)就達(dá)到了 41.7AP 和合理的 FPS。此外,當(dāng)使用 Swin-tiny 時(shí),它僅損失了 2.7 FPS 而表現(xiàn)出 46.4AP。


          13個(gè)你一定要知道的PyTorch特性

          解讀:為什么要做特征歸一化/標(biāo)準(zhǔn)化?

          一文搞懂 PyTorch 內(nèi)部機(jī)制

          張一鳴:每個(gè)逆襲的年輕人,都具備的底層能力


          關(guān)


          ,學(xué),西學(xué)學(xué)運(yùn)營(yíng)護(hù)號(hào),樂(lè)質(zhì),結(jié)識(shí)關(guān)[]學(xué)習(xí)進(jìn)!


          瀏覽 49
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  国产激情久久久久久 | 日韩高清精品在线 | 色色西| 亚洲成人欧美 | 国产精品高潮视频 |