<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          多快好省的目標(biāo)檢測(cè)器來(lái)了!曠視孫劍團(tuán)隊(duì)提出Anchor DETR:基于Anchor Point的DETR

          共 4417字,需瀏覽 9分鐘

           ·

          2021-09-21 08:49


          ↑ 點(diǎn)擊藍(lán)字 關(guān)注極市平臺(tái)

          作者丨小馬
          編輯丨極市平臺(tái)

          極市導(dǎo)讀

           

          本文作者提出了一種基于Transformer的目標(biāo)檢測(cè)器Anchor DETR,借鑒了CNN目標(biāo)檢測(cè)器中的Anchor Point機(jī)制,使得每個(gè)查詢(xún)都基于特定的Anchor Point的,Anchor DETR獲得比DETR更好的性能和更快的運(yùn)行速度。 >>加入極市CV技術(shù)交流群,走在計(jì)算機(jī)視覺(jué)的最前沿

          寫(xiě)在前面

          在本文中,作者提出了一種基于Transformer的目標(biāo)檢測(cè)器。在以前基于Transformer的檢測(cè)器中,目標(biāo)的查詢(xún)是一組可學(xué)習(xí)的embedding。然而,每個(gè)可學(xué)習(xí)的embedding都沒(méi)有明確的意義 (因?yàn)槭请S機(jī)初始化的),所以也不能解釋它最終將集中在哪里。此外,由于每個(gè)對(duì)象查詢(xún)將不會(huì)關(guān)注特定的區(qū)域,所以訓(xùn)練時(shí)優(yōu)化也是比較困難的 。

          為了解決這些問(wèn)題,作者借鑒了CNN目標(biāo)檢測(cè)器中的Anchor Point機(jī)制,使得每個(gè)查詢(xún)都基于特定的Anchor Point的。因此,每個(gè)查詢(xún)都可以集中在Anchor  Point附近的目標(biāo)上。此外,本文的查詢(xún)?cè)O(shè)計(jì)可以在一個(gè)位置預(yù)測(cè)多個(gè)目標(biāo)。為了降低attention的計(jì)算成本,作者設(shè)計(jì)了一種輕量級(jí)的attention變體?;谛碌牟樵?xún)?cè)O(shè)計(jì)和attention變體,本文提出的Anchor DETR可以獲得比DETR更好的性能和更快的運(yùn)行速度。

          1. 論文和代碼地址

          Anchor DETR: Query Design for Transformer-Based Detector

          論文地址:https://arxiv.org/abs/2109.07107

          代碼地址:https://github.com/megvii-model/AnchorDETR(即將開(kāi)源)

          2. Motivation

          目前DETR模型為目標(biāo)檢測(cè)任務(wù)提供了一個(gè)新的模型范式。它使用一組可學(xué)習(xí)到的目標(biāo)查詢(xún)來(lái)推理目標(biāo)和全局圖像上下文之間的關(guān)系,以輸出最終的預(yù)測(cè)集。然而,學(xué)習(xí)到的目標(biāo)查詢(xún)的可解釋性較差。它沒(méi)有顯式的意義,每個(gè)查詢(xún)也沒(méi)有顯式對(duì)應(yīng)的某個(gè)檢測(cè)位置、或者檢測(cè)目標(biāo)。

          如上圖(a)所示,DETR中每個(gè)目標(biāo)查詢(xún)的預(yù)測(cè)與不同的區(qū)域相關(guān),并且每個(gè)查詢(xún)將負(fù)責(zé)一個(gè)非常大的區(qū)域。這種位置上的不明確性,也使得DETR很難優(yōu)化。

          回顧基于CNN的檢測(cè)器,anchor與位置高度相關(guān),包含可解釋的意義。受此啟發(fā),作者提出了一種基于錨點(diǎn)(anchor points)的查詢(xún)?cè)O(shè)計(jì) ,即將anchor points編碼為目標(biāo)查詢(xún) 。查詢(xún)是錨點(diǎn)坐標(biāo)的編碼,因此每個(gè)目標(biāo)查詢(xún)都具有顯式的物理意義。

          但是,這個(gè)解決方案還有一個(gè)限制:多個(gè)目標(biāo)可能出現(xiàn)在一個(gè)位置 。在這種情況下,只有這個(gè)位置的一個(gè)查詢(xún)不能預(yù)測(cè)多個(gè)目標(biāo),因此來(lái)自其他位置的查詢(xún)必須協(xié)同預(yù)測(cè)這些目標(biāo)。它將導(dǎo)致每個(gè)目標(biāo)查詢(xún)負(fù)責(zé)一個(gè)更大的區(qū)域。因此,作者通過(guò)向每個(gè)錨點(diǎn)添加多個(gè)模式(multiple patterns,即一個(gè)錨點(diǎn)可以檢測(cè)多個(gè)目標(biāo))來(lái)改進(jìn)目標(biāo)查詢(xún)?cè)O(shè)計(jì),以便每個(gè)錨點(diǎn)都可以預(yù)測(cè)多個(gè)目標(biāo)。如上圖(b)所示,每個(gè)查詢(xún)的三種模式的所有預(yù)測(cè)都分布在相應(yīng)的錨點(diǎn)周?chē)?。因此?strong style="color: black;">本文提出的目標(biāo)查詢(xún)具備更好的可解釋性 。由于查詢(xún)具有特定的模式,并且不需要預(yù)測(cè)遠(yuǎn)離相應(yīng)位置的目標(biāo),因此更容易進(jìn)行優(yōu)化 。

          除了查詢(xún)?cè)O(shè)計(jì)之外,作者還設(shè)計(jì)了一個(gè)attention變體——行列解耦注意(Row-Column Decouple Attention,RCDA) 。它將二維key特征解耦為一維行特征和一維列特征,然后依次進(jìn)行行注意和列注意。RCDA可以降低計(jì)算成本,同時(shí)實(shí)現(xiàn)與DETR中的標(biāo)準(zhǔn)注意力相似甚至更好的性能。

          如上表所示,基于錨點(diǎn)查詢(xún)和RCDA注意力的Anchor DETR在使用相同的特征時(shí),可以獲得更好的性能和更快的檢測(cè)速度。此外,相比于原始的DETR模型,本文的訓(xùn)練epoch數(shù)只需要原來(lái)的十分之一。

          3. 方法

          本文提出的檢測(cè)器模型結(jié)構(gòu)如上圖所示。

          3.1. Anchor Points

          在基于CNN的檢測(cè)器中,錨點(diǎn)是特征圖的位置。但在基于Transformer的檢測(cè)器中,錨點(diǎn)可以是可學(xué)習(xí)的點(diǎn)、統(tǒng)一的網(wǎng)格點(diǎn)或其他手工設(shè)置的點(diǎn)。在本文中,作者采用了兩種類(lèi)型的錨點(diǎn)。一個(gè)是網(wǎng)格錨點(diǎn) ,另一個(gè)是可學(xué)習(xí)的錨點(diǎn) 。如下圖(a)所示,網(wǎng)格錨點(diǎn)固定為圖像中的均勻網(wǎng)格點(diǎn)??蓪W(xué)習(xí)的錨點(diǎn)以0到1的均勻分布隨機(jī)初始化,并作為學(xué)習(xí)參數(shù)進(jìn)行更新,如下圖(b)所示。

          3.2. Attention Formulation

          DETR中的attention可以表示如下:

          下標(biāo)f表示特征,下標(biāo)p表示位置embedding。

          DETR中有兩種attention:Self-Attention和Cross-Attention。

          在Self-Attention中,、相同,相同。是上一個(gè)解碼器的輸出,為第一個(gè)解碼器的初始化查詢(xún)向量。對(duì)于查詢(xún)位置embedding ,它在DETR中使用了一組可學(xué)習(xí)的向量:

          在Cross-Attention中,是由前面的自注意的輸出生成的,而是編碼器的輸出特征。的位置embedding,它由sine-cosine position函數(shù)生成:

          3.3. Anchor Points to Object Query

          解碼器中的為目標(biāo)查詢(xún)向量,它們負(fù)責(zé)區(qū)分不同的目標(biāo)。但是上面式子中的目標(biāo)查詢(xún)可解釋性比較差,因?yàn)槊總€(gè)查詢(xún)對(duì)應(yīng)的目標(biāo)都沒(méi)有顯式的約束。

          在本文中,作者提出基于錨點(diǎn)的查詢(xún)。代表其位置的個(gè)點(diǎn)。然后,基于錨點(diǎn)的目標(biāo)查詢(xún)可以表示為:

          也就是說(shuō),這里的目標(biāo)查詢(xún)是根據(jù)錨點(diǎn)的位置編碼的。

          對(duì)于上述式子中的編碼函數(shù),計(jì)算如下:

          位置編碼函數(shù)可以是或其他位置編碼函數(shù)。在實(shí)驗(yàn)中,作者就是采用了。

          3.4. Multiple Predictions for Each Anchor Point

          對(duì)于初始的查詢(xún)向量,每個(gè)查詢(xún)都有一個(gè)模式(pattern) 。為了預(yù)測(cè)每個(gè)錨點(diǎn)的多個(gè)目標(biāo),可以合并一個(gè)錨點(diǎn)中的多個(gè)模式。因此,一個(gè)具有個(gè)模式的集合 可以表示為:

          在實(shí)驗(yàn)中,通常不會(huì)太大,因?yàn)橥粋€(gè)錨點(diǎn)位置通常不會(huì)有非常多的目標(biāo)。

          最終只需要將query和位置編碼相加,就得到最終的查詢(xún)向量, Pattern Position query可以表示為:

          由于這種查詢(xún)?cè)O(shè)計(jì),Anchor DETR檢測(cè)器具有可解釋的查詢(xún),在訓(xùn)練epoch數(shù)少10倍的情況下,依舊比原始DETR獲得更好的性能。

          3.5. Row-Column Decoupled Attention

          在本文中,作者還提出了行列解耦注意(Row-Column Decoupled Attention,RCDA),它不僅可以降低計(jì)算負(fù)擔(dān),而且還可以獲得比DETR中的標(biāo)準(zhǔn)注意力相似或更好的性能。RCDA的主要思想是將key特征解耦為橫向特征和縱向特征(即用一維的gobal pooling消除縱向或者橫向的維度)。RCDA可以表述為:

          運(yùn)算分別沿著寬度維度和高度維度進(jìn)行加權(quán)和。代表一維的位置編碼。

          4.實(shí)驗(yàn)

          4.1. Main Results

          上表顯示了本文方法和一些目標(biāo)檢測(cè)方法的性能和訓(xùn)練epoch數(shù)的對(duì)比??梢钥闯?,本文的方法在性能上相比于其他方法還是具有一定的優(yōu)勢(shì),并且訓(xùn)練的epoch數(shù)比DETR小的多。

          4.2. Ablation Study

          4.2.1. Effectiveness of each component

          上表顯示了本文的不同模塊RCDA、Anchor、patterns的消融實(shí)驗(yàn)結(jié)果,可以看出,Anchor、patterns對(duì)實(shí)驗(yàn)性能的提升有效果。RCDA在減少計(jì)算量的同時(shí)沒(méi)有明顯影響性能。

          4.2.2. Multiple Predictions for Each Anchor Point

          上表顯示了不同anchor point和pattern的實(shí)驗(yàn)結(jié)果。可以看出基于錨點(diǎn)的多重預(yù)測(cè)對(duì)于提升模型性能是非常有效的。

          4.2.3. Anchor Points Types

          可以看出,可學(xué)習(xí)的錨點(diǎn)和均勻分布的錨點(diǎn)對(duì)于最終實(shí)驗(yàn)性能的影響是不大的。

          4.2.4. Prediction Slots of Object Query

          上表顯示了每個(gè)pattern的直方圖,可以看出不同的pattern會(huì)傾向于預(yù)測(cè)不同尺寸的目標(biāo)框。

          4.2.5. Row-Column Decoupled Attention

          上表顯示了不同注意力機(jī)制下的memory和performance,可以看出RCDA在沒(méi)有顯著影響performance的情況下,降低了計(jì)算的開(kāi)銷(xiāo)。

          5. 總結(jié)

          在本文中,作者提出了一種基于Transformer的檢測(cè)器——Anchor DETR。Anchor DETR中有基于anchor point(錨點(diǎn))的查詢(xún)?cè)O(shè)計(jì),因此每個(gè)查詢(xún)只預(yù)測(cè)錨點(diǎn)附近的目標(biāo),因此更容易優(yōu)化。此外,作者在每個(gè)錨點(diǎn)上加入了多個(gè)模式來(lái)解決一個(gè)區(qū)域中可能多個(gè)目標(biāo)的問(wèn)題。為了降低計(jì)算的復(fù)雜度,作者還提出了一種注意變體,稱(chēng)為行列解耦注意(Row-Column Decoupled Attention)。行列解耦注意可以降低計(jì)算成本,同時(shí)實(shí)現(xiàn)與DETR中的標(biāo)準(zhǔn)注意力相似甚至更好的性能。與DETR相比,Anchor DETR可以在減少10倍訓(xùn)練epoch數(shù)的情況下,獲得更好的性能。

          本文的最大亮點(diǎn)是提出了一個(gè)基于Anchor Point的DETR ,能夠?yàn)槊總€(gè)查詢(xún)賦予顯式的物理意義,因此相比于DETR更容易優(yōu)化。個(gè)人覺(jué)得很有意思的一點(diǎn)是:基于CNN的目標(biāo)檢測(cè)器“無(wú)Anchor→有Anchor→Anchor Free ”的過(guò)程?;赥ransformer的目標(biāo)檢測(cè)器(比如:DETR)最開(kāi)始也是沒(méi)有Anchor的,這篇文章開(kāi)始引入了Anchor Point機(jī)制(即Anchor-Free)來(lái)優(yōu)化DETR,直接跳過(guò)了有Anchor(這里的Anchor指Anchor Box)階段,之后會(huì)不會(huì)又有文章繼續(xù)提出基于Anchor Box的Transformer目標(biāo)檢測(cè)器,重走一遍CNN目標(biāo)檢測(cè)器走過(guò)的道路呢?

          長(zhǎng)按掃描下方二維碼添加小助手并加入交流群,群里博士大佬云集,每日討論話(huà)題有目標(biāo)檢測(cè)、語(yǔ)義分割、超分辨率、模型部署、數(shù)學(xué)基礎(chǔ)知識(shí)、算法面試題分享的等等內(nèi)容,當(dāng)然也少不了搬磚人的扯犢子

          長(zhǎng)按掃描下方二維碼添加小助手。

          可以一起討論遇到的問(wèn)題

          聲明:轉(zhuǎn)載請(qǐng)說(shuō)明出處

          掃描下方二維碼關(guān)注【集智書(shū)童】公眾號(hào),獲取更多實(shí)踐項(xiàng)目源碼和論文解讀,非常期待你我的相遇,讓我們以夢(mèng)為馬,砥礪前行!

          瀏覽 107
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  操操日操 | 激情五月激情网 | 免费看欧美一级片 | 成人片AV免费看FreeSex | 69人人 |