<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          目標(biāo)檢測NAS-FPN

          共 6835字,需瀏覽 14分鐘

           ·

          2021-04-10 12:29

          &Title:

          • NAS-FPN: Learning Scalable Feature Pyramid Architecture for Object Detection

          &Summary

          目前最先進(jìn)的卷積結(jié)構(gòu)用于物體檢測手工設(shè)計(jì)的。
          在這里,我們的目標(biāo)是一個(gè)更好的學(xué)習(xí)可擴(kuò)展特征金字塔結(jié)構(gòu),用于目標(biāo)檢測。在一個(gè)覆蓋所有交叉尺度連接的可擴(kuò)展搜索空間中采用神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)搜索,發(fā)現(xiàn)了一種新的特征金字塔結(jié)構(gòu)。架構(gòu)名為NAS-FPN,由自頂向下和自下而上的連接組合而成,可以跨范圍地融合特性

          為了發(fā)現(xiàn)一個(gè)更好的FPN架構(gòu),作者充分利用了神經(jīng)網(wǎng)絡(luò)搜索技術(shù)[Neural architecture search with rein- forcement learning.],使用強(qiáng)化學(xué)習(xí)訓(xùn)練了一個(gè)控制器來在給定的搜索空間中選擇最好的模型結(jié)構(gòu)。控制器使用在搜索空間內(nèi)子模型的準(zhǔn)確率來作為更新參數(shù)的反饋信號(hào)(reward signal)。因此,通過這樣的試錯(cuò),控制器會(huì)學(xué)到越來越好的結(jié)構(gòu),搜索空間在架構(gòu)成功搜索的過程中起到了很重要的作用。對于FPN的可拓展性,在搜索的過程中,作者強(qiáng)制讓FPN重復(fù)N次然后concatenation到一起形成一個(gè)大的架構(gòu)。

          一句話解釋:FPN就是用來特征融合的層,之前都是手工設(shè)計(jì),現(xiàn)在嘗試神經(jīng)網(wǎng)絡(luò)搜索設(shè)計(jì)!其實(shí)就是優(yōu)化FPN。

          結(jié)果:與最先進(jìn)的目標(biāo)檢測模型相比,NAS-FPN與retinanet框架中的各種主干模型相結(jié)合,實(shí)現(xiàn)了更好的準(zhǔn)確性和延遲權(quán)衡。與mobilenetv2模型的最先進(jìn)的ssdlite相比,nas-fpn提高了2 ap的移動(dòng)檢測精度,達(dá)到48.3 ap,以更少的計(jì)算時(shí)間超越了mask r-cnn的檢測精度。

          &Research Objective

          目標(biāo)是一個(gè)更好的學(xué)習(xí)可擴(kuò)展特征金字塔結(jié)構(gòu),用于目標(biāo)檢測。在一個(gè)覆蓋所有交叉尺度連接的可擴(kuò)展搜索空間中,采用神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)搜索,發(fā)現(xiàn)了一種新的特征金字塔結(jié)構(gòu)。架構(gòu)名為NAS-FPN,由自頂向下和自下而上的連接組合而成,可以跨范圍地融合特性。

          注:神經(jīng)網(wǎng)絡(luò)搜索(理論上可以對任何東西進(jìn)行搜索,就像是強(qiáng)化學(xué)習(xí)和進(jìn)化算法
          遺傳算法等等,這些都是尋優(yōu)算法,只不過現(xiàn)在把這些算法應(yīng)用到了神經(jīng)網(wǎng)絡(luò)的領(lǐng)域)

          &Problem Statement

          當(dāng)前目標(biāo)檢測網(wǎng)絡(luò)中采用特征金字塔網(wǎng)絡(luò)(FPN)結(jié)構(gòu)解決多尺度的問題,但是這些 FPN 都是人工事先設(shè)計(jì),并不一定是最優(yōu)的結(jié)構(gòu)。為了更靈活地獲得更優(yōu)的 FPN 結(jié)構(gòu),該文章首創(chuàng)性地提出了采用神經(jīng)架構(gòu)搜索(NAS)的方式定制化地構(gòu)建 FPN,該結(jié)構(gòu)又稱 NAS-FPN。

          特征金字塔網(wǎng)絡(luò)(FPN)是一種典型的模型體系結(jié)構(gòu),用于生成目標(biāo)檢測的金字塔特征表示。它采用了一個(gè)主干模型,通常是為圖像分類而設(shè)計(jì)的,通過將主干模型中的特征層次中的兩個(gè)相鄰層按順序組合,通過自頂向下和橫向連接來構(gòu)建特征金字塔。高級(jí)特征在語義上很強(qiáng),但分辨率較低,它們被放大并與高分辨率特征相結(jié)合,以生成高分辨率和語義強(qiáng)的特征表示。雖然fpn簡單有效,但它可能不是最佳的體系結(jié)構(gòu)設(shè)計(jì)。最近,panet[25]顯示在fpn特性上添加額外的自下而上路徑可以改進(jìn)低分辨率特性的特性表示。許多最近的論文[7、16、17、34、38、39、40、43、41]提出了各種交叉尺度連接或操作,以組合特征以生成金字塔特征表示。

          &Method(s)

          我們的方法基于RetinaNet框架,因?yàn)樗唵味行?。RetinaNet框架有兩個(gè)主要組件:骨干網(wǎng)絡(luò)(通常是最先進(jìn)的圖像分類網(wǎng)絡(luò))和特征金字塔網(wǎng)絡(luò)(FPN)。該算法的目標(biāo)是為RetinaNet發(fā)現(xiàn)更好的FPN架構(gòu)。圖2顯示了RetinaNet架構(gòu)。

          為了發(fā)現(xiàn)更好的FPN,我們利用提出的神經(jīng)架構(gòu)搜索框架。

          神經(jīng)架構(gòu)搜索訓(xùn)練控制器使用強(qiáng)化學(xué)習(xí)在給定搜索空間中選擇最佳模型架構(gòu)??刂破魇褂盟阉骺臻g中的子模型的準(zhǔn)確性作為更新其參數(shù)的獎(jiǎng)勵(lì)信號(hào)。因此,通過反復(fù)試驗(yàn),控制器可以學(xué)習(xí)如何隨著時(shí)間的推移生成更好的架構(gòu)。

          搜索空間

          FPN 的眾多跨連接構(gòu)成了很大的搜索空間。在搜索空間中,一個(gè) FPN 由很多 merging cells 組成,然后合并一些來自不同層融合的特征表示。一個(gè) merging cell 將兩個(gè)來自不同特征層的特征連接融合產(chǎn)生一個(gè)特征輸出,這樣的單元結(jié)構(gòu)就構(gòu)成了 FPN 的元結(jié)構(gòu),同時(shí)所有的可能的特征層組合由 merging cells 組建化的表示,這也就構(gòu)成了我們的搜索空間(模塊化)。一個(gè) merging cell 的結(jié)構(gòu)如下:

          構(gòu)建 merging cell 是由控制器 RNN 來做決定,它不僅要決定選取哪兩個(gè)特征層,還要決定采用那種特征融合方式。

          每個(gè) merging cell 有 4 個(gè)預(yù)測步驟

          1. 從候選中選擇一個(gè)特征層;

          2. 從候選中沒有替換地選出另一個(gè)特征層;

          3. 選擇輸出特征的分辨率;

          4. 選擇一個(gè)operation操作來融合step1和step2的特征,然后生成一個(gè)分辨率為step3選定的新的特征。

          在step 4中的operations有兩種,sum和global pooling,因?yàn)樗麄兒唵斡行?輸入的特征層使用最近鄰采樣或者max pooling來調(diào)整到輸出分辨率,merged特征層總會(huì)跟著ReLu, 3x3卷積和一個(gè)BN層。

          在架構(gòu)搜索期間,可以有多個(gè)候選功能共享相同的分辨率。為了減少已發(fā)現(xiàn)架構(gòu)中的計(jì)算,我們避免在步驟3中為中間合并單元選擇步長8特征。最后,最后5個(gè)合并單元被設(shè)計(jì)為輸出特征金字塔{P3,P4,P5,P6,P7}。輸出特征級(jí)別的順序由控制器預(yù)測。然后通過重復(fù)步驟1,2,4生成每個(gè)輸出特征層,直到完全生成輸出特征金字塔。

          深入監(jiān)督隨時(shí)檢測目標(biāo)

          模塊化金字塔架構(gòu)的另一個(gè)好處是可以隨時(shí)檢測目標(biāo),雖然這種方法已出現(xiàn),但手動(dòng)設(shè)計(jì)這種架構(gòu)依舊相當(dāng)困難。固定分類和回歸的網(wǎng)絡(luò)進(jìn)行深度監(jiān)督訓(xùn)練。搜索的終止并不是非要全部搜索完,隨時(shí)都可以退出。因?yàn)榉直媛什蛔?,所?FPN 可以隨意擴(kuò)展。

          利用堆疊金字塔網(wǎng)絡(luò)縮放NAS-FPN的一個(gè)優(yōu)點(diǎn)是可以在任何給定金字塔網(wǎng)絡(luò)的輸出處獲得特征金字塔表示。此屬性可以隨時(shí)檢測,可以在早期退出時(shí)生成檢測結(jié)果。

          NAS 利用強(qiáng)化學(xué)習(xí)訓(xùn)練控制器在給定的搜索空間中選擇最優(yōu)的模型架構(gòu)??刂破骼米幽P驮谒阉骺臻g中的準(zhǔn)確度作為獎(jiǎng)勵(lì)信號(hào)來更新參數(shù)。因此,通過反復(fù)試驗(yàn),控制器逐漸學(xué)會(huì)了如何生成更好的架構(gòu)。由于不知道 FPN 的跨連接情況,NAS-FPN 采用 RNN 作為控制器,使用該控制器來產(chǎn)生一串信息,用于構(gòu)建不同的連接。其宏觀結(jié)構(gòu)如下圖所示:(圖源文章)

          搜索得到的最優(yōu) FPN 結(jié)構(gòu)如下圖,其控制器收斂得到的最終 FPN 結(jié)構(gòu)如 (f) 所示,并且其精度最高。

          每個(gè)點(diǎn)代表一個(gè)特征層。同一行的特征層具有相同的分辨率。分辨率在自底向上下降。箭頭表示內(nèi)部層之間的連接。圖中左側(cè)是輸入層。金字塔網(wǎng)絡(luò)的輸入用綠色圓圈標(biāo)記,輸出用紅色圓圈標(biāo)記。

          最終收斂的 FPN 網(wǎng)絡(luò)結(jié)構(gòu)如下圖:

          注:圖6:NAS-FPN中發(fā)現(xiàn)的7合并單元金字塔網(wǎng)絡(luò)的體系結(jié)構(gòu),具有5個(gè)輸入層(黃色)和5個(gè)輸出要素層(藍(lán)色)。GP和R-C-B分別代表Global Pooling和ReLU-Conv-BatchNorm。

          &Evaluation

          • Proxy task

            為了加速RNN控制器的訓(xùn)練,我們需要一個(gè)代理任務(wù),它具有較短的訓(xùn)練時(shí)間,并且與實(shí)際任務(wù)相關(guān)。
            然后,可以在搜索期間使用代理任務(wù)來識(shí)別良好的FPN架構(gòu)。我們發(fā)現(xiàn)我們可以簡單地縮短目標(biāo)任務(wù)的訓(xùn)練并將其用作代理任務(wù)。

            我們只訓(xùn)練10個(gè)時(shí)期的代理任務(wù),而不是我們用來訓(xùn)練RetinaNet匯聚的50個(gè)時(shí)期。為了進(jìn)一步加快培訓(xùn)代理任務(wù),我們使用ResNet-10的小型骨干架構(gòu),輸入512×512圖像大小。
            通過這些減少,TPU上的代理任務(wù)的培訓(xùn)時(shí)間為1小時(shí)。我們在代理任務(wù)中重復(fù)金字塔網(wǎng)絡(luò)3次。
            初始學(xué)習(xí)率0.08適用于前8個(gè)時(shí)期,并且在時(shí)期8處以0.1的系數(shù)衰減。我們保留從COCO
            train2017中隨機(jī)選擇的7392個(gè)圖像作為驗(yàn)證集,我們用它來獲得獎(jiǎng)勵(lì)

          • Controller

            我們的控制器是遞歸神經(jīng)網(wǎng)絡(luò)(RNN),并使用近端策略優(yōu)化(PPO)[33]算法進(jìn)行訓(xùn)練??刂破鲗哂胁煌軜?gòu)的子網(wǎng)絡(luò)進(jìn)行采樣。這些體系結(jié)構(gòu)使用工作池來訓(xùn)練代理任務(wù)。

            我們實(shí)驗(yàn)中的工作隊(duì)列由100個(gè)Tensor Processing
            Units(TPU)組成。由此產(chǎn)生的保持定值組平均精度(AP)的檢測精度用作更新控制器的獎(jiǎng)勵(lì)。

            注:架構(gòu)的詳細(xì)信息為上文收斂的 FPN 網(wǎng)絡(luò)結(jié)構(gòu)圖

            • 圖5-Left顯示了不同迭代訓(xùn)練的采樣體系構(gòu)結(jié)的AP。可以看出,控制器隨著時(shí)間的推移產(chǎn)生了更好的架構(gòu)。

            • 圖5-Right顯示了采樣架構(gòu)的總數(shù)以及RNN控制器生成的唯一架構(gòu)的總數(shù)。經(jīng)過約8000步后,獨(dú)特架構(gòu)的數(shù)量趨于一致。

          • Discovered feature pyramid architectures

            什么使金字塔結(jié)構(gòu)成為一個(gè)好的功能? 我們希望通過可視化發(fā)現(xiàn)的架構(gòu)來闡明這個(gè)問題。在圖7(b-f)中,我們繪制了NAS-FPN架構(gòu),在RL訓(xùn)練期間獲得了更高的獎(jiǎng)勵(lì)。我們發(fā)現(xiàn)RNN控制器可以在早期學(xué)習(xí)階段快速獲得一些重要的跨尺度連接。例如,它發(fā)現(xiàn)高分辨率輸入和輸出特征層之間的連接,這對于生成用于檢測小物體的高分辨率特征至關(guān)重要。

            當(dāng)控制器收斂時(shí),控制器會(huì)發(fā)現(xiàn)具有自上而下和自下而上連接的架構(gòu),這與圖7(a)中的vanilla FPN不同。隨著控制器的收斂,我們還發(fā)現(xiàn)了更好的特征重用??刂破?span style="box-sizing: border-box;outline: 0px;font-weight: 700;overflow-wrap: break-word;">不是從候選池中隨機(jī)選擇任何兩個(gè)輸入層,而是學(xué)習(xí)在新生成的層上構(gòu)建連接以重用先前計(jì)算的特征表示。

          • Stacking pyramid networks


            我們的金字塔網(wǎng)絡(luò)具有很好的特性,可以通過堆疊多個(gè)重復(fù)架構(gòu)將其擴(kuò)展為更大的架構(gòu)。在上圖中,我們顯示堆疊vanilla FPN(vanilla ????這個(gè)是什么,剛?cè)腴T不久,博主不是很清楚這個(gè)東西)架構(gòu)并不總能提高性能,而堆疊NAS-FPN顯著提高了準(zhǔn)確性。這個(gè)結(jié)果突出了我們的搜索算法可以找到可擴(kuò)展的架構(gòu),這可能很難手動(dòng)設(shè)計(jì)。有趣的是,雖然我們在架構(gòu)搜索階段只代理任務(wù)應(yīng)用了3個(gè)金字塔網(wǎng)絡(luò),但應(yīng)用最多7個(gè)金字塔網(wǎng)絡(luò)時(shí)性能仍然有所提高。

          • Adopting different backbone architectures


            一種衡量對象檢測體系結(jié)構(gòu)準(zhǔn)確性和速度的常用方法是改變主干架構(gòu)。盡管NAS-FPN中的金字塔網(wǎng)絡(luò)是通過使用輕量級(jí)ResNet-10骨干架構(gòu)發(fā)現(xiàn)的,但我們表明它可以在不同的骨干架構(gòu)中很好地傳輸。上圖中顯示了NAS-FPN在不同主干之上的性能,從較輕的體系結(jié)構(gòu)(如MobilenetV2)到非常高容量的體系結(jié)構(gòu)(如AmoebaNet-D [29])。

          • Adjusting feature dimension of feature pyramid networks


            增加模型容量的另一種方法是增加NAS-FPN中特征圖層的特征尺寸。圖8c顯示了具有ResNet-50骨干架構(gòu)的NAS-FPN中128,256和384特征維度的結(jié)果。 毫不奇怪,增加特征尺寸可以提高檢測性能,但它可能不是提高性能的有效方法。

            注:點(diǎn)上方的數(shù)字表示網(wǎng)絡(luò)堆疊的次數(shù)。

          • Architectures for high detection accuracy


            通過可擴(kuò)展的NAS-FPN架構(gòu),我們將討論如何在保持高效的同時(shí)構(gòu)建精確模型。在圖9a中,我們首先表明NAS-FPN R-50 5 @ 256模型具有與R-101 FPN基線相比較的FLOP,但具有2.5 AP增益。 這表明使用NAS-FPN比用更高容量的模型替換骨干更有效。為了獲得更高精度的模型,可以使用更重的骨架模型或更高的特征尺寸。

            圖9(a)顯示,與現(xiàn)有方法相比,NAS-FPN架構(gòu)位于推理時(shí)間數(shù)字的左上部分。NAS-FPN與最先進(jìn)的Mask R-CNN模型一樣精確,計(jì)算時(shí)間更短。

          • Architectures for fast inference


            設(shè)計(jì)具有低延遲和有限計(jì)算預(yù)算的對象檢測器是一個(gè)活躍的研究課題。在這里,我們介紹NAS-FPNLite用于移動(dòng)對象檢測。
            NAS-FPNLite和NAS-FPN的主要區(qū)別在于我們搜索具有P3到P6輸出的金字塔網(wǎng)絡(luò)。

            在圖9b中,我們將NAS-FPN的特征維度控制為48或64,以便它具有相似的FLOP Pixel1上的CPU和CPU運(yùn)行時(shí)作為基線方法,并顯示NAS-FPNLite優(yōu)于SS-DLite [32]和FPNLite。

          • Further Improvements with DropBlock


            由于NAS-FPN架構(gòu)中引入的新層數(shù)量增加,因此需要進(jìn)行適當(dāng)?shù)哪P驼齽t化以防止過度擬合。我們在NAS-FPN層中的批量標(biāo)準(zhǔn)化層之后應(yīng)用塊大小為3x3的DropBlock
            圖10顯示DropBlock提高了NAS-FPN的性能。特別是,對于具有更多新引入的過濾器的架構(gòu),它進(jìn)一步提高。

          result

          &Conclusion

          本文提出利用神經(jīng)架構(gòu)搜索進(jìn)一步優(yōu)化用于目標(biāo)檢測的特征金字塔網(wǎng)絡(luò)的設(shè)計(jì)過程。在 COCO 數(shù)據(jù)集上的實(shí)驗(yàn)表明,神經(jīng)結(jié)構(gòu)搜索發(fā)現(xiàn)的架構(gòu),名為 NAS-FPN,具有良好的靈活性和高性能,可用于構(gòu)建精確的檢測模型。在廣泛的精度和速度權(quán)衡方面,NAS-FPN 在許多檢測任務(wù)的主干架構(gòu)上產(chǎn)生了顯著改進(jìn)。

          &Notes

          • 主要貢獻(xiàn)

            設(shè)計(jì)搜索空間,覆蓋所有可能的跨尺度連接,以生成多尺度特征表示。 在搜索過程中,我們的目標(biāo)是發(fā)現(xiàn)一個(gè)具有相同輸入和輸出特性級(jí)別并且可以重復(fù)應(yīng)用的原子體系結(jié)構(gòu)(博主不是特別能理解這句話:具有相同輸入和輸出特性級(jí)別???)。模塊化的搜索空間使搜索金字塔結(jié)構(gòu)變得易于管理。模塊化金字塔結(jié)構(gòu)的另一個(gè)好處是能夠隨時(shí)隨地檢測目標(biāo)(或“提前退出”)。盡管已經(jīng)嘗試了這種早期的退出方法[14],但是在考慮到這種約束的情況下,手工設(shè)計(jì)這種體系結(jié)構(gòu)是相當(dāng)困難的。

          • 優(yōu)勢

            NAS-FPN的優(yōu)勢之一是搜索空間的設(shè)計(jì),覆蓋所有可能的跨尺度連接,用來生成多尺度特征表示。 在搜索過程中,研究者的目標(biāo)是發(fā)現(xiàn)具有相同輸入和輸出特征級(jí)別并且可以被重復(fù)應(yīng)用的微粒架構(gòu)。模塊化搜索空間使得搜索金字塔架構(gòu)變得易于管理。

          • 可視化NAS-FPN架構(gòu)的理解

            看圖理解:
            仔細(xì)看圖七,圖(b~f)共有8列,除去輸入層,也就是文章說的7個(gè)merging cell,注意每一列都有一個(gè)中間狀態(tài) 一共是7個(gè)代表的是7merging
            cell的輸出。第二列和第三列上的點(diǎn),分別有一個(gè)點(diǎn)是藍(lán)色的,其余都是普通的黑色。后面的五列中,藍(lán)色點(diǎn)上還有紅色圈圈,則為輸出。

            以下理解,參考來自文章
            merging cell介紹了編碼的方式 |輸入|輸入|輸出|操作方式 |–|--|–|--|

            不太清楚他們是不是相互獨(dú)立的 本文中FPN一共有7個(gè)上述cell 因此用長度28的串就可以表示一個(gè)FPN 初始狀態(tài)有5個(gè)
            由于采用了7個(gè)merging cells 因此又多了7個(gè)狀態(tài)因此是12個(gè)狀態(tài) 但是上面的12的狀態(tài)并不是最終的輸出 還有一步處理,文中說

            Similar to [44], we take all feature layers that have not been connected to any of output layer and sum them to the output layer
            that has the corresponding resolution

            正是因?yàn)檫@一點(diǎn),你會(huì)看到有些點(diǎn)的輸入是三個(gè)輸入(merging cell 的輸入是兩輸入) 這是二次處理的結(jié)果,但是論文中并不是上面的這種理解方式。首先得到28個(gè)編碼之后,然后檢查是否有沒有用到的5個(gè)狀態(tài)中的一個(gè),然后與merging cell的輸出進(jìn)行sum。得到的結(jié)果才是中間狀態(tài)。
            編碼:
            一共有5行 8列 這是因?yàn)橛?個(gè)輸入狀態(tài) 7merging cell的結(jié)果 注意每一列都有一個(gè)中間狀態(tài) 一共是7個(gè)代表的是7merging cell的輸出 如果按照12345對于中間狀態(tài)的resolution進(jìn)行編碼的的化 從下往上依次是 1 2 3 4 5對于
            (b)圖就是4 5 1 4 2 3 5
            (f)圖就是2 2 1 2 3 5 4

          參考

          • CVPR 2019 | NAS-FPN:基于自動(dòng)架構(gòu)搜索的特征金字塔網(wǎng)絡(luò)


          瀏覽 176
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  欧美爆乳一区 | 日韩精品1区2区3区 | 开心五月天激情成人网 | 北条麻妃成人视频 | 成人在线台湾 |