<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          FPN來做目標(biāo)檢測,效果這么強(qiáng)!YOLOF開源:只需要看一層特征|CVPR2021

          共 6757字,需瀏覽 14分鐘

           ·

          2021-03-19 17:08

          點擊下面卡片關(guān)注AI算法與圖像處理”,選擇加"星標(biāo)"或“置頂”

          重磅干貨,第一時間送達(dá)

          作者丨h(huán)appy
          審稿丨鄧富城
          編輯丨極市平臺

          導(dǎo)讀

           

          曠視科技&中科院對單階段目標(biāo)檢測中的FPN進(jìn)行了重思考,采用一級特征進(jìn)行檢測替換復(fù)雜的特征金字塔來解決優(yōu)化問題,提出了YOLOF。該方法取得了與RetinaNet相當(dāng)?shù)男阅芮彝评硭俣瓤?.5倍。

          paper: https://arxiv.org/abs/2103.09460

          code: https://github.com/megvii-model/YOLOF

          本文是曠視科技&中科院孫劍團(tuán)隊在單階段目標(biāo)檢測方面一次突破性的創(chuàng)新,它針對單階段目標(biāo)檢測中的FPN(特征金字塔)進(jìn)行了深入的分析并得出:FPN最重要的成分是分而治之的處理思路緩解了優(yōu)化難問題。針對FPN的多尺度特征、分而治之思想分別提出了Dilated編碼器提升特征感受野,Uniform Matching進(jìn)行不同尺度目標(biāo)框的匹配;結(jié)合所提兩種方案得到了本文的YOLOF,在COCO數(shù)據(jù)集上,所提方案取得了與RetinaNet相當(dāng)?shù)男阅芮彝评硭俣瓤?.5倍;所提方法取得了與YOLOv4相當(dāng)?shù)男阅芮彝评硭俣瓤?3%。

          Abstract

          本文對單階段目標(biāo)檢測中的FPN進(jìn)行了重思考并指出FPN的成功之處在于它對目標(biāo)檢測優(yōu)化問題的分而治之解決思路而非多尺度特征融合。從優(yōu)化的角度出發(fā),作者引入了另一種方式替換復(fù)雜的特征金字塔來解決該優(yōu)化問題:從而可以僅僅采用一級特征進(jìn)行檢測?;谒岷唵味行У慕鉀Q方案,作者提出了YOLOF(You Only Look One-level Feature)。

          YOLOF有兩個關(guān)鍵性模塊:Dilated Encoder與Uniform Matching,它們對最終的檢測帶來了顯著的性能提升。COCO基準(zhǔn)數(shù)據(jù)集的實驗表明了所提YOLOF的有效性,YOLOF取得與RetinaNet-FPN同等的性能,同時快2.5倍;無需transformer層,YOLOF僅需一級特征即可取得與DETR相當(dāng)?shù)男阅?,同時訓(xùn)練時間少7倍。以 大小的圖像作為輸入,YOLOF取得了44.3mAP的指標(biāo)且推理速度為60fps@2080Ti,它比YOLOv4快13%。

          本文的貢獻(xiàn)主要包含以下幾點:

          • FPN的關(guān)鍵在于針對稠密目標(biāo)檢測優(yōu)化問題的“分而治之”解決思路,而非多尺度特征融合;
          • 提出了一種簡單而有效的無FPN的基線模型YOLOF,它包含兩個關(guān)鍵成分(Dilated Encoder與Uniform Matching)以減輕與FPN的性能差異;
          • COCO數(shù)據(jù)集上的實驗證明了所提方法每個成分的重要性,相比RetinaNet,DETR以及YOLOv4,所提方法取得相當(dāng)?shù)男阅芡瑫r具有更快的推理速度。

          Introduction

          本文主要針對單階段檢測器中的FPN的兩個重要因素進(jìn)行了研究,作者以RetinaNet為基線,通過解耦多尺度特征融合、分而治之進(jìn)行實驗設(shè)計。作者將FPN視作多輸入多輸出編碼器(MiMo,見下圖),它對骨干網(wǎng)絡(luò)的多尺度特征進(jìn)行編碼并為后接的解碼器提供多尺度特征表達(dá)。

          為進(jìn)行更好的對比分析,作者設(shè)計了MiMo、SiMo、MiSo、SiSo等四種類型的解碼器,見上圖。令人驚艷的是:SiMo編碼器僅僅采用C5特征且不進(jìn)行特征融合即可取得與MiMo編碼器相當(dāng)?shù)男阅?/strong>,且性能差異小于1mAP。相反,MiSo編碼器的性能則出現(xiàn)了顯著下降。這個現(xiàn)象意味著:

          • C5包含了充分的用于檢測不同尺度目標(biāo)的上下文信息,這促使SiMo編碼器可以取得與MiMo相當(dāng)?shù)慕Y(jié)果;
          • 多尺度特征融合帶來的收益要遠(yuǎn)小于分而治之帶來的收益,因此多尺度特征融合可能并非FPN最重要的影響因素;相反,分而治之將不同尺度的目標(biāo)檢測進(jìn)行拆分處理,緩解了優(yōu)化問題。

          Cost Analysis of MiMo Encoders

          如前所述FPN的成功在于它對于優(yōu)化問題的解決思路,而非多尺度特征融合。為說明這一點,作者對FPN(即MiMo)進(jìn)行了簡單的分析。

          以RetinaNet-ResNet50為基線方案,作者將檢測任務(wù)的流水線分解為三個關(guān)鍵部分:骨干網(wǎng)絡(luò)、Encoder以及Decoder。下圖給出了不同部分的Flops對比,可以看到:

          • 相比SiMoEncoder,MiMoEncoder帶來顯著的內(nèi)存負(fù)載問題(134G vs 6G);
          • 基于MiMoEncoder的檢測器推理速度明顯要慢于SiSoEncoder檢測器(13FPS vs 34FPS);
          • 這個推理速度的變慢主要是因為高分辨率特征部分的目標(biāo)檢測導(dǎo)致,即C3特征部分。

          基于上述分析,作者期望尋找另一種解決優(yōu)化問題的方案,且保持檢測器簡單、精確、快速。

          Method

          受上述目標(biāo)驅(qū)動以及新發(fā)現(xiàn):C5特征包含足夠的信息進(jìn)行大量目標(biāo)檢測,作者嘗試用簡單的SiSoEncoder替換復(fù)雜的MiCoEncoder。但是,這種簡單的替換會帶來顯著性的性能下降(35.9mAP vs 23.7mAP),見上圖。對于這種情況 ,作者進(jìn)行了仔細(xì)分析得出SiSoEncoder性能下降的兩個重要原因:

          • The range of scales matching to the C5 feature's receptive field is limited
          • The imbalance problem on positive anchors

          接下來,作者將針對這兩個問題進(jìn)行討論并提出對應(yīng)的解決方案。

          Limited Scale Range

          識別不同尺寸的目標(biāo)是目標(biāo)檢測的一個根本挑戰(zhàn)。一種常見的方案是采用多級特征。在MiMo與SiMoEncoder檢測器中,作者構(gòu)建了不同感受野的多級特征(C3-C7)并在匹配尺度上進(jìn)行目標(biāo)檢測。然而,單級特征破壞了上述游戲規(guī)則,在SiSoEncoder中僅有一個輸出特征。

          以下圖(a)為例,C5特征感受野僅僅覆蓋有限的尺度范圍,當(dāng)目標(biāo)尺度與感受野尺度不匹配時就導(dǎo)致了檢測性能的下降。為使得SiSoEncoder可以檢測所有目標(biāo),作者需要尋找一種方案生成具有可變感受野的輸出特征,以補(bǔ)償多級特征的缺失。

          在C5特征的基礎(chǔ)上,作者采用堆疊擴(kuò)張卷積方式提升其感受野。盡管其覆蓋的尺度范圍可以在一定程度上擴(kuò)大,但它仍無法覆蓋所有的目標(biāo)尺度。以上圖(b)為例,相比圖(a),它的感受野尺度朝著更大尺度進(jìn)行了整體的偏移。然后,作者對原始尺度范圍與擴(kuò)大后尺度范圍通過相加方式進(jìn)行組合,因此得到了覆蓋范圍更廣的輸出特征,見上圖(c)。

          上圖給出了采用本文所提SiSoEncoder結(jié)構(gòu)示意圖,作者稱之為Dilated Encoder。它包含兩個主要成分:Prejector與Residual Block。投影層采用 卷積,然后采用 卷積提取上下文語義信息(作用類似FPN);然后堆疊四個不同擴(kuò)張因子的殘差模塊以生成多感受野的輸出特征(覆蓋所有的目標(biāo)尺度)。

          Imbalance Problem on Positive Anchors

          正錨點的定義對于目標(biāo)檢測中的優(yōu)化問題尤其重要。在基于錨點的檢測方案中,正錨點的定義策略主要受錨點與真實box之間的IoU決定。在RetinaNet中,如果IoU大于0.5則錨點設(shè)為正。作者稱之為Max-IoU matching

          在MiMoEncoder中,錨點在多級特征上以稠密方式進(jìn)行預(yù)定義,同時按照尺度生成特征級的正錨點。在分而治之的機(jī)制下,Max-IoU匹配使得每個尺度下的真實Box可以生成充分?jǐn)?shù)量的正錨點。然而,當(dāng)作者采用SiSoEncoder時,錨點的數(shù)量會大量的減少(比如從100K減少到5K),導(dǎo)致了稀疏錨點。稀疏錨點進(jìn)一步導(dǎo)致了采用Max-IoU匹配時的不匹配問題。以下圖為例,大的目標(biāo)框包含更多的正錨點,這就導(dǎo)致了正錨點的不平衡問題,進(jìn)而導(dǎo)致了檢測器更多關(guān)注于大目標(biāo)而忽視了小目標(biāo)。

          為解決上述正錨點不平衡問題,作者提出了Uniform Matching策略:對于每個目標(biāo)框采用k近鄰錨點作為正錨點,這就確保了所有的目標(biāo)框能夠以相同數(shù)量的正錨點進(jìn)行均勻匹配。正錨點的平衡確保了所有的目標(biāo)框都參與了訓(xùn)練且貢獻(xiàn)相等。在實現(xiàn)方面,參考了Max-IoU匹配,作者對Uniform matching中的IoU閾值進(jìn)行設(shè)置以忽略大IoU負(fù)錨點和小IoU正錨點。

          YOLOF

          基于上述解決方案呢,作者提出了一種快速而直接的單級特征檢測框架YOLOF,它由骨干網(wǎng)絡(luò)、Encoder以及Decoder構(gòu)成,整體結(jié)構(gòu)如下圖所示。

          • BackBone。在所有模型中,作者簡單的采用了ResNet與ResNeXt作為骨干網(wǎng)絡(luò),所有模型在ImageNet上與訓(xùn)練,輸出C5特征該通道數(shù)為2048,下采樣倍率為32;
          • Encoder。在這部分,作者參考FPN添加了兩個投影層,將通道數(shù)降到512,然后堆疊四個不同擴(kuò)張因子的殘差模塊;
          • Decoder。在這部分,作者采用了RetinaNet的主要設(shè)計思路,它包含兩個并行的任務(wù)相關(guān)的Head分別用于分類和回歸。作者僅僅添加兩個微小改動:(1) 參考DETR中的FFN設(shè)計讓兩個Head的卷積數(shù)量不同,回歸Head包含4個卷積而分類Head則僅包含兩個卷積;(2) 作者參考AutoAssign在回歸Head上對每個錨點添加了一個隱式目標(biāo)預(yù)測。
          • Other Detail。正如前面所提到的YOLOF中的預(yù)定義錨點是稀疏的,這會導(dǎo)致目標(biāo)框與錨點之間的匹配質(zhì)量下降。作者在圖像上添加了一個隨機(jī)移動操作以緩解該問題,同時作者發(fā)現(xiàn)這種移動對于最終的分類是有幫助的。

          Experiments

          為說明所提方案的有效性,作者在MS COC數(shù)據(jù)集上與RetinaNet、DETR、YOLOv4進(jìn)行了對比。

          上表給出了所提方法與RetineNet在COCO數(shù)據(jù)集上的性能對比。從中可以看到:

          • YOLOF取得了與改進(jìn)版RetinaNet+相當(dāng)?shù)男阅埽瑫r減少了57%的計算量,推理速度快了2.5倍;
          • 當(dāng)采用相同骨干網(wǎng)絡(luò)時,由于僅僅采用C5特征,YOLOF在小目標(biāo)檢測方面要比RetinaNet+弱一些(低3.1);但在大目標(biāo)檢測方面更優(yōu)(高3.3);
          • 當(dāng)YOLOF采用ResNeXt作為骨干網(wǎng)絡(luò)時,它可以取得與RetinaNet在小目標(biāo)檢測方面相當(dāng)?shù)男阅芮彝评硭俣韧瑯酉喈?dāng)。
          • 經(jīng)由多尺度測試輔助,所提方法取得了47.1mAP的指標(biāo),且在小目標(biāo)方面取得了極具競爭力的性能31.8mAP。

          上圖給出了所提方法與DETR的性能對比。從中可以看到:

          • YOLOF取得了與DETR相匹配的的性能;
          • 相比DETR,YOLOF可以從更深的網(wǎng)絡(luò)中收益更多,比如ResNet50時低0.4,在ResNet10時多了0.2;
          • 在小目標(biāo)檢測方面,YOLOF要優(yōu)于DETR;在大目標(biāo)檢測方面,YOLOF要弱于DETR。
          • 在收斂方面,YOLOF要比DETR快7倍,這使得YOLOF更適合于作為單級特征檢測器的基線。

          最后,作者再來看一下所提方法與YOLOv4的性能對比(注:這里采用了與YOLOv4類似的數(shù)據(jù)增強(qiáng)方法,并采用了三階段訓(xùn)練方案,同時對骨干網(wǎng)絡(luò)的最后階段進(jìn)行了調(diào)整)。從上表作者可以看到:

          • YOLOF-DC5取得了比YOLOv4快13%的推理速度,且性能高0.8mAP;
          • YOLOF-DC5在小目標(biāo)檢測方面弱于YOLOv4,而在大目標(biāo)檢測方面顯著優(yōu)于YOLOv4;
          • 這也就意味著:單級檢測器具有極大的潛力獲得SOTA速度-精度均衡性能。

          全文到此結(jié)束,更多消融實驗與分析建議各位同學(xué)查看原文。

                
          個人微信(如果沒有備注不拉群!
          請注明:地區(qū)+學(xué)校/企業(yè)+研究方向+昵稱



          下載1:何愷明頂會分享


          AI算法與圖像處理」公眾號后臺回復(fù):何愷明,即可下載。總共有6份PDF,涉及 ResNet、Mask RCNN等經(jīng)典工作的總結(jié)分析


          下載2:終身受益的編程指南:Google編程風(fēng)格指南


          AI算法與圖像處理」公眾號后臺回復(fù):c++,即可下載。歷經(jīng)十年考驗,最權(quán)威的編程規(guī)范!



              
          下載3 CVPR2021

          AI算法與圖像處公眾號后臺回復(fù):CVPR,即可下載1467篇CVPR 2020論文 和 CVPR 2021 最新論文

          點亮 ,告訴大家你也在看




          瀏覽 55
          點贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  麻豆三级片在线 | 麻豆精品在线观看 | 私人女仆扫地偷懒被主人颜色吃现在被喷尿洗脸 | 97精品欧美91久久久久久久 | 无码精品一区二区三区四区网站 |