<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          CVPR2021|特征金字塔的新方式YOLOF

          共 1880字,需瀏覽 4分鐘

           ·

          2021-03-27 14:53

          論文:You Only Look One-level Feature


          下載地址:

          https://arxiv.org/abs/2103.09460


          代碼

          https://github.com/megvii-model/YOLOF




          Introduction


          針對多尺度特征融合提出多層輸入和單層輸入的方式,針對分而治之提出在單層檢測和多層檢測的方式,兩者結合就是如下圖所示的MiMo,SiMo,MiSo,SiSo。


           

          根據圖ab可得出多尺度融合的特征所帶來的精度提升很少。對比圖ac,分而治之的方式可帶來12mAP的提升。

          這可以得出兩個結論:

          (1) 這表明C5層基本融合了全部語義信息,沒必要進行多尺度融合。

          (2) 分而治之帶來的益處遠多于多尺度特征融合。


          然而相比于單層檢測,使用分而治之意味著需要更多的內存,降低推理速度,且對于one-stages的檢測器來說結構更復雜。

           

          基于第一個實驗的結論,作者進行了第二個實驗--比較MiMoSiSo這兩種Encoder-Decoder方式。


          實驗結果如下圖所示,MiMo的精度比SiSo更高,但推理速度慢了很多,且MiMoSiSo的內存之比為134G vs 6G。

           

          經過分析,SiSo精度低的原因是有兩個:


          (1) C5的特征感受野的匹配的尺度范圍有限。

          (2) 在單層通過稀疏anchor方式產生的positive anchor數量極其不平衡。


          基于以上兩個實驗,作者提出不再使用多尺度融合,而是要擴大C5所能匹配的尺度范圍,這樣能在提高精度的同時,充分利用SiSo的速度和低內存的優(yōu)點。所使用的方式就是對這兩個問題進行改進。



          Methods


          提出Dilated Encoder來解決C5的尺度匹配范圍的問題,提出Uniform Matching來解決單層positive anchors數量不平衡的問題。

          Dilated Encoder


          為方便讀者理解,先補充一點說明,特征金字塔的一種方式就是FPN這種使用降采樣來構建,另一種方式就是通過多支路使用不同空洞率的空洞卷積 (dilation convolution)來構建。

          關于特征金字塔這種技術,在很多論文中提出了一些新的特征融合方式,在下一篇中將對特征金字塔進行技術總結,感興趣的讀者請關注公眾號《CV技術指南》的技術總結部分。

          在這里就是使用了第二種方式來構建特征金字塔,但有所不同的是,這里并不是使用多支路,而是將其串聯(lián),一條支路中使用四種空洞率的空洞卷積,看圖更容易理解。

           


          Dilated Encoder由一個Projector和四個Residual Blocks組成,其中Residual Blocks3x3卷積的空洞率是不一樣的。


          Uniform Matching


          MiMoSiSo產生的anchor的數量比為100K vs 5K,由于使用Max-IOU這種匹配方式,大的GT boxes會比小的GT boxes產生更多的positive anchor,這使得網絡在訓練過程中將更多的注意放在了大的 GT boxes,而忽視了小的。

          因此Uniform Matching的方式是使用最近鄰方式來匹配。具體方式是選擇GT boxes最近的Kboxes, 這樣的方式不管GT boxes大小可以匹配相同數量的Boxes。



          conclusion

          1.以608x608的輸入,YOLOF 2080Ti上以60fps的速度實現(xiàn)了44.3 mAP的精度。


          2.與YOLO_v4相比,在提高了0.8mAP的基礎上快了13%。


          3.達到RetinaNet的精度,并比它快2.5倍。


          4.僅用了一層特征就達到了DETR的精度,訓練速度快了7倍。


          ?------------------------------------------------


          歡迎微信搜索并關注「目標檢測與深度學習」,不被垃圾信息干擾,只分享有價值知識!


          10000+人已加入目標檢測與深度學習


                 

                 




          敬正在努力的我們! 


          瀏覽 48
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  亚洲一色在线 | 色婷婷欧美 | 人人草人人插 | 男女操逼视频免费观看网站 | 日韩中文字幕精品视频 |