<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          目標(biāo)檢測領(lǐng)域不容錯過的50篇論文簡讀

          共 20003字,需瀏覽 41分鐘

           ·

          2020-11-06 09:05

          【目標(biāo)檢測算法50篇速覽】一、檢測網(wǎng)絡(luò)的出現(xiàn)

          【GiantPandaCV導(dǎo)讀】用深度學(xué)習(xí)網(wǎng)絡(luò)來完成實際場景的檢測任務(wù)已經(jīng)是現(xiàn)在很多公司的常規(guī)做法了,但是檢測網(wǎng)絡(luò)是怎么來的,又是怎么一步步發(fā)展的呢?在檢測網(wǎng)絡(luò)不斷迭代的過程中,學(xué)者們的改進(jìn)都是基于什么思路提出并最終被證實其優(yōu)越性的呢?

          這個系列將從2013年RCNN開始,對檢測網(wǎng)絡(luò)發(fā)展過程中的50篇論文進(jìn)行閱讀,并嘗試梳理檢測網(wǎng)絡(luò)的發(fā)展脈絡(luò)。這個系列將按照以下安排梳理:

          1、檢測網(wǎng)絡(luò)從出現(xiàn)到成為一個完整的端到端模型。2、one stage 模型出現(xiàn)及two stage 的優(yōu)化。3、當(dāng)前 anchor base檢測算法的完整優(yōu)化思路。4、anchor free算法及檢測的最新進(jìn)展。

          第一篇 RCNN

          《Rich feature hierarchies for accurate object detection and semantic segmentation》

          提出時間:2014年

          針對問題:

          從Alexnet提出后,作者等人思考「如何利用卷積網(wǎng)絡(luò)來完成檢測任務(wù)」,即輸入一張圖,實現(xiàn)圖上目標(biāo)的定位(目標(biāo)在哪)和分類(目標(biāo)是什么)兩個目標(biāo),并最終完成了RCNN網(wǎng)絡(luò)模型。

          創(chuàng)新點:

          RCNN提出時,檢測網(wǎng)絡(luò)的執(zhí)行思路還是脫胎于分類網(wǎng)絡(luò)。也就是「深度學(xué)習(xí)部分僅完成輸入圖像塊的分類工作」。那么對檢測任務(wù)來說如何完成目標(biāo)的定位呢,作者采用的是Selective Search候選區(qū)域提取算法,來獲得當(dāng)前輸入圖上可能包含目標(biāo)的不同圖像塊,再將圖像塊裁剪到固定的尺寸輸入CNN網(wǎng)絡(luò)來進(jìn)行當(dāng)前圖像塊類別的判斷。下圖為RCNN論文中的網(wǎng)絡(luò)完整檢測流程圖。

          圖1

          詳解博客:https://blog.csdn.net/briblue/article/details/82012575。

          第二篇 OverFeat

          《OverFeat: Integrated Recognition, Localization and Detection using Convolutional Networks》

          提出時間:2014年

          針對問題:

          該論文討論了,CNN提取到的特征能夠同時用于定位和分類兩個任務(wù)。也就是在CNN提取到特征以后,在網(wǎng)絡(luò)后端組織兩組卷積或全連接層,一組用于實現(xiàn)定位,輸出當(dāng)前圖像上目標(biāo)的最小外接矩形框坐標(biāo),一組用于分類,輸出當(dāng)前圖像上目標(biāo)的類別信息。也是以此為起點,檢測網(wǎng)絡(luò)出現(xiàn)基礎(chǔ)主干網(wǎng)絡(luò)(backbone)+分類頭或回歸頭(定位頭)的網(wǎng)絡(luò)設(shè)計模式雛形。

          創(chuàng)新點:

          在這篇論文中還有兩個比較有意思的點,一是作者認(rèn)為全連接層其實質(zhì)實現(xiàn)的操作和1x1的卷積是類似的,而且用1x1的卷積核還可以避免FC對輸入特征尺寸的限制,那用1x1卷積來替換FC層,是否可行呢?作者在測試時通過將全連接層替換為1x1卷積核證明是可行的;二是提出了offset max-pooling,也就是對池化層輸入特征不能整除的情況,通過進(jìn)行滑動池化并將不同的池化層傳遞給后續(xù)網(wǎng)絡(luò)層來提高效果。如下為論文中的offset max-pooling示意圖。

          另外作者在論文里提到他的用法是先基于主干網(wǎng)絡(luò)+分類頭訓(xùn)練,然后切換分類頭為回歸頭,再訓(xùn)練回歸頭的參數(shù),最終完成整個網(wǎng)絡(luò)的訓(xùn)練。圖像的輸入作者采用的是直接在輸入圖上利用卷積核劃窗。然后在指定的每個網(wǎng)絡(luò)層上回歸目標(biāo)的尺度和空間位置。

          詳解的博客:https://blog.csdn.net/qq_35732097/article/details/79027095

          第三篇 MultiBox

          《Scalable Object Detection using Deep Neural Networks》

          提出時間:2014年multibox

          針對問題:

          既然CNN網(wǎng)絡(luò)提取的特征可以直接用于檢測任務(wù)(定位+分類),作者就嘗試將目標(biāo)框(可能包含目標(biāo)的最小外包矩形框)提取任務(wù)放到CNN中進(jìn)行。也就是「直接通過網(wǎng)絡(luò)完成輸入圖像上目標(biāo)的定位工作」。

          創(chuàng)新點:

          本文作者通過將物體檢測問題定義為輸出多個bounding box的回歸問題. 同時每個bounding box會輸出關(guān)于是否包含目標(biāo)物體的置信度, 使得模型更加緊湊和高效。

          先通過聚類獲得圖像中可能有目標(biāo)的位置聚類中心,(800個anchor box)然后學(xué)習(xí)預(yù)測不考慮目標(biāo)類別的二分類網(wǎng)絡(luò),背景or前景。用到了多尺度下的檢測。

          詳解的博客:https://blog.csdn.net/m0_45962052/article/details/104845125

          第四篇 DeepBox

          《DeepBox: Learning Objectness with Convolutional Networks》

          提出時間:2015年ICCV

          主要針對和嘗試解決問題:

          本文完成的工作與第三篇類似,都是對目標(biāo)框提取算法的優(yōu)化方案,區(qū)別是本文首先采用自底而上的方案來提取圖像上的疑似目標(biāo)框,然后再利用CNN網(wǎng)絡(luò)提取特征對目標(biāo)框進(jìn)行是否為前景區(qū)域的排序;而第三篇為直接利用CNN網(wǎng)絡(luò)來回歸圖像上可能的目標(biāo)位置。

          創(chuàng)新點:

          本文作者想通過CNN學(xué)習(xí)輸入圖像的特征,從而實現(xiàn)對輸入網(wǎng)絡(luò)目標(biāo)框是否為真實目標(biāo)的情況進(jìn)行計算,量化每個輸入框的包含目標(biāo)的可能性值。

          圖3

          詳解博客:https://www.cnblogs.com/zjutzz/p/8232740.html

          第五篇 AttentionNet

          AttentionNet: AggregatingWeak Directions for Accurate Object Detection》

          提出時間:2015年ICCV

          主要針對和嘗試解決問題:

          對檢測網(wǎng)絡(luò)的實現(xiàn)方案進(jìn)行思考,之前的執(zhí)行策略是,先確定輸入圖像中可能包含目標(biāo)位置的矩形框,再對每個矩形框進(jìn)行分類和回歸從而確定目標(biāo)的準(zhǔn)確位置,參考RCNN。那么能否直接利用回歸的思路從圖像的四個角點,逐漸得到目標(biāo)的最小外接矩形框和類別呢?

          創(chuàng)新點:

          通過從圖像的四個角點,逐步迭代的方式,每次計算一個縮小的方向,并縮小指定的距離來使得逐漸逼近目標(biāo)。作者還提出了針對多目標(biāo)情況的處理方式。

          詳解博客:https://blog.csdn.net/m0_45962052/article/details/104945913

          第六篇 SPPNet

          《Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition》

          提出時間:2014年SPPnet

          針對問題:

          如RCNN會將輸入的目標(biāo)圖像塊處理到同一尺寸再輸入進(jìn)CNN網(wǎng)絡(luò),在處理過程中就造成了圖像塊信息的損失。在實際的場景中,輸入網(wǎng)絡(luò)的目標(biāo)尺寸很難統(tǒng)一,而網(wǎng)絡(luò)最后的全連接層又要求輸入的特征信息為統(tǒng)一維度的向量。作者就嘗試進(jìn)行「不同尺寸CNN網(wǎng)絡(luò)提取到的特征維度進(jìn)行統(tǒng)一」。

          創(chuàng)新點:

          作者提出的SPPnet中,通過使用「特征金字塔池化」來使得最后的卷積層輸出結(jié)果可以統(tǒng)一到全連接層需要的尺寸,在訓(xùn)練的時候,池化的操作還是通過滑動窗口完成的,池化的核寬高及步長通過當(dāng)前層的特征圖的寬高計算得到。原論文中的特征金字塔池化操作圖示如下。

          圖4

          詳解的博客:https://blog.csdn.net/weixin_43624538/article/details/87966601

          第七篇 Multi Region CNN

          《Object detection via a multi-region & semantic segmentation-aware CNN model》

          提出時間:2015年

          針對問題:

          既然第三篇論文multibox算法提出了可以用CNN來實現(xiàn)輸入圖像中待檢測目標(biāo)的定位,本文作者就嘗試增加一些訓(xùn)練時的方法技巧來提高CNN網(wǎng)絡(luò)最終的定位精度。

          創(chuàng)新點:

          作者通過對輸入網(wǎng)絡(luò)的region進(jìn)行一定的處理(通過數(shù)據(jù)增強(qiáng),使得網(wǎng)絡(luò)利用目標(biāo)周圍的上下文信息得到更精準(zhǔn)的目標(biāo)框)來增加網(wǎng)絡(luò)對目標(biāo)回歸框的精度。具體的處理方式包括:擴(kuò)大輸入目標(biāo)的標(biāo)簽包圍框、取輸入目標(biāo)的標(biāo)簽中包圍框的一部分等并對不同區(qū)域分別回歸位置,使得網(wǎng)絡(luò)對目標(biāo)的邊界更加敏感。這種操作豐富了輸入目標(biāo)的多樣性,從而提高了回歸框的精度。

          圖5

          詳解博客:https://blog.csdn.net/alfred_torres/article/details/83022967

          第八篇 Fast R-CNN

          提出時間:2015年

          針對問題:

          RCNN中的CNN每輸入一個圖像塊就要執(zhí)行一次前向計算,這顯然是非常耗時的,那么如何優(yōu)化這部分呢?

          創(chuàng)新點:

          作者參考了SPPNet(第六篇論文),在網(wǎng)絡(luò)中實現(xiàn)了ROIpooling來使得輸入的圖像塊不用裁剪到統(tǒng)一尺寸,從而避免了輸入的信息丟失。其次是將整張圖輸入網(wǎng)絡(luò)得到特征圖,再將原圖上用Selective ?Search算法得到的目標(biāo)框映射到特征圖上,避免了特征的重復(fù)提取。

          圖6

          詳解博客:https://blog.csdn.net/u014380165/article/details/72851319

          第九篇 DeepProposal

          《DeepProposal: Hunting Objects by Cascading Deep Convolutional Layers》

          提出時間:2015年

          主要針對和嘗試解決問題:

          本文的作者觀察到CNN可以提取到很棒的對輸入圖像進(jìn)行表征的論文,作者嘗試通過實驗來對CNN網(wǎng)絡(luò)不同層所產(chǎn)生的特征的作用和情況進(jìn)行討論和解析。

          創(chuàng)新點:

          作者在不同的激活層上以滑動窗口的方式生成了假設(shè),并表明最終的卷積層可以以較高的查全率找到感興趣的對象,但是由于特征圖的粗糙性,定位性很差。相反,網(wǎng)絡(luò)的第一層可以更好地定位感興趣的對象,但召回率降低。

          第十篇 Faster R-CNN

          提出時間:2015年NIPS

          主要針對和嘗試解決問題:

          由multibox(第三篇)和DeepBox(第四篇)等論文,我們知道,用CNN可以生成目標(biāo)待檢測框,并判定當(dāng)前框為目標(biāo)的概率,那能否將該模型整合到目標(biāo)檢測的模型中,從而實現(xiàn)真正輸入端為圖像,輸出為最終檢測結(jié)果的,全部依賴CNN完成的檢測系統(tǒng)呢?

          創(chuàng)新點:

          將當(dāng)前輸入圖目標(biāo)框提取整合到了檢測網(wǎng)絡(luò)中,依賴一個小的目標(biāo)框提取網(wǎng)絡(luò)RPN來替代Selective Search算法,從而實現(xiàn)真正的端到端檢測算法。

          圖7

          詳解博客:https://zhuanlan.zhihu.com/p/31426458

          總結(jié)

          第一章是檢測CNN開始的階段,這個階段的模型最早從Alexnet的分類模型開始,首先提出了檢測網(wǎng)絡(luò)模型的基礎(chǔ)結(jié)構(gòu)RCNN(第一篇),接著討論了利用CNN網(wǎng)絡(luò)同時完成定位和分類任務(wù)的可能性(第二篇)。接著就是基于以上兩篇論文的思路,對檢測網(wǎng)絡(luò)的不同部分進(jìn)行完善。首先針對候選目標(biāo)框提取部分,也就是圖像中目標(biāo)的定位,分別為基于全圖直接回歸(第三篇),基于自底向上方案候選框的篩選(第四篇)以及基于全圖的迭代回歸(第五篇)做了嘗試;接著對不同尺度的目標(biāo)如何統(tǒng)一訓(xùn)練的問題進(jìn)行了優(yōu)化(第六篇),并通過一些訓(xùn)練技巧來強(qiáng)化網(wǎng)絡(luò)模型的精度(第七篇);然后是對CNN中不同層輸出特征情況的研究,以此奠定了CNN網(wǎng)絡(luò)不同層的特征具有不同的作用(第九篇);最終,總結(jié)并 凝練學(xué)者們提出的檢測模型結(jié)構(gòu)和改進(jìn),形成了兩階段目標(biāo)檢測框架Fast RCNN和Faster RCNN。也標(biāo)志著用CNN來實現(xiàn)端到端的目標(biāo)檢測任務(wù)的主流方向確定。

          【目標(biāo)檢測算法50篇速覽】二、檢測網(wǎng)絡(luò)檢測網(wǎng)絡(luò)設(shè)計范式的完善

          【GiantPandaCV導(dǎo)讀】到了第二章,檢測網(wǎng)絡(luò)已經(jīng)發(fā)展到了將整個的檢測任務(wù)都放在CNN中進(jìn)行,也開始有學(xué)者探討,CNN中每一層到底學(xué)到了什么信息。到此部分,現(xiàn)在通用的檢測模型結(jié)構(gòu)開始逐步的產(chǎn)生和完善,并向更高精度和更快速度邁進(jìn)。

          第一篇 FCN

          《Fully Convolutional Networks for Semantic Segmentation》

          提出時間:2015年

          針對問題:

          過往的檢測網(wǎng)絡(luò)大都采用了全連接層來對CNN提取到的特征進(jìn)行處理。作者嘗試討論那能否設(shè)計一個「全部由卷積層構(gòu)建的網(wǎng)絡(luò)模型」,來達(dá)到更精細(xì)的檢測效果。

          創(chuàng)新點:

          設(shè)計了一種全卷機(jī)的網(wǎng)絡(luò)來實現(xiàn)對輸入圖像的像素級分割任務(wù)。采用反卷積層對最后一個卷積層的feature map進(jìn)行上采樣, 使它恢復(fù)到輸入圖像相同的尺寸,從而可以對每個像素都產(chǎn)生了一個預(yù)測, 同時保留了原始輸入圖像中的空間信息, 最后在上采樣的特征圖上進(jìn)行逐像素分類。最后逐個像素計算softmax分類的損失, 相當(dāng)于每一個像素對應(yīng)一個訓(xùn)練樣本。

          圖1

          詳解博客:https://blog.csdn.net/qq_36269513/article/details/80420363

          第二篇 OHEM

          《Training Region-based Object Detectors with Online Hard Example Mining》

          提出時間:2016年

          針對問題:

          本文作者的出發(fā)點是對faster rcnn論文算法的訓(xùn)練流程進(jìn)行改進(jìn),從而提高該模型的檢測精度。該操作也側(cè)面說明了網(wǎng)絡(luò)的訓(xùn)練過程,「難例對模型性能提升是重要的」。

          創(chuàng)新點:

          利用難例挖掘技術(shù)在CNN中的應(yīng)用來優(yōu)化訓(xùn)練流程,從而使得Fast RCNN網(wǎng)絡(luò)模型的檢測精度提高。在第t次迭代時,輸入圖片到卷積網(wǎng)絡(luò)中得到特征圖,然后 把特征圖和所有的RoIs輸入到RoI網(wǎng)絡(luò)中并計算所有RoIs的損失,把損 失從高到低排序,然后選擇B/N個RoIs。這里有個小問題,位置上相鄰 的RoIs通過RoI網(wǎng)絡(luò)后會輸出相近的損失,這樣損失就翻倍。作者為了 解決這個問題,使用了NMS(非最大值抑制)算法,先把損失按高到低排 序,然后選擇最高的損失,并計算其他RoI這個RoI的IoU(交叉比),移除IoU大于一定閾值的RoI,然后反復(fù)上述流程直到選擇了B/N個RoIs。

          詳解博客:https://zhuanlan.zhihu.com/p/58162337

          第三篇 YOLOv1

          提出時間:2016年

          針對問題:

          主流的檢測網(wǎng)絡(luò)都是兩段式的,因為要先提取疑似目標(biāo)框,再對目標(biāo)框進(jìn)行精細(xì)定位和分類,所以耗時都會很高,那么能不能設(shè)計「一種一段式的網(wǎng)絡(luò),既能達(dá)到檢測的效果,又能降低耗時呢」?

          創(chuàng)新點:

          作者創(chuàng)新的提出了,依賴回歸和在輸出特征圖上劃分grid直接進(jìn)行回歸和分類的網(wǎng)絡(luò)模型,從而去掉了顯式的提取疑似目標(biāo)框的流程,回歸的思路一定程度上,可以參考第二章第二篇,該網(wǎng)絡(luò)模型設(shè)計思路降低了檢測流程的耗時,形成了新的一段式檢測網(wǎng)絡(luò)設(shè)計模式。

          詳解博客:https://www.jianshu.com/p/cad68ca85e27

          第四篇 G-CNN

          《G-CNN: an Iterative Grid Based Object Detector》

          提出時間:2016年

          針對問題:

          「既然yolov1創(chuàng)新的提出了grid劃分網(wǎng)格并在網(wǎng)格內(nèi)直接回歸目標(biāo)框的思路來替換顯式提取目標(biāo)框的方案,那能不能將該方案應(yīng)用到兩段式的網(wǎng)絡(luò)模型中,從而即利用了兩段式的精度又加快了速度?」

          創(chuàng)新點:

          作者在fast rcnn上做試驗,用grid來替換selective search算法,并逐步迭代回歸到目標(biāo)的真實位置。

          詳解博客:https://www.jianshu.com/p/17139e4c5580

          第五篇 AZ-Net

          《Adaptive Object Detection Using Adjacency and ZoomPrediction》

          提出時間:2016年CVPR

          針對問題:

          作者嘗試對faster rcnn中的RPN部分進(jìn)行優(yōu)化,主要是在保證精度的前提下,提高該部分的目標(biāo)框提取速度,從而實現(xiàn)對faster rcnn的優(yōu)化。

          創(chuàng)新點:

          AZ-net,主要對深度檢測網(wǎng)絡(luò)中的RPN部分進(jìn)行優(yōu)化,「利用遞歸的思路來避免生成Region proposal時候的大量重復(fù)操作和計算資源浪費」。也就是對輸入圖像分塊,再逐步向下分塊直到當(dāng)前塊判斷無目標(biāo)。

          詳解博客:https://blog.csdn.net/qq_34135560/article/details/84951384

          第六篇 Inside-OutsideNet

          《Inside-OutsideNet:Detecting Objects in Context with Skip Poolingand Recurrent Neural Networks》

          提出時間:2016年

          針對問題:

          由第一章第九篇論文,我們可以知悉網(wǎng)絡(luò)的淺層和深層所獲取到的圖像特征是從局部到整體逐漸抽象的。那么對最終的目標(biāo)檢測任務(wù)來說,我們就需要淺層的特征信息來對較小目標(biāo)進(jìn)行檢測,還需要深層的特征信息來對較大目標(biāo)實現(xiàn)檢測,「如何協(xié)調(diào)淺層和深層的特征來達(dá)到對不同尺度的目標(biāo)都比較好的檢測效果呢」?

          創(chuàng)新點:

          提取不同層的特征,經(jīng)過L2正則后拼接,并使用了iRNN結(jié)構(gòu)來提高檢測效果,是2016年精度最高的監(jiān)測模型,最早的利用多層特征融合來進(jìn)行檢測的論文。

          圖2

          詳解博客:https://blog.csdn.net/u014119694/article/details/88423331

          第七篇 HyperNet

          《HyperNet: Towards Accurate Region Proposal Generationand Joint Object Detection》

          提出時間:2016年

          針對問題:

          有faster rcnn網(wǎng)絡(luò)里的RPN子網(wǎng)絡(luò)以后,雖然將先驗的目標(biāo)框從幾千減少到了幾百,但是還是存在著大量的冗余,如何近一步提高先驗框提取部分的性能并改進(jìn)檢測網(wǎng)絡(luò)?

          創(chuàng)新點:

          作者嘗試「跳層提取特征」,即分別從網(wǎng)絡(luò)的淺層和深層提取特征。既能獲取高層語義,又可以得到低層高分辨率的位置信息。提高小目標(biāo)檢測效果。

          圖3

          詳解博客:https://blog.csdn.net/qq_35608277/article/details/80432907

          第八篇 CRAFT

          《CRAFT Objects from Images》

          提出時間:2016年

          針對問題:

          作者在本篇論文中,認(rèn)為faster rcnn網(wǎng)絡(luò)模型仍舊存在改進(jìn)的空間,通過任務(wù)細(xì)化,來改進(jìn)網(wǎng)絡(luò)RPN部分和分類部分的性能。

          創(chuàng)新點:

          對于生成目標(biāo)proposals階段,論文在RPN的后面加了一個二值的Fast RCNN分類器來對RPN生成的proposals進(jìn)行進(jìn)一步的篩選,留下一些高質(zhì)量的proposals;對于第二階段的目標(biāo)proposals分類,論文在原來的分類器后又級聯(lián)了N個類別(不包含背景類)的二值分類器以進(jìn)行更精細(xì)的目標(biāo)檢測

          詳解博客:https://blog.csdn.net/scarecrowliu/article/details/53067529

          第九篇 MultiPathNet

          《A MultiPath Network for Object Detection》

          提出時間:2016年

          針對問題:

          本篇論文也是在總結(jié)跳層提取特征、輸入訓(xùn)練樣本的多個不同IOU等模型訓(xùn)練技巧的基礎(chǔ)上,對faster rcnn模型進(jìn)行的改進(jìn)。

          創(chuàng)新點:

          MPN網(wǎng)絡(luò),是對Fast R-CNN的改進(jìn),改進(jìn)的點主要有三個:

          (1)跳躍結(jié)構(gòu):在VGG網(wǎng)絡(luò)里,從conv1到conv4,每層conv之后都有一次2*2的max pooling,4次max pooling之后,特征圖將下采樣到原先的1/16,這會導(dǎo)致信息的丟失。所以將具有豐富信息的較早層連接至后面的網(wǎng)絡(luò)。(2)中心區(qū)域:背景信息對于小目標(biāo)檢測識別來說是很有用的,所以作者使用了4種不同大小的region crops,分別是1x,1.5x,2x和4x。在每種情況下,使用RoI Pooling技術(shù)將它們固定到相同大小。送入全連接層。四個輸出連接成一個長向量,用于打分和框回歸。(3)積分損失函數(shù):Fast R-CNN里所有IoU>50%的proposals的得分是相等的,作者改進(jìn)了損失函數(shù),設(shè)置6個不同大小的IoU,分別計算得分然后求平均。這樣的話,IoU越高,得分就越高

          詳解博客:https://blog.csdn.net/qq_37124765/article/details/54906517

          第十篇 SSD

          提出時間:2016年CVPR

          針對問題:

          一段式的網(wǎng)絡(luò)從yolov1推出以后,因其對遮擋多目標(biāo)檢測效果不理想、小目標(biāo)檢測不理想等原因,仍舊存在很大的提升空間,本篇論文的作者通過結(jié)合多層特征的檢測結(jié)果,對yolov1進(jìn)行改進(jìn),從而增強(qiáng)其對目標(biāo)尤其是小目標(biāo)的檢測能力,成為了一段式檢測網(wǎng)絡(luò)的里程碑。

          圖4

          創(chuàng)新點:

          繼yolov1之后,一段式目標(biāo)檢測的又一里程碑,相較于yolov1,采用了多個卷積層的特征來進(jìn)行檢測,顯著提升對小目標(biāo)的檢測能力;第二點是引入了初始框的設(shè)計,也就是對用于檢測的特征圖,也就是說在每個特征圖的單元格的中心設(shè)置一系列尺度和大小不同的初始框,這些初始框都會反向映射到原圖的某一個位置,如果某個初始框的位置正好和真實目標(biāo)框的位置重疊度很高,那么就通過損失函數(shù)預(yù)測這個初始框的類別,同時對這些初始框的形狀進(jìn)行微調(diào),以使其符合我們標(biāo)記的真實目標(biāo)框。以這種設(shè)計來完成一段式網(wǎng)絡(luò)的anchor設(shè)定。

          詳解博客:https://blog.csdn.net/u013044310/article/details/89380273

          總結(jié)

          到本章,學(xué)者們開始對兩段式的網(wǎng)絡(luò),進(jìn)行速度和精度上的優(yōu)化改進(jìn),其中很明顯的特征是學(xué)者們都注意到了不同層的特征混合使用可以對網(wǎng)絡(luò)的檢測精度有很大的提高。與此同時,我們也可以看到,針對兩段式網(wǎng)絡(luò)檢測速度低的問題,基于回歸的思想,一段式的檢測網(wǎng)絡(luò)開始出現(xiàn)并在SSD網(wǎng)絡(luò)上達(dá)到了不錯的檢測效果。以此開始基于anchor的檢測網(wǎng)絡(luò)的一段式和兩段式網(wǎng)絡(luò)齊頭并進(jìn)。

          【目標(biāo)檢測算法50篇速覽】三、檢測網(wǎng)絡(luò)優(yōu)化及改進(jìn)

          【GiantPandaCV導(dǎo)讀】檢測網(wǎng)絡(luò)模型發(fā)展到16年已經(jīng)基本形成了一段式和兩段式的兩種網(wǎng)絡(luò)設(shè)計模式,兩者的共同點是均采用了anchor based的設(shè)計結(jié)構(gòu)來達(dá)到對輸入特征圖遍歷的效果。但是反映出來的現(xiàn)象是兩段式網(wǎng)絡(luò)的精度更高,一段式網(wǎng)絡(luò)速度更快,兩者都對待檢測目標(biāo)的尺度適應(yīng)能力存在一定的瓶頸,那么如何繼續(xù)提高特征表達(dá)來增強(qiáng)網(wǎng)絡(luò)性能呢?基于anchor的思路也引入了相對較多的超參數(shù),如何繼續(xù)簡化超參數(shù)的數(shù)量呢?本章我們將沿著這個問題進(jìn)行2016年到2018年論文的速覽。

          第一篇 MS-CNN

          《A Unified Multi-scale Deep Convolutional Neural Network for Fast Object Detection》

          提出時間:2016

          針對問題:

          多尺度目標(biāo)的檢測問題仍舊是檢測任務(wù)的一個重點問題,既然已經(jīng)有學(xué)者考慮了在網(wǎng)絡(luò)的不同層上完成對不同尺度的目標(biāo)檢測任務(wù),那么具體怎么運用多層的特征呢,本文作者的思路是對不同的輸出層設(shè)計不同尺度的目標(biāo)檢測器。

          創(chuàng)新點:

          對于不同的輸出層設(shè)計不同尺度的目標(biāo)檢測器,完成多尺度下的檢測問題,使用特征的上采樣代替輸入圖像的上采樣步驟。設(shè)計一個去卷積層,來增加特征圖的分辨率,使得小目標(biāo)依然可以被檢測出來。這里使用了特征圖的deconvolutional layer(反卷積層)來代替input圖像的上采樣,可以大大減少內(nèi)存占用,提高速度。

          詳解博客:https://blog.csdn.net/app_12062011/article/details/77945816

          第二篇 R-FCN

          《R-FCN: Object Detection via Region-based Fully Convolutional Networks》

          提出時間:2016

          針對問題:

          分類網(wǎng)絡(luò)對輸入特征圖中目標(biāo)的位置信息是不敏感的,而檢測網(wǎng)絡(luò)即需要對目標(biāo)的位置敏感,還需要保證足夠的分類精度。如何解決或者平衡這個矛盾?按我們的理解來說就是,對分類網(wǎng)絡(luò)來說輸入的特征圖,目標(biāo)在圖上的不同位置其損失差別不大,但是對檢測網(wǎng)絡(luò)來說,就需要考慮定位的損失,定位的損失再經(jīng)過回傳,會改變網(wǎng)絡(luò)的權(quán)重參數(shù),從而可能對分類的性能產(chǎn)生影響。

          創(chuàng)新點:

          主要貢獻(xiàn)在于解決了“分類網(wǎng)絡(luò)的位置不敏感性(translation-invariance in image classification)”與“檢測網(wǎng)絡(luò)的位置敏感性(translation-variance in object detection)”之間的矛盾,在提升精度的同時利用“位置敏感得分圖(position-sensitive score maps)”提升了檢測速度。具體就是把每個目標(biāo)輸出為kk(c+1)的特征向量,k*k每一層表征當(dāng)前目標(biāo)的上,下左右等細(xì)分位置的heatmap圖。

          1

          詳解博客:https://zhuanlan.zhihu.com/p/30867916

          第三篇 PVANET

          《PVANET: Deep but Lightweight Neural Networks for Real-time Object Detection》

          提出時間:2016年

          針對問題:

          本篇論文繼續(xù)在faster rcnn網(wǎng)絡(luò)上深耕,綜合之前提出的多層特征融合、淺層特征計算冗余和inception結(jié)構(gòu)來改善faster rcnn網(wǎng)絡(luò)的性能。

          創(chuàng)新點:

          改進(jìn)了faster rcnn的基礎(chǔ)特征提取網(wǎng)絡(luò),在不影響精度的前提下加速。主要是三個點:1)C.RELU,C.ReLU(x)=[ReLU(x), ReLU(-x)],認(rèn)為淺層卷積核的一半計算都是冗余的。2)Inception結(jié)構(gòu)的引入。3)多層特征的融合。以盡可能的利用細(xì)節(jié)和抽象特征。

          詳解博客:https://blog.csdn.net/u014380165/article/details/79502113

          第四篇 DSSD

          《DSSD : Deconvolutional Single Shot Detector》

          提出時間:2017

          針對問題:

          繼續(xù)在SSD的基礎(chǔ)上嘗試提高對小目標(biāo)的檢測能力。

          創(chuàng)新點:

          在網(wǎng)絡(luò)中添加了反卷積的結(jié)構(gòu),并通過在backbone中使用resnet結(jié)構(gòu)來提高淺層特征的表達(dá)能力。

          2

          詳解博客:https://blog.csdn.net/u010725283/article/details/79115477/

          第五篇 YOLOv2/YOLO9000

          《YOLO9000:Better, Faster, Stronger》

          提出時間:2017年

          針對問題:

          對yolov1進(jìn)行改進(jìn),借鑒了anchor、多特征層融合檢測等網(wǎng)絡(luò)改進(jìn)技巧,在保證檢測速度的前提下,提高了yolo系列的檢測精度。

          創(chuàng)新點:

          在v1的基礎(chǔ)上,用anchor來強(qiáng)化grid,提高輸入的分辨率,用BN替代dropout,約束anchor的中心點變動區(qū)間,新的backbone

          詳解博客:https://blog.csdn.net/shanlepu6038/article/details/84778770

          第五篇《YOLO9000:Better, Faster, Stronger》

          提出時間:2017年

          針對問題:

          對yolov1進(jìn)行改進(jìn),借鑒了anchor、多特征層融合檢測等網(wǎng)絡(luò)改進(jìn)技巧,在保證檢測速度的前提下,提高了yolo系列的檢測精度。

          創(chuàng)新點:

          在v1的基礎(chǔ)上,用anchor來強(qiáng)化grid,提高輸入的分辨率,用BN替代dropout,約束anchor的中心點變動區(qū)間,新的backbone

          詳解博客:https://blog.csdn.net/shanlepu6038/article/details/84778770

          第六篇 FPN

          《Feature Pyramid Networks for Object Detection》

          提出時間:2017年

          針對問題:

          本篇論文的作者嘗試通過增強(qiáng)CNN主干網(wǎng)絡(luò)輸出的特征來進(jìn)一步增強(qiáng)網(wǎng)絡(luò)的檢測精度。

          創(chuàng)新點:

          CNN目標(biāo)檢測網(wǎng)絡(luò)開始嘗試?yán)枚鄬犹卣魅诤蟻磉M(jìn)行大目標(biāo)+小目標(biāo)的檢測,本篇主要是提出新的跳層特征融合及用作分類的方式。「FPN網(wǎng)絡(luò)的提出也成為后續(xù)檢測的主干網(wǎng)絡(luò)常用結(jié)構(gòu)」。

          3

          詳解博客:https://blog.csdn.net/kk123k/article/details/86566954

          第七篇《RON: Reverse Connection with Objectness Prior Networks for Object Detection》

          提出時間:2017年

          針對問題:

          對一段式網(wǎng)絡(luò)模型的訓(xùn)練精度問題進(jìn)行優(yōu)化,作者發(fā)現(xiàn)一段式網(wǎng)絡(luò)在訓(xùn)練時相對兩段式網(wǎng)絡(luò)正負(fù)樣本不均衡程度更大且沒有有效的抑制手段。不均衡的正負(fù)樣本會不利于網(wǎng)絡(luò)模型收斂。

          創(chuàng)新點:

          為了優(yōu)化one-stage目標(biāo)檢測算法的正負(fù)樣本不均勻的問題,添加了objectness prior層來篩選正負(fù)樣本,并采用了和FPN類似的特征融合思路,使得淺層特征的表現(xiàn)能力得到了提高。

          4

          詳解博客:https://blog.csdn.net/shanlepu6038/article/details/84778770

          第八篇《DeNet: Scalable Real-time Object Detection with Directed Sparse Sampling》

          提出時間:2017年

          針對問題:

          本文作者注意到,當(dāng)前的檢測網(wǎng)絡(luò)模型都應(yīng)用了anchor來完成對特征圖的近似遍歷,其中的anchor超參數(shù)的設(shè)置也很重要。作者嘗試?yán)^續(xù)簡化anchor的超參數(shù),即將基于一定長寬anchor組合的檢測算法,取anchor的極限,通過預(yù)測圖像中目標(biāo)的角點來完成對圖像中目標(biāo)的定位。

          創(chuàng)新點:

          之前的two stage 和 one stage都是基于anchor來實現(xiàn)目標(biāo)建議框的選取,這是第一篇,嘗試在anchor盛行的時候,不手工設(shè)置anchor,而是利用目標(biāo)角點檢測來實現(xiàn)目標(biāo)位置檢測的方案。

          詳解博客:https://blog.csdn.net/yaoqi_isee/article/details/70184686;https://www.cnblogs.com/fourmi/p/10771589.html

          第九篇《CoupleNet: Coupling Global Structure with Local Parts for Object Detection》

          提出時間:2017年

          針對問題:

          本文是對R-FCN的一個改進(jìn)。作者觀察到R-FCN中,對輸入特征圖直接映射為目標(biāo)的不同組件的,對紋理較少的目標(biāo),比如沙發(fā),就可能定位誤差偏大。所以作者考慮在R-FCN中加上全局信息。

          創(chuàng)新點:

          在R-FCN中加上了對全局信息的提取,因為R-FCN是直接將共享的Feature Map 映射為了每類目標(biāo)的各個組件,而對沙發(fā)這種單獨結(jié)構(gòu)文理很少的,更需要目標(biāo)的全局信息,ROI Pooling則保留了類似的信息,所以兩者合一一起用。

          詳解博客:https://blog.csdn.net/qq_34564947/article/details/77462819

          第十篇《Focal Loss for Dense Object Detection》

          提出時間:2017年

          針對問題:

          如第七篇論文的工作,在網(wǎng)絡(luò)模型訓(xùn)練的過程中,正負(fù)樣本的不平衡是影響模型精度的重要因素。第七篇采用的的策略和兩段式網(wǎng)絡(luò)相似,都是通過篩選生成的目標(biāo)框是否包含正樣本來過濾。本文作者則從損失函數(shù)的角度,「通過設(shè)計的Focal Loss降低重復(fù)的簡單樣本對模型權(quán)重的影響,強(qiáng)調(diào)難例對網(wǎng)絡(luò)學(xué)習(xí)的益處,以此來提高模型權(quán)重收斂的方向,使其達(dá)到更高精度?!?/strong>

          創(chuàng)新點:

          定義新的損失函數(shù)Focal loss來使得難訓(xùn)練的樣本對loss貢獻(xiàn)大,從而一定程度優(yōu)化訓(xùn)練樣本類別不均衡的問題。

          詳解博客:https://www.bilibili.com/read/cv2172717

          第十一篇《DSOD: Learning Deeply Supervised Object Detectors from Scratch》

          提出時間:2017年

          針對問題:

          本文作者認(rèn)為當(dāng)前的檢測模型大部分都是以大數(shù)據(jù)集訓(xùn)練得到的分類模型為骨干網(wǎng)絡(luò),再將其遷移到當(dāng)前數(shù)據(jù)集的檢測任務(wù)上,雖然分類和檢測可以共用特征,但是檢測直接從頭訓(xùn)練的模型和分類網(wǎng)絡(luò)訓(xùn)練出來的模型參數(shù)還是有區(qū)別的。所以作者嘗試提供一種從頭有監(jiān)督的訓(xùn)練檢測網(wǎng)絡(luò)模型的方案。

          創(chuàng)新點:

          擺脫預(yù)訓(xùn)練模型,從頭訓(xùn)練自己的模型,從而擺脫結(jié)構(gòu)依賴。

          https://arleyzhang.github.io/articles/c0b67e9a/

          第十二篇《MASK R-CNN》

          提出時間:2017年

          針對問題:

          作者嘗試從采用分割網(wǎng)絡(luò)的思路來實現(xiàn)檢測的任務(wù),也就是對每個像素點判斷其類別,再通過不同實例來確定其最小外接矩形框從而達(dá)到檢測的目的。

          創(chuàng)新點:

          主要是ROI align技術(shù),也就是不進(jìn)行截斷,而是差值方式的ROI POOLING 。

          6

          詳解博客:https://blog.csdn.net/WZZ18191171661/article/details/79453780

          第十三篇《Deformable Convolutional Networks》

          提出時間:2017年

          針對問題:

          作者認(rèn)為卷積神經(jīng)網(wǎng)絡(luò)由于其構(gòu)建模塊中的固定幾何結(jié)構(gòu)而固有地僅限于模型幾何轉(zhuǎn)換,即因為卷積核是固定的形狀,無法自適應(yīng)的對輸入特征圖上的特征進(jìn)行有效的提取。所以作者設(shè)計了可變形的卷積層和池化層。

          創(chuàng)新點:

          可變形卷積,通過借鑒空洞卷積實現(xiàn),通過單獨的層學(xué)習(xí)采樣點位置;可變形roi,roi pooling里面的每個bin都可以有一個offset來進(jìn)行平移。

          詳解博客:https://zhuanlan.zhihu.com/p/52476083

          第十四篇《YOLOv3》

          提出時間:2018年

          針對問題:

          主要是作者對yolov2網(wǎng)絡(luò)的持續(xù)優(yōu)化和改進(jìn)。

          創(chuàng)新點:

          主要是借鑒FPN和resnet來提高主干網(wǎng)絡(luò)的特征層表征能力。

          詳解博客:https://blog.csdn.net/dz4543/article/details/90049377

          第十五篇《Scale-Transferrable Object Detection》

          提出時間:2018年

          針對問題:

          作者認(rèn)為類似原始FPN中的特征的融合并不能夠很好的增強(qiáng)特征的表達(dá)能力,所以設(shè)計了新的融合方式來強(qiáng)化這部分。

          創(chuàng)新點:

          提出了一種新的在幾乎不增加參數(shù)和計算量前提下得到大尺寸featuremap的方法,首先將輸入feature map在channel維度上按照r^2長度進(jìn)行劃分,也就是劃分成C個,每個通道長度為r^2的feature map,然后將每個11r^2區(qū)域轉(zhuǎn)換成rr維度作為輸出feature map上rr大小的結(jié)果,最后得到rHrWC的feature map。

          7

          詳解博客:https://blog.csdn.net/u014380165/article/details/80602130

          第十六篇《Single-Shot Refinement Neural Network for Object Detection》

          提出時間:2018年

          針對問題:

          作者觀察到兩段式網(wǎng)絡(luò)有較好的精度表現(xiàn),而一段式網(wǎng)絡(luò)有更優(yōu)秀的速度性能,作者嘗試結(jié)合兩者的特點來構(gòu)建新的網(wǎng)絡(luò)結(jié)構(gòu)。

          創(chuàng)新點:

          TCB,ARM與ODM模塊的提出。

          詳解博客:https://blog.csdn.net/woduitaodong2698/article/details/85258458?utm_medium=distribute.pc_relevant_right.none-task-blog-BlogCommendFromMachineLearnPai2-5.nonecase&depth_1-utm_source=distribute.pc_relevant_right.none-task-blog-BlogCommendFromMachineLearnPai2-5.nonecase

          第十七篇《Relation Networks for Object Detection》

          提出時間:2018年

          針對問題:

          大家都有感覺,物體間或者物體內(nèi)一些區(qū)域的關(guān)聯(lián)性是有助于目標(biāo)檢測任務(wù)的,但是之前沒人有實際的證明如何使用這種關(guān)聯(lián)性是一定可行的,本文作者就嘗試在檢測網(wǎng)絡(luò)中添加注意力模塊來提高網(wǎng)絡(luò)表現(xiàn)。

          創(chuàng)新點:

          計算object之間的relation,作為訓(xùn)練參數(shù),從而提高檢測精度。

          8

          詳解博客:https://blog.csdn.net/weixin_42102248/article/details/102858695

          第十八篇《Cascade R-CNN: Delving into High Quality Object Detection》

          提出時間:2018年

          針對問題:

          本文也是對網(wǎng)絡(luò)訓(xùn)練過程中的優(yōu)化技巧,作者發(fā)現(xiàn)訓(xùn)練檢測網(wǎng)絡(luò)時候需要設(shè)置超參數(shù)IOU閾值來判斷當(dāng)前定位框是否為正樣本,但是一個單一的IOU閾值可能并不是合用的,所以嘗試做級聯(lián)的IOU閾值來輔助訓(xùn)練。

          創(chuàng)新點:

          為了優(yōu)化RPN中的單一IOU問題對最終檢測精度的影響問題而提出,做不同IOU閾值的級聯(lián)來提高計算最終損失的正負(fù)樣本質(zhì)量及比例,從而提高性能。

          詳解博客:https://blog.csdn.net/qq_17272679/article/details/81260841

          第十九篇《Receptive Field Block Net for Accurate and Fast

          Object Detection》

          提出時間:2018年

          針對問題:

          本文作者的工作也是對主干網(wǎng)絡(luò)的不同層特征融合工作的優(yōu)化進(jìn)行的。主要是為了更有效且更高效的實現(xiàn)特征的融合。

          創(chuàng)新點:

          提出RFB結(jié)構(gòu),利用空窗卷積來進(jìn)行特征的融合。

          9

          詳解博客:https://blog.csdn.net/u014380165/article/details/81556769

          第二十篇《Object Detection based on Region Decomposition and Assembly》

          提出時間:2019年

          針對問題:

          本文作者還是針對兩段式網(wǎng)絡(luò)中目標(biāo)框提取部分進(jìn)行優(yōu)化,來提高檢測精度。

          創(chuàng)新點:

          思路還是借鑒之前的論文,對正樣本圖像塊進(jìn)行拆分左右上下半邊和其本身,再分別送入后續(xù)卷積,目的是讓網(wǎng)絡(luò)盡可能多的看到當(dāng)前正樣本的豐富的特征。

          10

          詳解博客:https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/88148760

          第二十一篇《M2Det: A Single-Shot Object Detector based on Multi-Level Feature Pyramid

          Network》

          提出時間:2019年

          針對問題:

          作者認(rèn)為FPN的特征金字塔最開始就是為了分類而設(shè)計的,在檢測網(wǎng)絡(luò)中需要進(jìn)行一定的適配才能達(dá)到最好的性能。

          創(chuàng)新點:

          原始的backbone更適合分類任務(wù),改善backbone的使用機(jī)制,使其更適應(yīng)檢測任務(wù)。兩個新模塊1)TUM 通過卷積、上采樣和相同shape相加來得到多尺度的特征2)FFMv2 特征融合模塊,通過卷積核upsample來統(tǒng)一輸入feature map的shape,再concat ?3)SFAM ?對輸入的特征先concat,再進(jìn)行通道層面的attention,并轉(zhuǎn)化為權(quán)重參數(shù)相乘,再送入分類和回歸。

          詳解博客:https://blog.csdn.net/hanjiangxue_wei/article/details/103311395

          本章總結(jié)

          到本章以后,所提到的21篇論文大部分都是對已有的兩種檢測網(wǎng)絡(luò)設(shè)計范式的調(diào)整和優(yōu)化,學(xué)者們探索了多層特征的融合并最終推出了FPN,并在FPN基礎(chǔ)上對檢測問題進(jìn)行適配;學(xué)者們還探索了在檢測網(wǎng)絡(luò)中添加注意力模塊的方式和方法,并證明其有效。我們還要注意到第八篇和第十三篇論文,其中第八篇討論了anchor從多個框壓縮為點的可能性,第十三篇則探討了,可能純卷積的結(jié)構(gòu)并不是檢測問題的最優(yōu)選項,這個方向仍舊有優(yōu)化的可能。

          完成前三章的速覽以后,到18年底的檢測網(wǎng)絡(luò)發(fā)展情況相信讀者已經(jīng)基本心里有數(shù)了,第四章我們將開始介紹從19年的anchor free類目標(biāo)檢測算法,到最新的transformer目標(biāo)檢測算法并嘗試提供相應(yīng)的代碼倉庫,以便更好的把握檢測網(wǎng)絡(luò)的發(fā)展。

          第一篇《CornerNet: Detecting Objects as Paired Keypoints》

          提出時間:2018

          針對問題:

          如第三章第八篇,有學(xué)者提出了基于目標(biāo)的角點進(jìn)行目標(biāo)檢測的思路,這種思路的優(yōu)勢就是避免了anchor設(shè)計時不同長寬比的調(diào)整,且在不同的網(wǎng)絡(luò)層不同尺度的設(shè)計也能統(tǒng)一,從而降低了超參數(shù)的數(shù)量。

          創(chuàng)新點:

          anchor free ,利用corner來做,1)內(nèi)嵌映射2)角點的特征值回傳及l(fā)oss計算方式。

          CornerNet

          詳解博客:https://blog.csdn.net/u014380165/article/details/83032273

          第二篇《ExtremeNet》

          提出時間:2019

          針對問題:

          單純用角點進(jìn)行目標(biāo)的檢測存在一個問題是對目標(biāo)來說其角點大多都不在目標(biāo)上,單純采用角點來進(jìn)行目標(biāo)的檢測并沒有很好的利用目標(biāo)樣例上的特征。那么如何參考利用目標(biāo)內(nèi)的特征來實現(xiàn)更高精度的anchor free目標(biāo)檢測就是作者著力解決的問題。

          創(chuàng)新點:

          anchor free 方案,通過目標(biāo)的四個方向的極值點和中心點來實現(xiàn)目標(biāo)檢測。

          ExtremeNet

          詳解博客:https://blog.csdn.net/sinat_37532065/article/details/86693930

          庫地址:https://github.com/xingyizhou/ExtremeNet

          第三篇《FCOS》(建議重點細(xì)看)

          提出時間:2019

          針對問題:

          嘗試將anchor free算法和已有的一段式檢測網(wǎng)絡(luò)結(jié)合,提出性能更加優(yōu)越的檢測網(wǎng)絡(luò)模型。

          創(chuàng)新點:

          FCOS以一種類似語義分割的方式,按像素進(jìn)行預(yù)測,解決目標(biāo)檢測問題

          詳解博客:https://blog.csdn.net/sinat_37532065/article/details/105252340

          github倉庫:https://github.com/tianzhi0549/FCOS/

          第四篇《CenterNet》(建議重點細(xì)看)

          提出時間:2019

          針對問題:

          作者參考了cornernet和extremenet,發(fā)現(xiàn)兩者雖然都嘗試優(yōu)化了anchor設(shè)計的復(fù)雜超參數(shù)調(diào)優(yōu),但是其檢測目標(biāo)特征點的組隊過程仍舊略顯繁復(fù)。所以作者考慮如何進(jìn)一步優(yōu)化該問題來達(dá)到更高效的anchor-free檢測模型。

          創(chuàng)新點:

          作者考慮只使用目標(biāo)的中心點(center),從而將目標(biāo)檢測任務(wù)轉(zhuǎn)換為圖像中的關(guān)鍵點檢測任務(wù)。然后通過在這個關(guān)鍵點來回歸其所指向的目標(biāo)類別以及以當(dāng)前點為中心構(gòu)建的目標(biāo)最小外接矩形到改點的四個回歸值來完成目標(biāo)的檢測任務(wù)。

          詳解博客:https://baijiahao.baidu.com/s?id=1644905321397514137&wfr=spider&for=pc

          第五篇《FSAF》

          提出時間:2019

          針對問題:

          當(dāng)前檢測算法大多都是anchor based,通過設(shè)置不同的anchor來在FPN輸出的多張?zhí)卣鲌D上進(jìn)行目標(biāo)的檢測,我們一般經(jīng)驗的認(rèn)為在網(wǎng)絡(luò)深層的特征圖上檢測大目標(biāo)而在淺層的特征圖上檢測小目標(biāo)。但是作者發(fā)現(xiàn)在實際網(wǎng)絡(luò)訓(xùn)練過程中,可能40x40和60x60的目標(biāo)被分配給了FPN的不同層。為了嘗試優(yōu)化對FPN特征層的利用,同時降低過采樣anchor帶來的計算量,作者提出了該網(wǎng)絡(luò)模型。

          創(chuàng)新點:

          主要是通過在檢測網(wǎng)絡(luò)中添加anchor free的特征層篩選模組,來強(qiáng)化每個輸入的實例所歸屬的判定特征層,從而充分利用FPN的性能。提出了Online feature selection方法,改善了基于anchor機(jī)制和feature pyramids的single-shot檢測器的兩個潛在問題。FSAF在COCO數(shù)據(jù)集上達(dá)到了state-of-art,mAP為44.6%,超過了所有single-shot檢測器。同時額外的計算量很小。

          FSAF

          詳解博客:https://www.cnblogs.com/fourmi/p/10602936.html

          第六篇《NAS-FPN》

          提出時間:2019

          針對問題:

          有學(xué)者認(rèn)為當(dāng)前FPN的設(shè)計并不一定是最優(yōu)的結(jié)果,結(jié)合現(xiàn)下的NAS搜索技術(shù),嘗試得到更優(yōu)的FPN結(jié)構(gòu)

          創(chuàng)新點:

          利用網(wǎng)絡(luò)結(jié)構(gòu)搜索技術(shù)來得到的結(jié)構(gòu)更好的FPN結(jié)構(gòu)

          詳解博客:https://blog.csdn.net/qq_41375609/article/details/98499442

          第七篇《DetNAS》

          提出時間:2019

          針對問題:

          作者認(rèn)為之前檢測網(wǎng)絡(luò)的backbone大多都是基于分類任務(wù)完成的,分類任務(wù)得到的模型并不關(guān)心圖像中目標(biāo)的位置信息,所以作者嘗試?yán)肗AS技術(shù)得到更適合檢測任務(wù)的backbone網(wǎng)絡(luò)。

          創(chuàng)新點:

          利用網(wǎng)絡(luò)結(jié)構(gòu)搜索技術(shù)來得到的檢測網(wǎng)絡(luò)專用backbone,作者的試驗證明確實是對檢測精度有提升。

          詳解博客:https://blog.csdn.net/mrjkzhangma/article/details/103369432

          第八篇《EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks》

          提出時間:2019

          針對問題:

          卷積神經(jīng)網(wǎng)絡(luò)(ConvNets)通常是在固定的資源預(yù)算下發(fā)展起來的,如果有更多的資源可用的話,則會擴(kuò)大規(guī)模以獲得更好的精度,比如可以提高「網(wǎng)絡(luò)深度(depth)」、「網(wǎng)絡(luò)寬度(width)「和」輸入圖像分辨率 (resolution)「大小。但是通過人工去調(diào)整 depth, width, resolution 的放大或縮小的很困難的,在計算量受限時有放大哪個縮小哪個,這些都是很難去確定的,換句話說,這樣的組合空間太大,人力無法窮舉?;谏鲜霰尘?,作者嘗試提出」復(fù)合模型擴(kuò)張方法」結(jié)合「神經(jīng)結(jié)構(gòu)搜索技術(shù)」獲得的更優(yōu)的網(wǎng)絡(luò)結(jié)構(gòu)。

          創(chuàng)新點:

          該論文提出了一種新的模型縮放方法,它使用一個簡單而高效的復(fù)合系數(shù)來從depth, width, resolution 三個維度放大網(wǎng)絡(luò),不會像傳統(tǒng)的方法那樣任意縮放網(wǎng)絡(luò)的維度,基于神經(jīng)結(jié)構(gòu)搜索技術(shù)可以獲得最優(yōu)的一組參數(shù)(復(fù)合系數(shù))。

          詳解博客:https://blog.csdn.net/mrjkzhangma/article/details/103369432

          代碼:https://github.com/qubvel/efficientnet

          第九篇《DETR》

          提出時間:2020

          針對問題:

          作者嘗試將NLP領(lǐng)域的transformer引入目標(biāo)檢測任務(wù)中,目的是想進(jìn)一步的降低網(wǎng)絡(luò)的超參數(shù)。

          創(chuàng)新點:

          第一個將 Transformer 成功整合為檢測 pipeline 中心構(gòu)建塊的目標(biāo)檢測框架。基于Transformers的端到端目標(biāo)檢測,沒有NMS后處理步驟、真正的沒有anchor,且對標(biāo)超越Faster RCNN

          詳解博客:https://blog.csdn.net/c2250645962/article/details/106399116

          代碼:https://github.com/facebookresearch/detr

          本章總結(jié)

          到了本章,學(xué)者們嘗試進(jìn)一步優(yōu)化anchor base類算法,考慮到anchor設(shè)計時的大量經(jīng)驗參數(shù),進(jìn)一步的優(yōu)化anchor設(shè)計,完成了從框匹配到直接點回歸的進(jìn)化;對檢測網(wǎng)絡(luò)的backbone方面,學(xué)者們也通過嘗試希望更好的利用輸入的特征來提高檢測的效果。其中CenterNet和FCOS的代碼和論文建議大家有時間的話精度。再之后就是嘗試將transformer整合進(jìn)檢測任務(wù)中,例如DETR模型,有精力的同學(xué)也推薦閱讀和學(xué)習(xí)。


          歡迎關(guān)注GiantPandaCV, 在這里你將看到獨家的深度學(xué)習(xí)分享,堅持原創(chuàng),每天分享我們學(xué)習(xí)到的新鮮知識。( ? ?ω?? )?

          有對文章相關(guān)的問題,或者想要加入交流群,歡迎添加BBuf微信:

          二維碼

          為了方便讀者獲取資料以及我們公眾號的作者發(fā)布一些Github工程的更新,我們成立了一個QQ群,二維碼如下,感興趣可以加入。

          公眾號QQ交流群


          瀏覽 103
          點贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  色五月激情五月 | 在线免费观看一区 | 草草久久久亚洲AV | 欧美黑人操逼网 | 久久精品内射国产 |