<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          目標(biāo)檢測(cè) | 解決小目標(biāo)檢測(cè)!多尺度方法匯總

          共 9428字,需瀏覽 19分鐘

           ·

          2021-11-15 22:11


          點(diǎn)擊上方小白學(xué)視覺(jué)”,選擇加"星標(biāo)"或“置頂

          重磅干貨,第一時(shí)間送達(dá)

          傳統(tǒng)的圖像金字塔


          最開(kāi)始在深度學(xué)習(xí)方法流行之前,對(duì)于不同尺度的目標(biāo),大家普遍使用將原圖構(gòu)建出不同分辨率的圖像金字塔,再對(duì)每層金字塔用固定輸入分辨率的分類(lèi)器在該層滑動(dòng)來(lái)檢測(cè)目標(biāo),以求在金字塔底部檢測(cè)出小目標(biāo);或者只用一個(gè)原圖,在原圖上,用不同分辨率的分類(lèi)器來(lái)檢測(cè)目標(biāo),以求在比較小的窗口分類(lèi)器中檢測(cè)到小目標(biāo)。經(jīng)典的基于簡(jiǎn)單矩形特征(Haar)+級(jí)聯(lián)Adaboost與Hog特征+SVM的DPM目標(biāo)識(shí)別框架,均使用圖像金字塔的方式處理多尺度目標(biāo),早期的CNN目標(biāo)識(shí)別框架同樣采用該方式,但對(duì)圖像金字塔中的每一層分別進(jìn)行CNN提取特征,耗時(shí)與內(nèi)存消耗均無(wú)法滿(mǎn)足需求。但該方式毫無(wú)疑問(wèn)仍然是最優(yōu)的。值得一提的是,其實(shí)目前大多數(shù)深度學(xué)習(xí)算法提交結(jié)果進(jìn)行排名的時(shí)候,大多使用多尺度測(cè)試。同時(shí)類(lèi)似于SNIP使用多尺度訓(xùn)練,均是圖像金字塔的多尺度處理。


          SNIP/SNIPER中的多尺度處理


          • SNIP:尺度歸一化


          論文地址

          https://arxiv.org/abs/1711.08189

          代碼地址

          https://github.com/mahyarnajibi/SNIPER


          當(dāng)前的物體檢測(cè)算法通常使用微調(diào)的方法,即先在ImageNet數(shù)據(jù)集上訓(xùn)練分類(lèi)任務(wù),然后再遷移到物體檢測(cè)的數(shù)據(jù)集上,如COCO來(lái)訓(xùn)練檢測(cè)任務(wù)。我們可以將ImageNet的分類(lèi)任務(wù)看做224×224的尺度,而COCO中的物體尺度大部分在幾十像素的范圍內(nèi),并且包含大量小物體,物體尺度差距更大,因此兩者的樣本差距太大,會(huì)導(dǎo)致映射遷移(Domain Shift)的誤差。


          SNIP是多尺度訓(xùn)練(Multi-Scale Training)的改進(jìn)版本。MST的思想是使用隨機(jī)采樣的多分辨率圖像使檢測(cè)器具有尺度不變特性。然而作者通過(guò)實(shí)驗(yàn)發(fā)現(xiàn),在MST中,對(duì)于極大目標(biāo)和過(guò)小目標(biāo)的檢測(cè)效果并不好,但是MST也有一些優(yōu)點(diǎn),比如對(duì)一張圖片會(huì)有幾種不同分辨率,每個(gè)目標(biāo)在訓(xùn)練時(shí)都會(huì)有幾個(gè)不同的尺寸,那么總有一個(gè)尺寸在指定的尺寸范圍內(nèi)。

          SNIP的做法是只對(duì)size在指定范圍內(nèi)的目標(biāo)回傳損失,即訓(xùn)練過(guò)程實(shí)際上只是針對(duì)某些特定目標(biāo)進(jìn)行,這樣就能減少domain-shift帶來(lái)的影響。

          SNIP的網(wǎng)絡(luò)結(jié)構(gòu)如下圖所示:

          具體的實(shí)現(xiàn)細(xì)節(jié)


          (1)3個(gè)尺度分別擁有各自的RPN模塊,并且各自預(yù)測(cè)指定范圍內(nèi)的物體。


          (2)對(duì)于大尺度的特征圖,其RPN只負(fù)責(zé)預(yù)測(cè)被放大的小物體,對(duì)于小尺度的特征圖,其RPN只負(fù)責(zé)預(yù)測(cè)被縮小的大物體,這樣真實(shí)的物體尺度分布在較小的區(qū)間內(nèi),避免了極大或者極小的物體。


          (3)在RPN階段,如果真實(shí)物體不在該RPN預(yù)測(cè)范圍內(nèi),會(huì)被判定為無(wú)效,并且與該無(wú)效物體的IoU大于0.3的Anchor也被判定為無(wú)效的Anchor。



          (4)在訓(xùn)練時(shí),只對(duì)有效的Proposal進(jìn)行反向傳播。在測(cè)試階段,對(duì)有效的預(yù)測(cè)Boxes先縮放到原圖尺度,利用Soft NMS將不同分辨率的預(yù)測(cè)結(jié)果合并。


          (5)實(shí)現(xiàn)時(shí)SNIP采用了可變形卷積的卷積方式,并且為了降低對(duì)于GPU的占用,將原圖隨機(jī)裁剪為1000×1000大小的圖像。使用Deformable-RFCN檢測(cè)器提取單一分辨率的候選。Deformable-RFCN的主干網(wǎng)絡(luò)選用ResNet-101,訓(xùn)練分辨率為800x1200。在RPN中選用5個(gè)錨尺寸。分類(lèi)時(shí),選用沒(méi)有Deformable Position Sensitive RoIPooling的主干網(wǎng)路為ResNet-50的Deformable-RFCN。使用帶有雙線(xiàn)性插值的Position Sensitive RoIPooling, 因?yàn)樗鼘⒆詈笠粚又械木矸e核數(shù)量減少了3倍。NMS的閾值為0.3,不是端到端的訓(xùn)練。使用ResNet-50以及消除deformable PSRoI filters可以減少3倍的時(shí)間并且節(jié)省GPU內(nèi)存。

          • 訓(xùn)練與測(cè)試分辨率從不一致的時(shí)候性能會(huì)下降;

          • 大分辨率輸入圖像雖然能提升小目標(biāo)檢測(cè)性能,但同時(shí)使得大目標(biāo)過(guò)大導(dǎo)致其很難分類(lèi),此消彼長(zhǎng),最終精度提升并不明顯;

          • 多尺度訓(xùn)練(Mutil-Scale training),采樣到的圖像分辨率很大(1400x2000),導(dǎo)致大目標(biāo)更大,而圖像分辨率過(guò)小時(shí)(480x640),導(dǎo)致小目標(biāo)更小,這些均產(chǎn)生了非最優(yōu)的結(jié)果;

          • SNIP針對(duì)不同分辨率挑選不同的proposal進(jìn)行梯度傳播,然后將其他的設(shè)置為0。即針對(duì)每一個(gè)圖像金字塔的每一個(gè)尺度進(jìn)行正則化表示;

          總體來(lái)說(shuō),SNIP讓模型更專(zhuān)注于物體本身的檢測(cè),剝離了多尺度的學(xué)習(xí)難題。在網(wǎng)絡(luò)搭建時(shí),SNIP也使用了類(lèi)似于MST的多尺度訓(xùn)練方法,構(gòu)建了3個(gè)尺度的圖像金字塔,但在訓(xùn)練時(shí),只對(duì)指定范圍內(nèi)的Proposal進(jìn)行反向傳播,而忽略掉過(guò)大或者過(guò)小的Proposal。

          SNIP方法雖然實(shí)現(xiàn)簡(jiǎn)單,但其背后卻蘊(yùn)藏深意,更深入地分析了當(dāng)前檢測(cè)算法在多尺度檢測(cè)上的問(wèn)題所在,在訓(xùn)練時(shí)只選擇在一定尺度范圍內(nèi)的物體進(jìn)行學(xué)習(xí),在COCO數(shù)據(jù)集上有3%的檢測(cè)精度提升,可謂是大道至簡(jiǎn)。

          • SNIPER:SNIP方法的改進(jìn)

          論文地址:

          https://arxiv.org/abs/1805.09300?
          代碼地址:

          https://github.com/MahyarNajibi/SNIPER


          SNIPER的關(guān)鍵是減少了SNIP的計(jì)算量。SNIP借鑒了multi-scale training的思想進(jìn)行訓(xùn)練,multi-scale training是用圖像金字塔作為模型的輸入,這種做法雖然能夠提高模型效果,但是計(jì)算量的增加也非常明顯,因?yàn)槟P托枰幚砻總€(gè)scale圖像的每個(gè)像素,而SNIPER(Scale Normalization for Image Pyramids with Efficient Resampling)算法以適當(dāng)?shù)谋壤幚韌round truth(稱(chēng)為chips)周?chē)纳舷挛膮^(qū)域,在訓(xùn)練期間每個(gè)圖像生成的chips的數(shù)量會(huì)根據(jù)場(chǎng)景復(fù)雜度而自適應(yīng)地變化,由于SNIPER在采樣后的低分辨率的chips上運(yùn)行,故其可以在訓(xùn)練期間收益于Batch Normalization,而不需要在GPU之間再用同步批量標(biāo)準(zhǔn)化進(jìn)行統(tǒng)計(jì)信息。實(shí)驗(yàn)證明,BN有助于最后性能的提升。


          這些chips主要分為兩大類(lèi):


          一種是postivice chips,這些chips包含ground truth;

          另一種是從RPN網(wǎng)絡(luò)輸出的ROI抽樣得到的negative chips,這些chips相當(dāng)于是難分類(lèi)的背景,而那些容易分類(lèi)的背景就沒(méi)必要進(jìn)行多尺度訓(xùn)練了。


          因此模型最終只處理這些chips,而不是處理整張圖像,這樣就達(dá)到提升效果的同時(shí)提升速度。相比于SNIP,基于Faster RCNN(ResNet101作為Backbone)的實(shí)驗(yàn)結(jié)果顯示SNIPER的mAP值比SNIP算法提升了4.6百分點(diǎn),所以效果也還是非常不錯(cuò)的。在單卡V100上,每秒可以處理5張圖像,這個(gè)速度在two-stage的算法中來(lái)看并不快,但是效果是非常好。

          SNIPER的思路:

          把圖片丟到網(wǎng)絡(luò)中時(shí),就會(huì)產(chǎn)生不同尺度的feature map。作者的想法就是在特征圖上的ground truth box周?chē)rop一些圖片,這些圖片稱(chēng)為chips。

          1、如何選擇positive chips :?就是在圖像金字塔的每一層中,都設(shè)定一個(gè)范圍,在該大小范圍內(nèi)的目標(biāo)就可以標(biāo)出來(lái)作為ground truth box,然后對(duì)圖片中g(shù)round truth box所在的地方進(jìn)行crop,crop出來(lái)的圖片就是chips。選擇positive chips的一個(gè)要求就是,每一個(gè)pos chip都至少應(yīng)該覆蓋一個(gè)groud-truth box,當(dāng)然一個(gè)groud-truth box可以被多個(gè)pos chips包含。

          2、如何選擇negative chips :?如果只基于前面的positive chip,那么因?yàn)榇罅康谋尘皡^(qū)域沒(méi)有參與訓(xùn)練,所以容易誤檢(比較高的false positive rate),傳統(tǒng)的multi scale訓(xùn)練方式因?yàn)橛写罅康谋尘皡^(qū)域參與計(jì)算,所以誤檢率沒(méi)那么高,但因?yàn)榇蟛糠直尘皡^(qū)域都是非常容易分類(lèi)的,所以這部分計(jì)算量是可以避免的,于是就有了negative chip seleciton。選擇negative chips的目的在于要讓網(wǎng)絡(luò)更容易去判斷出哪些是背景,而不必花費(fèi)太多的時(shí)間在上面。在Faster-RCNN中的RPN的其中一步就是,將anchor和ground truth box交并比小于0.3視為背景,全部去掉(去掉易分樣本)。然后剩下的再去掉完全覆蓋groun truth box的proposal(去掉易分樣本),大部分proposal都是具有假陽(yáng)性的,也就是和ground truth 都有一部分的交集,但是比較小,我們的negative chips都從這里來(lái)。(negative chips就是難分樣本)。這樣可以用來(lái)減少假陽(yáng)率。

          3、標(biāo)注label:每一張chip上大概產(chǎn)生300個(gè)proposal,但是對(duì)這300個(gè)proposals不做限制(比如faster-rcnn會(huì)濾除掉背景部分,我們不這樣),而是對(duì)里面的一些proposal抽出來(lái)做positive proposal。

          4、模型訓(xùn)練:應(yīng)該是先生成chips,然后再用chips去訓(xùn)練一個(gè)端到端的網(wǎng)絡(luò),所以其實(shí)是分開(kāi)進(jìn)行的。

          如下圖是作者的選擇positive chips的一個(gè)示意圖:

          positive chips

          左側(cè)中,綠色框起來(lái)的就是ground truth的所在,其他顏色是生成的chips,這張圖就生成了4個(gè)chips,右側(cè)中綠色線(xiàn)條就是valid box,紅色的線(xiàn)就是invalid box。可以看出,合適尺度內(nèi)的ground truth box就是valid box(藍(lán)色和紅色框內(nèi)綠線(xiàn)),否則就是invalid box(黃色和紫色圖中的紅線(xiàn)就是invalid)(clip的尺寸要比原圖小很多,不然就起不到減少計(jì)算量的目的,對(duì)于高分辨率的圖,clip可以比它小十倍不止)

          下圖是作者選擇negative chips的一個(gè)示意圖:

          negative chips

          上面一行就是ground truth boxes,下面一行就是作者選擇的negative chips,比如最后兩個(gè),negative chips都和ground truth box有一定的交集。這就是我們所需要的negative chips。第二行圖像中的紅色小圓點(diǎn)表示沒(méi)有被positive chips(Cipos)包含的negative proposals,因?yàn)閜roposals較多,用框畫(huà)出來(lái)的話(huà)比較繁雜,所以用紅色小圓點(diǎn)表示。橘色框表示基于這些negative proposals生成的negative chips,也就是Cineg。每個(gè)negative chip是這么得到的:對(duì)于尺度i而言,首先移除包含在Cipos的region proposal,然后在Ri范圍內(nèi),每個(gè)chip都至少選擇M個(gè)proposal。在訓(xùn)練模型時(shí),每一張圖像的每個(gè)epoch都處理固定數(shù)量的negative chip,這些固定數(shù)量的negative chip就是從所有scale的negative chip中抽樣得到的。?

          優(yōu)點(diǎn):

          1、確實(shí)可以減少計(jì)算量;(一張圖片可以Crop出5個(gè)512x512的chips,而且進(jìn)行3個(gè)尺度的訓(xùn)練,但是它的計(jì)算量只比一張800x1333的圖片進(jìn)行單尺度訓(xùn)練多出30%,要是800x1333也進(jìn)行多尺度訓(xùn)練時(shí),訓(xùn)練量可比這種方法大多了)

          2、用固定大小的chips去進(jìn)行訓(xùn)練時(shí),數(shù)據(jù)很容易被打包,更利于GPU的使用。(把數(shù)據(jù)丟到GPU中去訓(xùn)練,這30%的差距算個(gè)毛線(xiàn),GPU計(jì)算速度那么大呢)

          3、更為重要的是,可以進(jìn)行多尺度訓(xùn)練,設(shè)置更大的batch_size和batch normalization,而且再也不用擔(dān)心這些操作會(huì)拉低我們的速度了!

          實(shí)驗(yàn)細(xì)節(jié):用圖像金字塔生成chips的時(shí)候,在不同scale的層上使用的ground truth box范圍在[0,802]、[322,1502]、[1202, inf]。訓(xùn)練RPN是為了獲取negative chips。每一張圖上產(chǎn)生的chips是不同的,如果這張圖包含的目標(biāo)多,產(chǎn)生的chips就會(huì)增多,相反則減少。


          大熊貓的總結(jié):在SNIP的基礎(chǔ)上加了一個(gè)「positive/negative chip selection」,從實(shí)驗(yàn)結(jié)果來(lái)看是非常SOTA的,可以說(shuō)碾壓了Mosaic反應(yīng)出來(lái)的結(jié)果。另外基于ResNet101的Faster RCNN架構(gòu)結(jié)合SNIPER,精度超過(guò)了YOLOV4接近4個(gè)點(diǎn),效果是非常好的。感興趣的朋友可以嘗試。


          SSD中的多尺度處理



          SSD以不同stride的feature map作為檢測(cè)層分別檢測(cè)不同尺度的目標(biāo),用戶(hù)可以根據(jù)自己的任務(wù)的目標(biāo)尺度制定方案。該方式尺度處理簡(jiǎn)單有效,但存在一些缺陷:


          • 一般使用低層檢測(cè)小目標(biāo),但低層感受野小,上下文信息缺乏,容易引入誤檢

          • 使用簡(jiǎn)單的單一檢測(cè)層多尺度信息略顯缺乏,很多任務(wù)目標(biāo)尺度變化范圍十分明顯;

          • 高層雖然感受野較大,但畢竟經(jīng)過(guò)了很多次降采樣,大目標(biāo)的語(yǔ)義信息是否已經(jīng)丟失

          • 多層特征結(jié)構(gòu),是非連續(xù)的尺度表達(dá),是非最優(yōu)的結(jié)果;


          空洞卷積處理多尺度


          空洞卷積本身可以控制不同大小的感受野,也即可以處理多尺度;一般空洞率設(shè)計(jì)得越大,感受野越大(但一般空洞率不能無(wú)限擴(kuò)大,網(wǎng)格效應(yīng)問(wèn)題會(huì)加劇)。


          TridentNet:三叉戟網(wǎng)絡(luò)


          論文地址:

          https://arxiv.org/abs/1901.01892

          代碼地址:https://github.com/TuSimple/simpledet/tree/master/models/tridentnet


          傳統(tǒng)的解決多尺度檢測(cè)的算法,大都依賴(lài)于圖像金字塔與特征金字塔。與上述算法不同,圖森組對(duì)感受野這一因素進(jìn)行了深入的分析,并利用了空洞卷積這一利器,構(gòu)建了簡(jiǎn)單的三分支網(wǎng)絡(luò)TridentNet,對(duì)于多尺度物體的檢測(cè)有了明顯的精度提升。


          • 控制實(shí)驗(yàn)證明了感受野大小與目標(biāo)尺度呈現(xiàn)正相關(guān);

          • 設(shè)計(jì)三個(gè)并行分支獲取不同大小的感受野,以分別處理不同尺度的目標(biāo),感受野使用空洞卷積表征;每個(gè)分支采用Trident block構(gòu)建,取代ResNet-res4中的多個(gè)原始的Block;

          • 訓(xùn)練類(lèi)似于SNIP,三個(gè)分支分別采用不同尺度的目標(biāo)訓(xùn)練。


          TridentNet網(wǎng)絡(luò)的作者將3種不同的感受野網(wǎng)絡(luò)并行化,提出了如下圖所示的檢測(cè)框架。采用ResNet作為基礎(chǔ)Backbone,前三個(gè)stage沿用原始的結(jié)構(gòu),在第四個(gè)stage,使用了三個(gè)感受野不同的并行網(wǎng)絡(luò)。


          具體實(shí)現(xiàn)細(xì)節(jié)


          (1)3個(gè)不同的分支使用了空洞數(shù)不同的空洞卷積,感受野由小到大,可以更好地覆蓋多尺度的物體分布。


          (2)由于3個(gè)分支要檢測(cè)的內(nèi)容是相同的、要學(xué)習(xí)的特征也是相同的,只不過(guò)是形成了不同的感受野來(lái)檢測(cè)不同尺度的物體,因此,3個(gè)分支共享權(quán)重,這樣既充分利用了樣本信息,學(xué)習(xí)到更本質(zhì)的目標(biāo)檢測(cè)信息,也減少了參數(shù)量與過(guò)擬合的風(fēng)險(xiǎn)。


          (3)借鑒了SNIP的思想,在每一個(gè)分支內(nèi)只訓(xùn)練一定范圍內(nèi)的樣本,避免了過(guò)大與過(guò)小的樣本對(duì)于網(wǎng)絡(luò)參數(shù)的影響。


          在訓(xùn)練時(shí),TridentNet網(wǎng)絡(luò)的三個(gè)分支會(huì)接入三個(gè)不同的head網(wǎng)絡(luò)進(jìn)行后續(xù)損失計(jì)算。在測(cè)試時(shí),由于沒(méi)有先驗(yàn)的標(biāo)簽來(lái)選擇不同的分支,因此只保留了一個(gè)分支進(jìn)行前向計(jì)算,這種前向方法只有少量的精度損失。


          FPN中的多尺度處理及其改進(jìn)


          自從2016年FPN網(wǎng)絡(luò)出來(lái)后,目前各大視覺(jué)任務(wù)的baseline基本都是以backbone-FPN。FPN以更為輕量的最近鄰插值結(jié)合側(cè)向連接實(shí)現(xiàn)了將高層的語(yǔ)義信息逐漸傳播到低層的功能,使得尺度更為平滑,同時(shí)它可以看做是輕量級(jí)的decoder結(jié)構(gòu)。FPN看起來(lái)很完美,但仍然有一些缺陷:


          • 在上采樣時(shí)使用了比較粗糙的最近鄰插值,使得高層的語(yǔ)義信息不一定能有效傳播;

          • 由于經(jīng)過(guò)多次下采樣,最高層的感受野雖然很豐富,但可能已經(jīng)丟失了小目標(biāo)的語(yǔ)義信息,這樣的傳播是否還合適;

          • FPN的構(gòu)建只使用了backbone的4個(gè)stage的輸出,其輸出的多尺度信息不一定足夠;

          • FPN中雖然傳播了強(qiáng)的語(yǔ)義信息到其他層,但對(duì)于不同尺度的表達(dá)能力仍然是不一樣的,因?yàn)楸旧砭吞崛×瞬煌琤ackbone的輸出。


          PANet

          論文地址:

          https://arxiv.org/abs/1803.01534

          代碼地址:

          https://github.com/ShuLiu1993/PANet

          PANet是由香港中文大學(xué)和騰訊優(yōu)圖聯(lián)合提出的實(shí)例分割框架。模型不是直接實(shí)現(xiàn)目標(biāo)檢測(cè),但是論文的核心內(nèi)容是增強(qiáng)FPN的多尺度融合信息。PANet 在 COCO 2017 挑戰(zhàn)賽的實(shí)例分割任務(wù)中取得了第一名,在目標(biāo)檢測(cè)任務(wù)中取得了第二名。

          FPN的低層次的特征(C5)對(duì)應(yīng)大型目標(biāo),而高層級(jí)特征與低層級(jí)別特征之間路徑較長(zhǎng)(如圖 2a所示紅色虛線(xiàn)),增加訪(fǎng)問(wèn)準(zhǔn)確定位信息的難度。為了縮短信息路徑和用低層級(jí)的準(zhǔn)確定位信息增強(qiáng)特征金字塔,PANet在FPN基礎(chǔ)上創(chuàng)建了自下而上的路徑增強(qiáng)(圖 2b)。用于縮短信息路徑,利用low-level 特征中存儲(chǔ)的精確定位信號(hào),提升特征金字塔架構(gòu)。

          PANet網(wǎng)絡(luò)架構(gòu)

          PANet創(chuàng)建自適應(yīng)特征池化(Adaptive feature pooling)( 圖 2c)。用于恢復(fù)每個(gè)候選區(qū)域和所有特征層次之間被破壞的信息路徑,聚合每個(gè)特征層次上的每個(gè)候選區(qū)域。

          PANet的目標(biāo)檢測(cè)和實(shí)例分割共享網(wǎng)絡(luò)架構(gòu)的圖 2 abc三部分,使得兩者性能均有提升。

          ThunderNet

          論文地址:

          https://arxiv.org/pdf/1903.11752.pdf

          代碼地址:

          https://github.com/ouyanghuiyu/Thundernet_Pytorch


          ThunderNet是曠視提出的輕量型目標(biāo)檢測(cè)框架,實(shí)現(xiàn)了ARM平臺(tái)上的實(shí)時(shí)檢測(cè)器,整體結(jié)構(gòu)如圖 3所示。?主要簡(jiǎn)化了FPN結(jié)構(gòu),只使用C4/C5,同時(shí)引入gpooling操作(Face++論文好多這么用,確實(shí)有效),最終輸出C4分辨率大小的累加特征。ThunderNet使用320×320像素作為網(wǎng)絡(luò)的輸入分辨率。

          整體的網(wǎng)絡(luò)結(jié)構(gòu)分為兩部分:Backbone部分和Detection部分。網(wǎng)絡(luò)的骨干部分為SNet(ShuffleNetV2修改版)。 網(wǎng)絡(luò)的檢測(cè)部分,利用了壓縮的RPN網(wǎng)絡(luò),既Context Enhancement Module(CEM)整合局部和全局特征增強(qiáng)網(wǎng)絡(luò)特征表達(dá)能力。并提出Spatial Attention Module空間注意模塊,引入來(lái)自RPN的前后景信息用以?xún)?yōu)化特征分布。

          FPN的結(jié)合不同層語(yǔ)義信息,但是相對(duì)而言每層均有檢測(cè)分支,對(duì)移動(dòng)終端而言增加計(jì)算成本和運(yùn)行時(shí)間。論文提出簡(jiǎn)單粗暴的CEM(如圖 4所示),合并三個(gè)尺度特征圖C4,C5和Cglb:

          1、C4 1×1卷積,通道數(shù)量壓縮為α×p×p = 245

          2、C5進(jìn)行上采樣 + 1×1卷積,通道數(shù)量壓縮為α×p×p = 245

          3、C5全局平均池化得到Cglb,Cglb進(jìn)行Broadcast + 1×1卷積,通道數(shù)量壓縮為α×p×p = 245 。

          通過(guò)利用局部和全局信息,CEM有效地?cái)U(kuò)大了感受野,并細(xì)化了特征圖的表示能力。與先前的FPN結(jié)構(gòu)相比,CEM predict預(yù)測(cè)及減少fc計(jì)算,提高模型運(yùn)算效率。

          ?ThunderNet網(wǎng)絡(luò)模型
          CEM網(wǎng)絡(luò)結(jié)構(gòu)

          Libra R-CNN


          論文地址:

          https://arxiv.org/pdf/1904.02701.pdf

          代碼地址:

          https://github.com/OceanPang/Libra_R-CNN




          Libra R-CNN是有浙江大學(xué),香港中文大學(xué)等聯(lián)合提出目標(biāo)檢測(cè)模型。無(wú)論是one-stage two-stage,都涉及選擇候選區(qū)域,特征提取與融合、loss收斂。針對(duì)目標(biāo)檢測(cè)的三個(gè)階段,論文提出三個(gè)問(wèn)題:采樣的候選區(qū)域示范具有代表性,不同level特征如何融合,以及損失函數(shù)如何更好收斂。論文針對(duì)三個(gè)問(wèn)題提出三個(gè)改進(jìn)方向:

          1、IoU-balanced Sampling

          M個(gè)候選框選擇N個(gè)hard negative,選中的概率就是:

          N個(gè)樣本通過(guò)IoU的值劃分為K個(gè)區(qū)間,每個(gè)區(qū)間中的候選采樣數(shù)為Mk,則IoU-balanced sampling的采樣公式即為:

          作者通過(guò)在IoU上均勻采樣, 把hard negative在IoU上均勻分布。

          2、Balanced Feature Pyramid

          ?Balanced Feature Pyramid

          為了更高效利用FPN特征,論文使用4步改進(jìn)rescaling, integrating, refining,Strengthening(如上圖所示):

          a. rescaling。把{C2,C3 ,C5}的多層特征均rescaling到C4尺寸,做加權(quán)求平均值。得到的特征C rescaling返回到{C2,C3 ,C5}特征分辨率。

          b. Refining&strengthening。論文使用Gaussian non-local attention 增加特征。

          c. Indentity,既殘差設(shè)計(jì)。

          3、Balanced L1 Loss。

          論文使用修訂的loss損失函數(shù),改善網(wǎng)絡(luò)的訓(xùn)練過(guò)程。

          下載1:OpenCV-Contrib擴(kuò)展模塊中文版教程
          在「小白學(xué)視覺(jué)」公眾號(hào)后臺(tái)回復(fù):擴(kuò)展模塊中文教程即可下載全網(wǎng)第一份OpenCV擴(kuò)展模塊教程中文版,涵蓋擴(kuò)展模塊安裝、SFM算法、立體視覺(jué)、目標(biāo)跟蹤、生物視覺(jué)、超分辨率處理等二十多章內(nèi)容。

          下載2:Python視覺(jué)實(shí)戰(zhàn)項(xiàng)目52講
          小白學(xué)視覺(jué)公眾號(hào)后臺(tái)回復(fù):Python視覺(jué)實(shí)戰(zhàn)項(xiàng)目即可下載包括圖像分割、口罩檢測(cè)、車(chē)道線(xiàn)檢測(cè)、車(chē)輛計(jì)數(shù)、添加眼線(xiàn)、車(chē)牌識(shí)別、字符識(shí)別、情緒檢測(cè)、文本內(nèi)容提取、面部識(shí)別等31個(gè)視覺(jué)實(shí)戰(zhàn)項(xiàng)目,助力快速學(xué)校計(jì)算機(jī)視覺(jué)。

          下載3:OpenCV實(shí)戰(zhàn)項(xiàng)目20講
          小白學(xué)視覺(jué)公眾號(hào)后臺(tái)回復(fù):OpenCV實(shí)戰(zhàn)項(xiàng)目20講即可下載含有20個(gè)基于OpenCV實(shí)現(xiàn)20個(gè)實(shí)戰(zhàn)項(xiàng)目,實(shí)現(xiàn)OpenCV學(xué)習(xí)進(jìn)階。

          交流群


          歡迎加入公眾號(hào)讀者群一起和同行交流,目前有SLAM、三維視覺(jué)、傳感器自動(dòng)駕駛、計(jì)算攝影、檢測(cè)、分割、識(shí)別、醫(yī)學(xué)影像、GAN算法競(jìng)賽等微信群(以后會(huì)逐漸細(xì)分),請(qǐng)掃描下面微信號(hào)加群,備注:”昵稱(chēng)+學(xué)校/公司+研究方向“,例如:”張三?+?上海交大?+?視覺(jué)SLAM“。請(qǐng)按照格式備注,否則不予通過(guò)。添加成功后會(huì)根據(jù)研究方向邀請(qǐng)進(jìn)入相關(guān)微信群。請(qǐng)勿在群內(nèi)發(fā)送廣告,否則會(huì)請(qǐng)出群,謝謝理解~


          瀏覽 71
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  日p在线观看 | 久夜午爱免费视频 | 国产熟妇毛多 久久久久 | 天天爽天天澡天天爽精品视频 | 精品国产91豆花视频 |