91cao,日韩人妻av无码,综合自拍偷拍网,天天爽夜夜爽夜夜爽精,日韩毛片在线免费观看,韩国一区二区三区四区不卡视频 ,亚洲国产精品VA在线看黑人,天堂一区二区三区18在线观看

點(diǎn)擊上方“小白學(xué)視覺(jué)”，選擇加"星標(biāo)"或“置頂”

重磅干貨，第一時(shí)間送達(dá)

傳統(tǒng)的圖像金字塔

最開(kāi)始在深度學(xué)習(xí)方法流行之前，對(duì)于不同尺度的目標(biāo)，大家普遍使用將原圖構(gòu)建出不同分辨率的圖像金字塔，再對(duì)每層金字塔用固定輸入分辨率的分類(lèi)器在該層滑動(dòng)來(lái)檢測(cè)目標(biāo)，以求在金字塔底部檢測(cè)出小目標(biāo)；或者只用一個(gè)原圖，在原圖上，用不同分辨率的分類(lèi)器來(lái)檢測(cè)目標(biāo)，以求在比較小的窗口分類(lèi)器中檢測(cè)到小目標(biāo)。經(jīng)典的基于簡(jiǎn)單矩形特征(Haar)+級(jí)聯(lián)Adaboost與Hog特征+SVM的DPM目標(biāo)識(shí)別框架，均使用圖像金字塔的方式處理多尺度目標(biāo)，早期的CNN目標(biāo)識(shí)別框架同樣采用該方式，但對(duì)圖像金字塔中的每一層分別進(jìn)行CNN提取特征，耗時(shí)與內(nèi)存消耗均無(wú)法滿(mǎn)足需求。但該方式毫無(wú)疑問(wèn)仍然是最優(yōu)的。值得一提的是，其實(shí)目前大多數(shù)深度學(xué)習(xí)算法提交結(jié)果進(jìn)行排名的時(shí)候，大多使用多尺度測(cè)試。同時(shí)類(lèi)似于SNIP使用多尺度訓(xùn)練，均是圖像金字塔的多尺度處理。

SNIP/SNIPER中的多尺度處理

SNIP：尺度歸一化

論文地址：

https://arxiv.org/abs/1711.08189

代碼地址：

https://github.com/mahyarnajibi/SNIPER

當(dāng)前的物體檢測(cè)算法通常使用微調(diào)的方法，即先在ImageNet數(shù)據(jù)集上訓(xùn)練分類(lèi)任務(wù)，然后再遷移到物體檢測(cè)的數(shù)據(jù)集上，如COCO來(lái)訓(xùn)練檢測(cè)任務(wù)。我們可以將ImageNet的分類(lèi)任務(wù)看做224×224的尺度，而COCO中的物體尺度大部分在幾十像素的范圍內(nèi)，并且包含大量小物體，物體尺度差距更大，因此兩者的樣本差距太大，會(huì)導(dǎo)致映射遷移（Domain Shift）的誤差。

SNIP是多尺度訓(xùn)練（Multi-Scale Training）的改進(jìn)版本。MST的思想是使用隨機(jī)采樣的多分辨率圖像使檢測(cè)器具有尺度不變特性。然而作者通過(guò)實(shí)驗(yàn)發(fā)現(xiàn)，在MST中，對(duì)于極大目標(biāo)和過(guò)小目標(biāo)的檢測(cè)效果并不好，但是MST也有一些優(yōu)點(diǎn)，比如對(duì)一張圖片會(huì)有幾種不同分辨率，每個(gè)目標(biāo)在訓(xùn)練時(shí)都會(huì)有幾個(gè)不同的尺寸，那么總有一個(gè)尺寸在指定的尺寸范圍內(nèi)。

SNIP的做法是只對(duì)size在指定范圍內(nèi)的目標(biāo)回傳損失，即訓(xùn)練過(guò)程實(shí)際上只是針對(duì)某些特定目標(biāo)進(jìn)行，這樣就能減少domain-shift帶來(lái)的影響。

SNIP的網(wǎng)絡(luò)結(jié)構(gòu)如下圖所示：

具體的實(shí)現(xiàn)細(xì)節(jié)

（1）3個(gè)尺度分別擁有各自的RPN模塊，并且各自預(yù)測(cè)指定范圍內(nèi)的物體。

（2）對(duì)于大尺度的特征圖，其RPN只負(fù)責(zé)預(yù)測(cè)被放大的小物體，對(duì)于小尺度的特征圖，其RPN只負(fù)責(zé)預(yù)測(cè)被縮小的大物體，這樣真實(shí)的物體尺度分布在較小的區(qū)間內(nèi)，避免了極大或者極小的物體。

（3）在RPN階段，如果真實(shí)物體不在該RPN預(yù)測(cè)范圍內(nèi)，會(huì)被判定為無(wú)效，并且與該無(wú)效物體的IoU大于0.3的Anchor也被判定為無(wú)效的Anchor。

（4）在訓(xùn)練時(shí)，只對(duì)有效的Proposal進(jìn)行反向傳播。在測(cè)試階段，對(duì)有效的預(yù)測(cè)Boxes先縮放到原圖尺度，利用Soft NMS將不同分辨率的預(yù)測(cè)結(jié)果合并。

（5）實(shí)現(xiàn)時(shí)SNIP采用了可變形卷積的卷積方式，并且為了降低對(duì)于GPU的占用，將原圖隨機(jī)裁剪為1000×1000大小的圖像。使用Deformable-RFCN檢測(cè)器提取單一分辨率的候選。Deformable-RFCN的主干網(wǎng)絡(luò)選用ResNet-101,訓(xùn)練分辨率為800x1200。在RPN中選用5個(gè)錨尺寸。分類(lèi)時(shí)，選用沒(méi)有Deformable Position Sensitive RoIPooling的主干網(wǎng)路為ResNet-50的Deformable-RFCN。使用帶有雙線(xiàn)性插值的Position Sensitive RoIPooling，因?yàn)樗鼘⒆詈笠粚又械木矸e核數(shù)量減少了3倍。NMS的閾值為0.3，不是端到端的訓(xùn)練。使用ResNet-50以及消除deformable PSRoI filters可以減少3倍的時(shí)間并且節(jié)省GPU內(nèi)存。

訓(xùn)練與測(cè)試分辨率從不一致的時(shí)候性能會(huì)下降；
大分辨率輸入圖像雖然能提升小目標(biāo)檢測(cè)性能，但同時(shí)使得大目標(biāo)過(guò)大導(dǎo)致其很難分類(lèi)，此消彼長(zhǎng)，最終精度提升并不明顯；
多尺度訓(xùn)練(Mutil-Scale training)，采樣到的圖像分辨率很大（1400x2000），導(dǎo)致大目標(biāo)更大，而圖像分辨率過(guò)小時(shí)（480x640），導(dǎo)致小目標(biāo)更小，這些均產(chǎn)生了非最優(yōu)的結(jié)果；
SNIP針對(duì)不同分辨率挑選不同的proposal進(jìn)行梯度傳播，然后將其他的設(shè)置為0。即針對(duì)每一個(gè)圖像金字塔的每一個(gè)尺度進(jìn)行正則化表示；

總體來(lái)說(shuō)，SNIP讓模型更專(zhuān)注于物體本身的檢測(cè)，剝離了多尺度的學(xué)習(xí)難題。在網(wǎng)絡(luò)搭建時(shí)，SNIP也使用了類(lèi)似于MST的多尺度訓(xùn)練方法，構(gòu)建了3個(gè)尺度的圖像金字塔，但在訓(xùn)練時(shí)，只對(duì)指定范圍內(nèi)的Proposal進(jìn)行反向傳播，而忽略掉過(guò)大或者過(guò)小的Proposal。

SNIP方法雖然實(shí)現(xiàn)簡(jiǎn)單，但其背后卻蘊(yùn)藏深意，更深入地分析了當(dāng)前檢測(cè)算法在多尺度檢測(cè)上的問(wèn)題所在，在訓(xùn)練時(shí)只選擇在一定尺度范圍內(nèi)的物體進(jìn)行學(xué)習(xí)，在COCO數(shù)據(jù)集上有3%的檢測(cè)精度提升，可謂是大道至簡(jiǎn)。

SNIPER：SNIP方法的改進(jìn)

論文地址：

https://arxiv.org/abs/1805.09300?
代碼地址：

https://github.com/MahyarNajibi/SNIPER

SNIPER的關(guān)鍵是減少了SNIP的計(jì)算量。SNIP借鑒了multi-scale training的思想進(jìn)行訓(xùn)練，multi-scale training是用圖像金字塔作為模型的輸入，這種做法雖然能夠提高模型效果，但是計(jì)算量的增加也非常明顯，因?yàn)槟Ｐ托枰幚砻總€(gè)scale圖像的每個(gè)像素，而SNIPER（Scale Normalization for Image Pyramids with Efficient Resampling）算法以適當(dāng)?shù)谋壤幚韌round truth（稱(chēng)為chips）周?chē)纳舷挛膮^(qū)域，在訓(xùn)練期間每個(gè)圖像生成的chips的數(shù)量會(huì)根據(jù)場(chǎng)景復(fù)雜度而自適應(yīng)地變化，由于SNIPER在采樣后的低分辨率的chips上運(yùn)行，故其可以在訓(xùn)練期間收益于Batch Normalization，而不需要在GPU之間再用同步批量標(biāo)準(zhǔn)化進(jìn)行統(tǒng)計(jì)信息。實(shí)驗(yàn)證明，BN有助于最后性能的提升。

這些chips主要分為兩大類(lèi)：

一種是postivice chips，這些chips包含ground truth；

另一種是從RPN網(wǎng)絡(luò)輸出的ROI抽樣得到的negative chips，這些chips相當(dāng)于是難分類(lèi)的背景，而那些容易分類(lèi)的背景就沒(méi)必要進(jìn)行多尺度訓(xùn)練了。

因此模型最終只處理這些chips，而不是處理整張圖像，這樣就達(dá)到提升效果的同時(shí)提升速度。相比于SNIP，基于Faster RCNN（ResNet101作為Backbone）的實(shí)驗(yàn)結(jié)果顯示SNIPER的mAP值比SNIP算法提升了4.6百分點(diǎn)，所以效果也還是非常不錯(cuò)的。在單卡V100上，每秒可以處理5張圖像，這個(gè)速度在two-stage的算法中來(lái)看并不快，但是效果是非常好。

SNIPER的思路：

把圖片丟到網(wǎng)絡(luò)中時(shí)，就會(huì)產(chǎn)生不同尺度的feature map。作者的想法就是在特征圖上的ground truth box周?chē)rop一些圖片，這些圖片稱(chēng)為chips。

1、如何選擇positive chips :?就是在圖像金字塔的每一層中，都設(shè)定一個(gè)范圍，在該大小范圍內(nèi)的目標(biāo)就可以標(biāo)出來(lái)作為ground truth box，然后對(duì)圖片中g(shù)round truth box所在的地方進(jìn)行crop，crop出來(lái)的圖片就是chips。選擇positive chips的一個(gè)要求就是，每一個(gè)pos chip都至少應(yīng)該覆蓋一個(gè)groud-truth box，當(dāng)然一個(gè)groud-truth box可以被多個(gè)pos chips包含。

2、如何選擇negative chips :?如果只基于前面的positive chip，那么因?yàn)榇罅康谋尘皡^(qū)域沒(méi)有參與訓(xùn)練，所以容易誤檢（比較高的false positive rate），傳統(tǒng)的multi scale訓(xùn)練方式因?yàn)橛写罅康谋尘皡^(qū)域參與計(jì)算，所以誤檢率沒(méi)那么高，但因?yàn)榇蟛糠直尘皡^(qū)域都是非常容易分類(lèi)的，所以這部分計(jì)算量是可以避免的，于是就有了negative chip seleciton。選擇negative chips的目的在于要讓網(wǎng)絡(luò)更容易去判斷出哪些是背景，而不必花費(fèi)太多的時(shí)間在上面。在Faster-RCNN中的RPN的其中一步就是，將anchor和ground truth box交并比小于0.3視為背景，全部去掉（去掉易分樣本）。然后剩下的再去掉完全覆蓋groun truth box的proposal（去掉易分樣本），大部分proposal都是具有假陽(yáng)性的，也就是和ground truth 都有一部分的交集，但是比較小，我們的negative chips都從這里來(lái)。(negative chips就是難分樣本)。這樣可以用來(lái)減少假陽(yáng)率。

3、標(biāo)注label：每一張chip上大概產(chǎn)生300個(gè)proposal，但是對(duì)這300個(gè)proposals不做限制（比如faster-rcnn會(huì)濾除掉背景部分，我們不這樣），而是對(duì)里面的一些proposal抽出來(lái)做positive proposal。

4、模型訓(xùn)練：應(yīng)該是先生成chips，然后再用chips去訓(xùn)練一個(gè)端到端的網(wǎng)絡(luò)，所以其實(shí)是分開(kāi)進(jìn)行的。

如下圖是作者的選擇positive chips的一個(gè)示意圖：

左側(cè)中，綠色框起來(lái)的就是ground truth的所在，其他顏色是生成的chips，這張圖就生成了4個(gè)chips，右側(cè)中綠色線(xiàn)條就是valid box，紅色的線(xiàn)就是invalid box。可以看出，合適尺度內(nèi)的ground truth box就是valid box(藍(lán)色和紅色框內(nèi)綠線(xiàn))，否則就是invalid box(黃色和紫色圖中的紅線(xiàn)就是invalid)（clip的尺寸要比原圖小很多，不然就起不到減少計(jì)算量的目的，對(duì)于高分辨率的圖，clip可以比它小十倍不止）

下圖是作者選擇negative chips的一個(gè)示意圖：

negative chips

上面一行就是ground truth boxes，下面一行就是作者選擇的negative chips，比如最后兩個(gè)，negative chips都和ground truth box有一定的交集。這就是我們所需要的negative chips。第二行圖像中的紅色小圓點(diǎn)表示沒(méi)有被positive chips（Cipos）包含的negative proposals，因?yàn)閜roposals較多，用框畫(huà)出來(lái)的話(huà)比較繁雜，所以用紅色小圓點(diǎn)表示。橘色框表示基于這些negative proposals生成的negative chips，也就是Cineg。每個(gè)negative chip是這么得到的：對(duì)于尺度i而言，首先移除包含在Cipos的region proposal，然后在Ri范圍內(nèi)，每個(gè)chip都至少選擇M個(gè)proposal。在訓(xùn)練模型時(shí)，每一張圖像的每個(gè)epoch都處理固定數(shù)量的negative chip，這些固定數(shù)量的negative chip就是從所有scale的negative chip中抽樣得到的。?

優(yōu)點(diǎn)：

1、確實(shí)可以減少計(jì)算量；(一張圖片可以Crop出5個(gè)512x512的chips，而且進(jìn)行3個(gè)尺度的訓(xùn)練，但是它的計(jì)算量只比一張800x1333的圖片進(jìn)行單尺度訓(xùn)練多出30%，要是800x1333也進(jìn)行多尺度訓(xùn)練時(shí)，訓(xùn)練量可比這種方法大多了)

2、用固定大小的chips去進(jìn)行訓(xùn)練時(shí)，數(shù)據(jù)很容易被打包，更利于GPU的使用。（把數(shù)據(jù)丟到GPU中去訓(xùn)練，這30%的差距算個(gè)毛線(xiàn)，GPU計(jì)算速度那么大呢）

3、更為重要的是，可以進(jìn)行多尺度訓(xùn)練，設(shè)置更大的batch_size和batch normalization，而且再也不用擔(dān)心這些操作會(huì)拉低我們的速度了！

實(shí)驗(yàn)細(xì)節(jié)：用圖像金字塔生成chips的時(shí)候，在不同scale的層上使用的ground truth box范圍在[0,802]、[322,1502]、[1202， inf]。訓(xùn)練RPN是為了獲取negative chips。每一張圖上產(chǎn)生的chips是不同的，如果這張圖包含的目標(biāo)多，產(chǎn)生的chips就會(huì)增多，相反則減少。

大熊貓的總結(jié)：在SNIP的基礎(chǔ)上加了一個(gè)「positive/negative chip selection」，從實(shí)驗(yàn)結(jié)果來(lái)看是非常SOTA的，可以說(shuō)碾壓了Mosaic反應(yīng)出來(lái)的結(jié)果。另外基于ResNet101的Faster RCNN架構(gòu)結(jié)合SNIPER，精度超過(guò)了YOLOV4接近4個(gè)點(diǎn)，效果是非常好的。感興趣的朋友可以嘗試。

SSD中的多尺度處理

SSD以不同stride的feature map作為檢測(cè)層分別檢測(cè)不同尺度的目標(biāo)，用戶(hù)可以根據(jù)自己的任務(wù)的目標(biāo)尺度制定方案。該方式尺度處理簡(jiǎn)單有效，但存在一些缺陷：

一般使用低層檢測(cè)小目標(biāo)，但低層感受野小，上下文信息缺乏，容易引入誤檢；
使用簡(jiǎn)單的單一檢測(cè)層多尺度信息略顯缺乏，很多任務(wù)目標(biāo)尺度變化范圍十分明顯；
高層雖然感受野較大，但畢竟經(jīng)過(guò)了很多次降采樣，大目標(biāo)的語(yǔ)義信息是否已經(jīng)丟失；
多層特征結(jié)構(gòu)，是非連續(xù)的尺度表達(dá)，是非最優(yōu)的結(jié)果；

空洞卷積處理多尺度

空洞卷積本身可以控制不同大小的感受野，也即可以處理多尺度；一般空洞率設(shè)計(jì)得越大，感受野越大（但一般空洞率不能無(wú)限擴(kuò)大，網(wǎng)格效應(yīng)問(wèn)題會(huì)加劇）。

TridentNet：三叉戟網(wǎng)絡(luò)

論文地址：

https://arxiv.org/abs/1901.01892

代碼地址：https://github.com/TuSimple/simpledet/tree/master/models/tridentnet

傳統(tǒng)的解決多尺度檢測(cè)的算法，大都依賴(lài)于圖像金字塔與特征金字塔。與上述算法不同，圖森組對(duì)感受野這一因素進(jìn)行了深入的分析，并利用了空洞卷積這一利器，構(gòu)建了簡(jiǎn)單的三分支網(wǎng)絡(luò)TridentNet，對(duì)于多尺度物體的檢測(cè)有了明顯的精度提升。

控制實(shí)驗(yàn)證明了感受野大小與目標(biāo)尺度呈現(xiàn)正相關(guān)；
設(shè)計(jì)三個(gè)并行分支獲取不同大小的感受野，以分別處理不同尺度的目標(biāo)，感受野使用空洞卷積表征；每個(gè)分支采用Trident block構(gòu)建，取代ResNet-res4中的多個(gè)原始的Block；
訓(xùn)練類(lèi)似于SNIP，三個(gè)分支分別采用不同尺度的目標(biāo)訓(xùn)練。

TridentNet網(wǎng)絡(luò)的作者將3種不同的感受野網(wǎng)絡(luò)并行化，提出了如下圖所示的檢測(cè)框架。采用ResNet作為基礎(chǔ)Backbone，前三個(gè)stage沿用原始的結(jié)構(gòu)，在第四個(gè)stage，使用了三個(gè)感受野不同的并行網(wǎng)絡(luò)。

具體實(shí)現(xiàn)細(xì)節(jié)

（1）3個(gè)不同的分支使用了空洞數(shù)不同的空洞卷積，感受野由小到大，可以更好地覆蓋多尺度的物體分布。

（2）由于3個(gè)分支要檢測(cè)的內(nèi)容是相同的、要學(xué)習(xí)的特征也是相同的，只不過(guò)是形成了不同的感受野來(lái)檢測(cè)不同尺度的物體，因此，3個(gè)分支共享權(quán)重，這樣既充分利用了樣本信息，學(xué)習(xí)到更本質(zhì)的目標(biāo)檢測(cè)信息，也減少了參數(shù)量與過(guò)擬合的風(fēng)險(xiǎn)。

（3）借鑒了SNIP的思想，在每一個(gè)分支內(nèi)只訓(xùn)練一定范圍內(nèi)的樣本，避免了過(guò)大與過(guò)小的樣本對(duì)于網(wǎng)絡(luò)參數(shù)的影響。

在訓(xùn)練時(shí)，TridentNet網(wǎng)絡(luò)的三個(gè)分支會(huì)接入三個(gè)不同的head網(wǎng)絡(luò)進(jìn)行后續(xù)損失計(jì)算。在測(cè)試時(shí)，由于沒(méi)有先驗(yàn)的標(biāo)簽來(lái)選擇不同的分支，因此只保留了一個(gè)分支進(jìn)行前向計(jì)算，這種前向方法只有少量的精度損失。

FPN中的多尺度處理及其改進(jìn)

自從2016年FPN網(wǎng)絡(luò)出來(lái)后，目前各大視覺(jué)任務(wù)的baseline基本都是以backbone-FPN。FPN以更為輕量的最近鄰插值結(jié)合側(cè)向連接實(shí)現(xiàn)了將高層的語(yǔ)義信息逐漸傳播到低層的功能，使得尺度更為平滑，同時(shí)它可以看做是輕量級(jí)的decoder結(jié)構(gòu)。FPN看起來(lái)很完美，但仍然有一些缺陷：

在上采樣時(shí)使用了比較粗糙的最近鄰插值，使得高層的語(yǔ)義信息不一定能有效傳播；
由于經(jīng)過(guò)多次下采樣，最高層的感受野雖然很豐富，但可能已經(jīng)丟失了小目標(biāo)的語(yǔ)義信息，這樣的傳播是否還合適；
FPN的構(gòu)建只使用了backbone的4個(gè)stage的輸出，其輸出的多尺度信息不一定足夠；
FPN中雖然傳播了強(qiáng)的語(yǔ)義信息到其他層，但對(duì)于不同尺度的表達(dá)能力仍然是不一樣的，因?yàn)楸旧砭吞崛×瞬煌琤ackbone的輸出。

PANet

論文地址：

https://arxiv.org/abs/1803.01534

代碼地址：

https://github.com/ShuLiu1993/PANet

PANet是由香港中文大學(xué)和騰訊優(yōu)圖聯(lián)合提出的實(shí)例分割框架。模型不是直接實(shí)現(xiàn)目標(biāo)檢測(cè)，但是論文的核心內(nèi)容是增強(qiáng)FPN的多尺度融合信息。PANet 在 COCO 2017 挑戰(zhàn)賽的實(shí)例分割任務(wù)中取得了第一名，在目標(biāo)檢測(cè)任務(wù)中取得了第二名。

FPN的低層次的特征（C5）對(duì)應(yīng)大型目標(biāo)，而高層級(jí)特征與低層級(jí)別特征之間路徑較長(zhǎng)（如圖 2a所示紅色虛線(xiàn)），增加訪(fǎng)問(wèn)準(zhǔn)確定位信息的難度。為了縮短信息路徑和用低層級(jí)的準(zhǔn)確定位信息增強(qiáng)特征金字塔，PANet在FPN基礎(chǔ)上創(chuàng)建了自下而上的路徑增強(qiáng)(圖 2b)。用于縮短信息路徑，利用low-level 特征中存儲(chǔ)的精確定位信號(hào)，提升特征金字塔架構(gòu)。

PANet創(chuàng)建自適應(yīng)特征池化(Adaptive feature pooling)( 圖 2c)。用于恢復(fù)每個(gè)候選區(qū)域和所有特征層次之間被破壞的信息路徑，聚合每個(gè)特征層次上的每個(gè)候選區(qū)域。

PANet的目標(biāo)檢測(cè)和實(shí)例分割共享網(wǎng)絡(luò)架構(gòu)的圖 2 abc三部分，使得兩者性能均有提升。

ThunderNet

論文地址：

https://arxiv.org/pdf/1903.11752.pdf

代碼地址：

https://github.com/ouyanghuiyu/Thundernet_Pytorch

ThunderNet是曠視提出的輕量型目標(biāo)檢測(cè)框架，實(shí)現(xiàn)了ARM平臺(tái)上的實(shí)時(shí)檢測(cè)器，整體結(jié)構(gòu)如圖 3所示。?主要簡(jiǎn)化了FPN結(jié)構(gòu)，只使用C4/C5，同時(shí)引入gpooling操作(Face++論文好多這么用，確實(shí)有效)，最終輸出C4分辨率大小的累加特征。ThunderNet使用320×320像素作為網(wǎng)絡(luò)的輸入分辨率。

整體的網(wǎng)絡(luò)結(jié)構(gòu)分為兩部分：Backbone部分和Detection部分。網(wǎng)絡(luò)的骨干部分為SNet（ShuffleNetV2修改版）。 網(wǎng)絡(luò)的檢測(cè)部分，利用了壓縮的RPN網(wǎng)絡(luò)，既Context Enhancement Module（CEM）整合局部和全局特征增強(qiáng)網(wǎng)絡(luò)特征表達(dá)能力。并提出Spatial Attention Module空間注意模塊，引入來(lái)自RPN的前后景信息用以?xún)?yōu)化特征分布。

FPN的結(jié)合不同層語(yǔ)義信息，但是相對(duì)而言每層均有檢測(cè)分支，對(duì)移動(dòng)終端而言增加計(jì)算成本和運(yùn)行時(shí)間。論文提出簡(jiǎn)單粗暴的CEM（如圖 4所示），合并三個(gè)尺度特征圖C4,C5和Cglb：

1、C4 1×1卷積，通道數(shù)量壓縮為α×p×p = 245

2、C5進(jìn)行上采樣 + 1×1卷積，通道數(shù)量壓縮為α×p×p = 245

3、C5全局平均池化得到Cglb，Cglb進(jìn)行Broadcast + 1×1卷積，通道數(shù)量壓縮為α×p×p = 245 。

通過(guò)利用局部和全局信息，CEM有效地?cái)U(kuò)大了感受野，并細(xì)化了特征圖的表示能力。與先前的FPN結(jié)構(gòu)相比，CEM predict預(yù)測(cè)及減少fc計(jì)算，提高模型運(yùn)算效率。

Libra R-CNN

論文地址：

https://arxiv.org/pdf/1904.02701.pdf

代碼地址：

https://github.com/OceanPang/Libra_R-CNN

Libra R-CNN是有浙江大學(xué)，香港中文大學(xué)等聯(lián)合提出目標(biāo)檢測(cè)模型。無(wú)論是one-stage two-stage，都涉及選擇候選區(qū)域，特征提取與融合、loss收斂。針對(duì)目標(biāo)檢測(cè)的三個(gè)階段，論文提出三個(gè)問(wèn)題：采樣的候選區(qū)域示范具有代表性，不同level特征如何融合，以及損失函數(shù)如何更好收斂。論文針對(duì)三個(gè)問(wèn)題提出三個(gè)改進(jìn)方向：

1、IoU-balanced Sampling

M個(gè)候選框選擇N個(gè)hard negative，選中的概率就是:

N個(gè)樣本通過(guò)IoU的值劃分為K個(gè)區(qū)間，每個(gè)區(qū)間中的候選采樣數(shù)為Mk，則IoU-balanced sampling的采樣公式即為：

作者通過(guò)在IoU上均勻采樣，把hard negative在IoU上均勻分布。

2、Balanced Feature Pyramid

為了更高效利用FPN特征，論文使用4步改進(jìn)rescaling, integrating, refining,Strengthening（如上圖所示）：

a. rescaling。把{C2,C3 ,C5}的多層特征均rescaling到C4尺寸，做加權(quán)求平均值。得到的特征C rescaling返回到{C2,C3 ,C5}特征分辨率。

b. Refining&strengthening。論文使用Gaussian non-local attention 增加特征。

c. Indentity，既殘差設(shè)計(jì)。

3、Balanced L1 Loss。

論文使用修訂的loss損失函數(shù)，改善網(wǎng)絡(luò)的訓(xùn)練過(guò)程。

下載1：OpenCV-Contrib擴(kuò)展模塊中文版教程

在「小白學(xué)視覺(jué)」公眾號(hào)后臺(tái)回復(fù)：擴(kuò)展模塊中文教程，即可下載全網(wǎng)第一份OpenCV擴(kuò)展模塊教程中文版，涵蓋擴(kuò)展模塊安裝、SFM算法、立體視覺(jué)、目標(biāo)跟蹤、生物視覺(jué)、超分辨率處理等二十多章內(nèi)容。

下載2：Python視覺(jué)實(shí)戰(zhàn)項(xiàng)目52講

在「小白學(xué)視覺(jué)」公眾號(hào)后臺(tái)回復(fù)：Python視覺(jué)實(shí)戰(zhàn)項(xiàng)目，即可下載包括圖像分割、口罩檢測(cè)、車(chē)道線(xiàn)檢測(cè)、車(chē)輛計(jì)數(shù)、添加眼線(xiàn)、車(chē)牌識(shí)別、字符識(shí)別、情緒檢測(cè)、文本內(nèi)容提取、面部識(shí)別等31個(gè)視覺(jué)實(shí)戰(zhàn)項(xiàng)目，助力快速學(xué)校計(jì)算機(jī)視覺(jué)。

下載3：OpenCV實(shí)戰(zhàn)項(xiàng)目20講

在「小白學(xué)視覺(jué)」公眾號(hào)后臺(tái)回復(fù)：OpenCV實(shí)戰(zhàn)項(xiàng)目20講，即可下載含有20個(gè)基于OpenCV實(shí)現(xiàn)20個(gè)實(shí)戰(zhàn)項(xiàng)目，實(shí)現(xiàn)OpenCV學(xué)習(xí)進(jìn)階。

交流群

歡迎加入公眾號(hào)讀者群一起和同行交流，目前有SLAM、三維視覺(jué)、傳感器、自動(dòng)駕駛、計(jì)算攝影、檢測(cè)、分割、識(shí)別、醫(yī)學(xué)影像、GAN、算法競(jìng)賽等微信群（以后會(huì)逐漸細(xì)分），請(qǐng)掃描下面微信號(hào)加群，備注：”昵稱(chēng)+學(xué)校/公司+研究方向“，例如：”張三?+?上海交大?+?視覺(jué)SLAM“。請(qǐng)按照格式備注，否則不予通過(guò)。添加成功后會(huì)根據(jù)研究方向邀請(qǐng)進(jìn)入相關(guān)微信群。請(qǐng)勿在群內(nèi)發(fā)送廣告，否則會(huì)請(qǐng)出群，謝謝理解~

目標(biāo)檢測(cè) | 解決小目標(biāo)檢測(cè)！多尺度方法匯總

ThunderNet