<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          AAAI 2021中的目標(biāo)檢測(詳細(xì)版with code)

          共 5053字,需瀏覽 11分鐘

           ·

          2021-02-24 12:58

          點(diǎn)擊上方智能算法”,選擇加"星標(biāo)"或“置頂

          重磅干貨,第一時(shí)間送達(dá)

          來源:https://zhuanlan.zhihu.com/p/345472885


          本篇文章來介紹一下 AAAI 2021 會(huì)議錄取的目標(biāo)檢測相關(guān)論文,主要包含:一般的 2D 目標(biāo)檢測、旋轉(zhuǎn)目標(biāo)檢測、視頻目標(biāo)檢測、弱監(jiān)督、域自適應(yīng)等方向。


          一、Learning Modulated Loss for Rotated Object Detection

          學(xué)習(xí)用于旋轉(zhuǎn)目標(biāo)檢測的調(diào)制損失



          藍(lán)色框:reference box 參考框 ;紅色:ground truth ;綠色:預(yù)測框

          參考框是:假設(shè)參考盒順時(shí)針旋轉(zhuǎn)一度,得到 ground truth,同樣逆時(shí)針旋轉(zhuǎn),得到預(yù)測值。如上圖中兩個(gè) θ 。因此,上述三個(gè)框,可以用5個(gè)參數(shù)來描述。

          參考框:(0,0,10,25,-90度), 真實(shí)框(0,0,25,10,-1度), 預(yù)測框(0,0,10,25,-89度)

          此時(shí),L1 loss 遠(yuǎn)大于 0。

          現(xiàn)在流行的旋轉(zhuǎn)檢測方法通常使用五個(gè)參數(shù)(中心點(diǎn)坐標(biāo)xy,寬度,高度和旋轉(zhuǎn)角度)來描述旋轉(zhuǎn)的邊界框,并將l1損失描述為損失函數(shù)。在本文中,我們認(rèn)為上述整合可能會(huì)導(dǎo)致訓(xùn)練不穩(wěn)定性和性能退化,這是由于角度固有的周期性以及相關(guān)的寬度和高度突然交換所導(dǎo)致的損失不連續(xù)性。

          考慮到使用不同測量單位的五個(gè)參數(shù)之間的回歸不一致,該問題更加明顯。我們將上述問題稱為旋轉(zhuǎn)靈敏度誤差 rotation sensitivity error (RSE),并提出了調(diào)制旋轉(zhuǎn)損耗 modulated rotation loss 以消除損耗不連續(xù)性。我們的新?lián)p失 Loss 與八參數(shù)回歸相結(jié)合,進(jìn)一步解決了參數(shù)回歸不一致的問題。

          實(shí)驗(yàn)表明,我們的方法在公共航空影像基準(zhǔn)DOTA和UCAS-AOD上具有最先進(jìn)的性能。它的泛化能力也在 ICDAR2015,HRSC2016 和 FDDB上得到了驗(yàn)證。從圖1 可以看到質(zhì)量上的改進(jìn),并且源代碼將隨論文的發(fā)布一起發(fā)布。

          • 論文鏈接:

            https://arxiv.org/abs/1911.08299

          • 項(xiàng)目鏈接:

            https://github.com/yangxue0827/RotationDetection

          ??

          二、R3Det:Refined Single-Stage Detector with Feature Refinement for Rotating Object

          R3Det:具有特征優(yōu)化的單階段旋轉(zhuǎn)目標(biāo)檢測器


          github code?。?!arxiv上作者提交了6版論文。驚呆了,很認(rèn)真的樣子,還有代碼,可信!

          但在實(shí)際設(shè)置中,對(duì)于大寬高比,密集分布和類別不平衡的旋轉(zhuǎn)目標(biāo)檢測仍然存在困難。

          提出了一種快速,準(zhǔn)確且端到端的的旋轉(zhuǎn)目標(biāo)檢測器??紤]到現(xiàn)有精煉單級(jí)檢測器的特征未對(duì)齊的缺點(diǎn),這篇論文設(shè)計(jì)了一個(gè)特征精煉模塊來獲取更準(zhǔn)確的特征以提高旋轉(zhuǎn)目標(biāo)檢測性能。

          特征精煉模塊的關(guān)鍵思想是通過特征插值將當(dāng)前精煉的邊界框位置信息重新編碼為對(duì)應(yīng)的特征點(diǎn),以實(shí)現(xiàn)特征重構(gòu)和對(duì)齊。(精煉階段是refined stages)
          本文提出了一種端到端的精細(xì)化單級(jí)旋轉(zhuǎn)檢測器,采用從粗到細(xì)粒度的漸進(jìn)式回歸方法,實(shí)現(xiàn)快速、準(zhǔn)確的物體檢測。

          考慮到現(xiàn)有精細(xì)化單級(jí)檢測器存在特征錯(cuò)位的缺點(diǎn),我們?cè)O(shè)計(jì)了一個(gè)特征細(xì)化模塊,通過獲得更精確的特征來提高檢測性能。特征細(xì)化模塊的關(guān)鍵思想是通過像素化的特征插值,將當(dāng)前精細(xì)化邊界框的位置信息重新編碼到對(duì)應(yīng)的特征點(diǎn)上,實(shí)現(xiàn)特征重構(gòu)和對(duì)齊。

          為了更準(zhǔn)確地進(jìn)行旋轉(zhuǎn)估計(jì),提出了近似的 SkewIoU 損失,解決了 SkewIoU 的計(jì)算無法推導(dǎo)的問題。在三個(gè)流行的遙感公共數(shù)據(jù)集 DOTA、HRSC2016、UCAS-AOD以及一個(gè)場景文本數(shù)據(jù)集 ICDAR2015 上的實(shí)驗(yàn)表明了我們方法的有效性。Tensorflow 和 Pytorch 版本代碼都有。

          detail:
          實(shí)際上,在文本檢測和遙感目標(biāo)檢測領(lǐng)域主要面臨三個(gè)挑戰(zhàn):
          1)大長寬比:對(duì)于大長寬比的目標(biāo),SkewIOU分?jǐn)?shù)對(duì)角度的變化十分敏感
          2)密集排列:
          3)類別不平衡,很多多類旋轉(zhuǎn)目標(biāo)數(shù)據(jù)集的類別極度不平衡

          在這篇論文中,主要討論如何設(shè)計(jì)一個(gè)精確且快速的旋轉(zhuǎn)目標(biāo)檢測器。

          首先,論文發(fā)現(xiàn)旋轉(zhuǎn)錨框(Anchors)可以在目標(biāo)密集場景發(fā)揮更好的效果,而水平錨框可以以更少的數(shù)量實(shí)現(xiàn)更高的召回率。因此,在本文精煉的單級(jí)檢測器中使用兩種形式的錨框進(jìn)行組合,即在第一階段使用水平錨框以提高速度和產(chǎn)生更多候選框。然后在精煉階段去使用旋轉(zhuǎn)錨框以適應(yīng)目標(biāo)密集場景。

          第二,論文還指出現(xiàn)有的精煉單級(jí)檢測器存在特征未對(duì)齊的問題,極大的限制了分類和精煉階段回歸的可靠性。本文設(shè)計(jì)了一個(gè)特征精煉模塊(FRM),該模塊使用特征插值來獲取精煉Anchor的位置信息并重建特征圖實(shí)現(xiàn)特征對(duì)齊。FRM還可以在第一階段之后減少精煉邊界框的數(shù)量,從而加速模型。

          將這三種技術(shù)結(jié)合在一起,本文的方法可以在三個(gè)公開旋轉(zhuǎn)目標(biāo)檢測數(shù)據(jù)集(包括DOTA,HRSC2016和ICDRA2015)上實(shí)現(xiàn)SOTA性能。


          R3Det網(wǎng)絡(luò)結(jié)構(gòu)

          此方法是一個(gè)基于RetinaNet的單級(jí)旋轉(zhuǎn)目標(biāo)檢測器,命名為R3Det。

          將精煉階段(可以多次添加和重復(fù))添加到網(wǎng)絡(luò)以精煉邊界框,并在精煉階段添加特征精煉模塊(FRM)以重建特征圖。

          在單階段旋轉(zhuǎn)目標(biāo)檢測任務(wù)中,對(duì)預(yù)測邊界框進(jìn)行連續(xù)的精煉可以提高回歸精度,因此特征精煉是必要的。應(yīng)該注意的是,F(xiàn)RM也可以在其他單級(jí)檢測器如SSD中使用。

          1、帶旋轉(zhuǎn)目標(biāo)檢測功能的RetinaNet

          先用FPN,得到豐富的高分辨率的特征圖。

          目標(biāo)分類子網(wǎng)和目框回歸子網(wǎng)雖然結(jié)構(gòu)一樣,但使用單獨(dú)的參數(shù)。RetinaNet提出了Focal Loss來解決類別不平衡引起的問題,大大的提高了單級(jí)目標(biāo)檢測器的精度。

          x,y,w,h, θ中, θ表示高w對(duì)x的銳角角度, θ在負(fù)二分之派(-90度)到0之間。
          2、精煉旋轉(zhuǎn)目標(biāo)檢測器
          精煉目標(biāo)檢測器
          傾斜交并比分?jǐn)?shù)(SkewIOU)對(duì)角度很敏感,輕度的偏移都會(huì)導(dǎo)致SkewIOU快速下降。
          多個(gè)refined stage的IOU閾值從0.5 , 0.6 , 0.7 無數(shù)個(gè)0.7這樣設(shè)置。
          特征精煉模塊
          許多精煉檢測器仍然使用相同的特征圖來執(zhí)行多個(gè)分類和回歸,而沒有考慮邊界框位置變化引起的特征未對(duì)齊。

          Figure4(b)展示了沒有特征對(duì)齊的框精煉過程,導(dǎo)致了特征不準(zhǔn)確,這對(duì)于大寬高比和數(shù)量少的樣本是不利的。本文提出將當(dāng)前精煉的邊界框(橙色矩形)的位置信息重新編碼為相應(yīng)的特征點(diǎn)(紅色的點(diǎn)),然后通過重建整個(gè)特征圖來實(shí)現(xiàn)特征對(duì)齊。

          整個(gè)過程如Figure4(c)所示,為了準(zhǔn)確的獲取精煉邊界框的位置特征信息,本文使用了雙線性插值的方法。

          解決特征偏移的FRM模塊的核心是特征重構(gòu)。和其它兩級(jí)旋轉(zhuǎn)目標(biāo)檢測器(包含R2CNN,RRPN等)使用的ROIAlign相比,F(xiàn)RM精度速度均有優(yōu)勢,

          1. ROI Align具有更多的采樣點(diǎn)(默認(rèn)有7x7x4=196個(gè)),而減少采樣點(diǎn)會(huì)極大的影響目標(biāo)檢測器的性能。FRM僅僅采樣5個(gè)特征點(diǎn),約為ROI Align的1/40,這為FRM提供了巨大的速度優(yōu)勢。
          2. 在進(jìn)行分類和回歸之前,ROI Align僅需要獲得與ROI對(duì)應(yīng)的特征。相比之下,F(xiàn)RM首先獲得與特征點(diǎn)對(duì)應(yīng)的特征(實(shí)例級(jí)別),然后重建整個(gè)特征圖(圖像級(jí)別)。最終,與基于ROI Align的全連接網(wǎng)絡(luò)結(jié)構(gòu)相比,基于FRM的方法可以獲得更高效率和更少參數(shù)的全卷積結(jié)構(gòu)。

          • 論文鏈接:

            https://arxiv.org/abs/1908.05612

          • 項(xiàng)目鏈接:

            https://github.com/Thinklab-SJTU/R3Det_Tensorflow


          ?

          三、Dynamic Anchor Learning for Arbitrary-Oriented Object Detection

          用于任意方向目標(biāo)檢測的動(dòng)態(tài)anchor學(xué)習(xí)


          Motivation
          基于anchor的算法在訓(xùn)練時(shí)首先根據(jù)將預(yù)設(shè)的anchor和目標(biāo)根據(jù)IoU大小進(jìn)行空間匹配,以一定的閾值(如0.5)選出合適數(shù)目的anchor作為正樣本用于回歸分配的物體。但是這會(huì)導(dǎo)致兩個(gè)問題:

          • 進(jìn)一步加劇的正負(fù)樣本不平衡。對(duì)于旋轉(zhuǎn)目標(biāo)檢測而言,預(yù)設(shè)旋轉(zhuǎn)anchor要額外引入角度先驗(yàn),使得預(yù)設(shè)的anchor數(shù)目成倍增加。此外,旋轉(zhuǎn)anchor角度稍微偏離gt會(huì)導(dǎo)致IoU急劇下降,所以預(yù)設(shè)的角度參數(shù)很多。(例如旋轉(zhuǎn)文本檢測RRD設(shè)置13個(gè)角度,RRPN每個(gè)位置54個(gè)anchor)。

          • 分類回歸的不一致。當(dāng)前很多工作討論這個(gè)問題,即預(yù)測結(jié)果的分類得分和定位精度不一致,導(dǎo)致通過NMS階段以及根據(jù)分類conf選檢測結(jié)果的時(shí)候有可能選出定位不準(zhǔn)的,而遺漏抑制了定位好的anchor。目前工作的解決方法大致可以分為兩類:網(wǎng)絡(luò)結(jié)構(gòu)入手和label assignment優(yōu)化,參見related work這里不再贅述。


          統(tǒng)計(jì)了訓(xùn)練過程的所有樣本IoU分布,以及分類回歸分?jǐn)?shù)散點(diǎn)圖,結(jié)果如下圖。我們將anchor和gt的IoU稱為輸入IoU,pred box和gt的IoU稱為輸出IoU。從中看出:

          • 74%左右的正樣本anchor回歸的pred box后依然是高質(zhì)量樣本(IoU>0.5);近一半的高質(zhì)量樣本回歸自負(fù)樣本,這說明負(fù)樣本還有很大的利用空間,當(dāng)前基于輸入IoU的label assignment選正樣本的效率并不高,有待優(yōu)化。

          • 圖c說明,當(dāng)前的基于輸入IoU的標(biāo)簽分配會(huì)誘導(dǎo)分類分?jǐn)?shù)和anchor初始定位能力成正相關(guān)。而我們期望的結(jié)果是pred box的分類回歸能力成正相關(guān)。從這里可以認(rèn)為基于輸入IoU的標(biāo)簽分配是導(dǎo)致分類回歸不一致的原因之一。這個(gè)很好理解,劃分樣本的時(shí)候指定的初始對(duì)齊很好的為正樣本,其回歸后就算產(chǎn)生了不好的預(yù)測結(jié)果,分類置信還是很高,因?yàn)榉诸惢貧w任務(wù)是解耦的;反之很多初始對(duì)齊不好的anchor被分成負(fù)樣本,即使能預(yù)測好,由于分?jǐn)?shù)很低,無法在inference被輸出。

          • 進(jìn)一步統(tǒng)計(jì)了預(yù)測結(jié)果的分布如d,可以看到在低IoU區(qū)間分類器表現(xiàn)還行,能有效區(qū)分負(fù)樣本,但是高IoU區(qū)間如0.7以上,分類器對(duì)樣本質(zhì)量的區(qū)分能力有限。【問:表面上右半?yún)^(qū)密密麻麻好像分類器完全gg的樣子,但是我們正常檢測器并沒有出現(xiàn)分類回歸的異常,高分box的定位一般也不賴,為什么?一是由于很多的IoU 0.5以上的點(diǎn)都是負(fù)樣本的,即使定位準(zhǔn)根本不會(huì)被關(guān)注到;二是預(yù)測的結(jié)果中,只要有高質(zhì)量的能被輸出就行了,其他都會(huì)被NMS掉,體現(xiàn)在圖中就是右上角可以密密麻麻無所謂,只要右下角沒有太多點(diǎn)可視化的檢測結(jié)果就不會(huì)太差。】


          • 論文鏈接:

            https://arxiv.org/abs/2012.04150

          • 項(xiàng)目鏈接:

            https://github.com/ming71/DAL


          ?

          四、YOLObile: Real-Time Object Detection on Mobile Devices via Compression-Compilation Co-Design

          YOLObile:通過壓縮編譯CoDesign在移動(dòng)設(shè)備上進(jìn)行實(shí)時(shí)目標(biāo)檢測


          比 YOLOv3 快 7 倍,同時(shí)準(zhǔn)確率更高。在手機(jī)上實(shí)現(xiàn) 19FPS 實(shí)時(shí)高準(zhǔn)確率目標(biāo)檢測。

          YOLObile 框架通過“壓縮-編譯”協(xié)同設(shè)計(jì)在手機(jī)端實(shí)現(xiàn)了高準(zhǔn)確率實(shí)時(shí)物體檢測。該框架使用了一種新提出的名為“塊打孔”的權(quán)重剪枝方案,來對(duì)模型進(jìn)行有效的壓縮。

          他們還提出了一種高效的 GPU-CPU 協(xié)同計(jì)算優(yōu)化方案來進(jìn)一步提高計(jì)算資源的利用率和執(zhí)行速度,并在他們的編譯器優(yōu)化技術(shù)的協(xié)助下,最終在手機(jī)端實(shí)現(xiàn)高準(zhǔn)確率的實(shí)時(shí)物體檢測。

          相比 YOLOv3 完整版,該框架快 7 倍,在手機(jī)上實(shí)現(xiàn) 19FPS 實(shí)時(shí)高準(zhǔn)確率目標(biāo)檢測。并且同時(shí)準(zhǔn)確率(mAP)高于 YOLOv3,并沒有犧牲準(zhǔn)確率提高計(jì)算速度。

          • 論文鏈接:

            https://arxiv.org/abs/2009.05697

          • 項(xiàng)目鏈接:

            https://github.com/nightsnack/YOLObile

          瀏覽 127
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  亚洲综合中文字幕在线播放 | 日韩高清无码a | 免费日逼的视频 | 在线免费看柬埔寨大屌 | 久久露脸国语精品国产 |