<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          CVPR2022 Oral:StreamYOLO-流感知實(shí)時(shí)檢測(cè)器

          共 3994字,需瀏覽 8分鐘

           ·

          2022-04-13 11:54

          【GiantPandaCV導(dǎo)語(yǔ)】 自動(dòng)駕駛技術(shù)對(duì)延遲要求極高。過(guò)去的工作提出了信息流(后文均稱Streaming)感知聯(lián)合評(píng)價(jià)指標(biāo),用于評(píng)估算法速度和準(zhǔn)確性。本論文提出檢測(cè)模型對(duì)于未來(lái)的預(yù)測(cè)是處理速度和精度均衡的關(guān)鍵。作者建立了一個(gè)簡(jiǎn)單有效的Streaming感知框架。它配備了 一種新的**雙流感知模塊(Dual Flow Perception,DFP),其中包括捕捉動(dòng)態(tài)Streaming和靜態(tài)Streaming移動(dòng)趨勢(shì)的基本檢測(cè)特征。此外,作者引 入了一個(gè)趨勢(shì)感知損失(Trend-Aware Loss,TAL)**,并結(jié)合趨勢(shì)因子,為不同移動(dòng)速度的物體生成自適應(yīng)權(quán)重。本文提出的方法在Argogrse-HD數(shù)據(jù)集上實(shí)展現(xiàn)了競(jìng)爭(zhēng)性能,與原Baseline相比提高了4.9% mAP。

          Paper:https://arxiv.org/abs/2203.12338 Code:https://github.com/yancie-yjr/StreamYOLO.

          1、介紹

          自動(dòng)駕駛對(duì)模型延遲有著極高的要求,當(dāng)處理完當(dāng)前幀,環(huán)境早已發(fā)生變化。結(jié)果感知和變化狀態(tài)的不一致可能造成危險(xiǎn)情況的發(fā)生。為了解決該問(wèn)題,《Towards streaming perception》論文提出新的信息流度量指標(biāo),它將速度和精度集成到一個(gè)實(shí)時(shí)感知度量中。此外,該論文還提出了一種名為Streamer的元檢測(cè)器,它可以將任何檢測(cè)器與決策調(diào)度、異步跟蹤和未來(lái)預(yù)測(cè)相結(jié)合,以提升檢測(cè)器的性能。后來(lái),Adaptive Streamer采用了大量基于深度強(qiáng)化學(xué)習(xí)的近似計(jì)算,以獲得更好的檢測(cè)均衡。

          由于streaming感知的是當(dāng)前幀結(jié)果,校準(zhǔn)總是由下一幀進(jìn)行匹配和評(píng)估。作者發(fā)現(xiàn)現(xiàn)在的性能差距都來(lái)自于當(dāng)前處理幀和下一匹配幀之間的固定不一致,如下圖。上圖為基礎(chǔ)探測(cè)器的可視化和本文方法的可視化。綠色的盒子是實(shí)際對(duì)象,而紅色的盒子是預(yù)測(cè)對(duì)象。紅色箭頭表示由處理時(shí)間延遲導(dǎo)致預(yù)測(cè)盒的漂移,而本文的方法緩解了這個(gè)問(wèn)題。

          具體地說(shuō),需要構(gòu)造前一幀、當(dāng)前幀和下一幀信息的三元組進(jìn)行訓(xùn)練,其中模型得到前一幀和當(dāng)前幀作為輸入,并學(xué)習(xí)預(yù)測(cè)下一幀的結(jié)果。作者提出了兩個(gè)關(guān)鍵的設(shè)計(jì)來(lái)提高訓(xùn)練效率:

          1. 對(duì)于模型架構(gòu),設(shè)計(jì)一個(gè)雙流感知(DFP)模塊來(lái)融合最后一幀和當(dāng)前幀的特征圖。它由動(dòng)態(tài)流和一個(gè)靜態(tài)流組成。動(dòng)態(tài)流關(guān)注預(yù)測(cè)對(duì)象的運(yùn)動(dòng)趨勢(shì),而靜態(tài)流通過(guò)殘差連接提供檢測(cè)對(duì)象的基本特征。
          2. 對(duì)于訓(xùn)練策略, 作者發(fā)現(xiàn)一幀內(nèi)的物體可能有不同的速度,因此引入了一個(gè)趨勢(shì)感知損失(TAL)來(lái)動(dòng)態(tài)分配不同的權(quán)值以預(yù)測(cè)每個(gè)對(duì)象。

          相對(duì)于Baseline, StreamYOLO的mAP提高了4.9%,并在不同行駛速度下實(shí)現(xiàn)了魯棒預(yù)測(cè)。

          2、流媒體感知

          流媒體感知任務(wù)連貫地考慮了延遲和準(zhǔn)確性。《Towards streaming perception》首先提出了一種考慮時(shí)延的sAP來(lái)評(píng)估精度。并提出了一種元檢測(cè)器,通過(guò)采用卡爾曼濾波器、決策調(diào)度和異步跟蹤來(lái)緩解這一問(wèn)題。

          下圖為實(shí)時(shí)檢測(cè)器和非實(shí)時(shí)檢測(cè)器的比較。每個(gè)塊代表一幀檢測(cè)器的過(guò)程,F(xiàn)0-F5一共包含五幀,其長(zhǎng)度表示運(yùn)行時(shí)間。虛線塊表示接收到下一幀數(shù)據(jù)的時(shí)間。對(duì)于非實(shí)時(shí)檢測(cè)器而言:

          • 幀 F1 的輸出結(jié)果 y1 與 F3 的Ground Truth Box進(jìn)行匹配和評(píng)估,而 F2 的結(jié)果被遺漏。
          • 對(duì)于流感知的任務(wù),非實(shí)時(shí)檢測(cè)器可能會(huì)丟失圖像幀并產(chǎn)生框偏移的結(jié)果。

          對(duì)于實(shí)時(shí)檢測(cè)器而言;

          • 如何定義實(shí)時(shí)這個(gè)概念,作者認(rèn)為在一個(gè)實(shí)時(shí)檢測(cè)器中,一幀圖像的總處理時(shí)間應(yīng)當(dāng)小于圖像流傳輸?shù)臅r(shí)間間隔
          • 實(shí)時(shí)檢測(cè)器通過(guò)將下一幀對(duì)象與當(dāng)前預(yù)測(cè)的結(jié)果準(zhǔn)確匹配,避免了移位問(wèn)題

          作者比較了兩種探測(cè)器,Mask R-CNN(非實(shí)時(shí))和YOLOX(實(shí)時(shí)),研究了流媒體感知和離線檢測(cè)之間的性能差距。在低分辨率輸入的情況下 ,兩者性能差距很小,均能實(shí)時(shí)運(yùn)行。隨著分辨率的提高,Mask R-CNN的運(yùn)行速度下降,而YOLOX仍保持實(shí)時(shí)性,下圖所示。“OF”和“SP”分別表示離線和流媒體感知測(cè)試,@后的數(shù)字是輸入分辨率的縮放值(基準(zhǔn)為1200×1920)。

          3、 方法

          Baseline: 根據(jù)上述分析,作者使用YOLOX作為Baseline

          訓(xùn)練: 作者使用上一幀、當(dāng)前幀和下一幀的GT框(Ft-1, Ft, Gt+1)構(gòu)造成一個(gè)三元組進(jìn)行訓(xùn)練,取兩個(gè)相鄰的幀(Ft-1, Ft)作為輸入,訓(xùn)練模型預(yù)測(cè)下一幀的GT(predict),由Ft幀的真實(shí)GT(True)監(jiān)督Gt+1的GT,基于輸入和監(jiān)督的三元組,作者將訓(xùn)練數(shù)據(jù)集重建為 的形式。作者采用共享權(quán)重CSPDarknet-53來(lái)提取前一幀和當(dāng)前幀的FPN特征,使用本文所提出的雙流感知模塊(DFP)來(lái)聚合特征圖,并將它們傳輸?shù)綑z測(cè)頭。接著直接利用下一幀的GT進(jìn)行監(jiān)督。在此期間,作者設(shè)計(jì)了一個(gè)趨勢(shì)感知損失(TAL)應(yīng)用于Reg分支檢測(cè)頭進(jìn)行有效的訓(xùn)練。

          雙流感知模塊(DFP): ?作者設(shè)計(jì)了一個(gè)雙流感知(DFP)模塊,用動(dòng)態(tài)流和靜態(tài)流來(lái)編碼預(yù)期的特征,如上圖。動(dòng)態(tài)流融合了兩個(gè)相鄰幀的FPN特征來(lái)學(xué)習(xí)運(yùn)動(dòng)信息。它首先使用一個(gè)共享的權(quán)值1×1 卷積層,BN和 SiLU,并將兩個(gè)FPN特性的channel減少到一半。DFP只是簡(jiǎn)單地將這特征cat起來(lái),作者研究了其他幾種融合操作,如add、 non-local block、STN或SE block,其中cat實(shí)現(xiàn)了最好的性能,見(jiàn)下表。對(duì)于靜態(tài)流 ,作者通過(guò)一個(gè)殘差連接,合理地添加了當(dāng)前幀的原始特征。在隨后的實(shí)驗(yàn)中,作者發(fā)現(xiàn)靜態(tài)流不僅為檢測(cè)提供了基本的特征信息,還提高了駕駛車輛在不同移動(dòng)速度下的預(yù)測(cè)魯棒性。

          趨勢(shì)感知損失(TAL): ?作者注意到流媒體感知中每個(gè)物體在同一幀內(nèi)的移動(dòng)速度是完全不同的。不同的趨勢(shì)來(lái)自于多方面:不同的大小和它們自身的移動(dòng)狀態(tài),遮擋 ,或不同的拓?fù)渚嚯x?;谟^察結(jié)果,作者引入了一個(gè)趨勢(shì)感知損失(TAL), 它根據(jù)每個(gè)物體的移動(dòng)趨勢(shì)對(duì)其采用自適應(yīng)權(quán)值。為了定量地測(cè)量移動(dòng)速度,作者為每個(gè)物體引入了一個(gè)趨勢(shì)因子。計(jì)算了兩幀GT之間的IoU矩陣,然后對(duì)幀的維度進(jìn)行求最大值運(yùn)算,得到兩幀之間檢測(cè)對(duì)象的匹配IoU。這個(gè)匹配的IoU值小意味著物體移動(dòng)速度快,反之亦然。如果新對(duì)象出現(xiàn)在幀中,則沒(méi)有與之匹配的框。我們?cè)O(shè)置了一個(gè)閾值T來(lái)處理這種情況,并將中每個(gè)對(duì)象的最終趨勢(shì)因子 ωi 表示為:

          其中表示中方框間的最大操作值t,ν是新對(duì)象的恒定權(quán)重。我們將ν設(shè)置為1.4(大于1)(根據(jù)超參數(shù)網(wǎng)格搜索)。

          我們重新加權(quán)每個(gè)對(duì)象的回歸損失,總損失表示為:

          4、實(shí)驗(yàn)

          數(shù)據(jù)集: 我們?cè)谝曨l自動(dòng)駕駛數(shù)據(jù)集 Argoverse-HD( 高幀率檢測(cè))上進(jìn)行了實(shí)驗(yàn),其中驗(yàn)證集包含24個(gè)視頻,總共15k幀。

          評(píng)估指標(biāo): ?使用sAP作為主要評(píng)價(jià)指標(biāo)

          實(shí)驗(yàn)細(xì)節(jié): 使用YOLOX-L作為默認(rèn)檢測(cè)器,所有的實(shí)驗(yàn)都是對(duì)COCO預(yù)訓(xùn)練模型進(jìn)行了15個(gè)epoch的微調(diào),在8G RTX2080ti上將Batch Size設(shè)置為32,并使用隨機(jī)梯度下降法(SGD)來(lái)進(jìn)行訓(xùn)練。調(diào)整學(xué)習(xí)率為,使用1個(gè)epoch的warm up和余弦下降法,權(quán)重衰減為 0.0005,SGD動(dòng)量為0.9。input size為600×960,不使用任何數(shù)據(jù)增強(qiáng)(如馬賽克,Mixup,水平翻轉(zhuǎn)等) 。在推理上,作者將輸入大小保持在600×960 ,并Tesla V100GPU上測(cè)試。

          信息融合: ?融合前一幀信息和當(dāng)前幀信息對(duì)于流媒體任務(wù)非常重要。作者選擇三種不同的特征模式來(lái)融合:Input、Backbone和FPN。輸入特征為將兩個(gè)相鄰的幀concat在一起??梢钥吹?,Input和Backbone融合模式使性能降低了0.9和0.7 AP,F(xiàn)PN模式顯著提高了 3.0AP。DFP和TAL的影響: 作者在不同Input Size上對(duì)YOLOX進(jìn)行了多項(xiàng)實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果可以看下圖,Pipe為原模型DFP 和 TAL 可以將 sAP 的準(zhǔn)確率提高 大約1.0 AP,它們的組合進(jìn)一步提高了近 2.0 AP 的性能。

          ?的值作為一個(gè)閾值來(lái)監(jiān)控新對(duì)象,而控制對(duì)新對(duì)象的關(guān)注程度。 作者將 設(shè)置為大于 1.0。并對(duì)這兩個(gè)超參數(shù)進(jìn)行網(wǎng)格搜索。

          如下圖所示, 分別在 0.3 和 1.4 時(shí)達(dá)到最佳性能。不同速度下的性能: 對(duì)于0x速度(即靜態(tài)圖片),預(yù)測(cè)結(jié)果應(yīng)該與2D圖像檢測(cè)(離線測(cè)試)的結(jié)果相同。但是,采用視頻流的方式,可以看到與離線相比性能顯著下降(-1.9 AP),這意味著模型的推斷存在誤差。通過(guò)DFP模塊,可以恢復(fù)了性能下降的趨勢(shì)。與卡爾曼濾波的比較:下表報(bào)告了基于卡爾曼濾波器的預(yù)測(cè)與作者提出的方法的對(duì)比。對(duì)于普通的sAP (1×),作者的方法仍然比高級(jí)基線高 0.5 AP。此外,以更快的移動(dòng)速度(2×)評(píng)估時(shí),作者的模型顯示出更強(qiáng)的魯棒性優(yōu)勢(shì)(33.3 sAP 與 31.8 sAP),帶來(lái)了更少的額外推理延遲(0.8 ms對(duì) 3.1 ms)。結(jié)果可視化: ?如作者展示了可視化結(jié)果。對(duì)于Baseline檢測(cè)器,預(yù)測(cè)邊界框會(huì)遇到嚴(yán)重的滯后。車輛和行人移動(dòng)得越快,預(yù)測(cè)的變化就越大。對(duì)于像紅綠燈這樣的小物體,預(yù)測(cè)框和GT之間的重疊變得很小,甚至沒(méi)有。相比之下,作者的方法減輕了預(yù)測(cè)框和移動(dòng)對(duì)象之間的不匹配,并準(zhǔn)確擬合結(jié)果。

          總結(jié)

          本文重點(diǎn)關(guān)注處理延遲的Streaming感知任務(wù)。在這個(gè)任務(wù)下,作者提出了使用具有未來(lái)預(yù)測(cè)能力的在線感知實(shí)時(shí)檢測(cè)器,并進(jìn)一步構(gòu)建了雙流感知模塊(DFP)和趨勢(shì)感知損失(TAL),緩解了流感知中的處理滯后問(wèn)題。大量實(shí)驗(yàn)表明,該實(shí)時(shí)檢測(cè)器表現(xiàn)出Sota性能,并在不同的測(cè)試速度下獲得了穩(wěn)健的結(jié)果。


          瀏覽 34
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  天天天做夜夜夜爽无码 | 翔田千里电影1234区 | 成人久久网站 | 五月色婷婷国产 | 日韩一级大片 |