<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          ECCV 2020 | 首屆GigaVision挑戰(zhàn)賽揭榜,雙賽道冠軍技術(shù)干貨分享

          共 8008字,需瀏覽 17分鐘

           ·

          2020-09-01 19:04



          ??新智元報(bào)道??

          來源:DeepBlueAI

          編輯:白峰

          【新智元導(dǎo)讀】近日,全球計(jì)算機(jī)視覺頂會(huì)ECCV2020落下帷幕,各個(gè)workshop也公布了各項(xiàng)挑戰(zhàn)賽的結(jié)果,來自中國的DeepBlueAI 團(tuán)隊(duì)斬獲了第一屆GigaVision挑戰(zhàn)賽兩個(gè)賽道的冠軍。


          來自中國的 DeepBlueAI 團(tuán)隊(duì)斬獲了「行人和車輛檢測」和「多目標(biāo)追蹤」兩個(gè)賽道的冠軍。


          ? ? ? ?


          GigaVision賽題介紹

          以人為中心的各項(xiàng)計(jì)算機(jī)視覺分析任務(wù),例如行人檢測,跟蹤,動(dòng)作識(shí)別,異常檢測,屬性識(shí)別等,在過去的十年中引起了人們的極大興趣。

          為了對大規(guī)模時(shí)空范圍內(nèi)具有高清細(xì)節(jié)的人群活動(dòng)進(jìn)行跨越長時(shí)間、長距離分析,清華大學(xué)智能成像實(shí)驗(yàn)室推出一個(gè)新的十億像素視頻數(shù)據(jù)集:PANDA。

          該數(shù)據(jù)集是在多種自然場景中收集,旨在為社區(qū)貢獻(xiàn)一個(gè)標(biāo)準(zhǔn)化的評測基準(zhǔn),以研究新的算法來理解大規(guī)模現(xiàn)實(shí)世界場景中復(fù)雜的人群活動(dòng)及社交行為。圍繞PANDA數(shù)據(jù)集,主辦方組織了GigaVision 2020挑戰(zhàn)賽。

          ?
          本次的挑戰(zhàn)賽同時(shí)是ECCV2020的Workshop:「GigaVision: When Gigapixel Videography Meets Computer Vision」。
          ?

          任務(wù)介紹

          挑戰(zhàn)賽的任務(wù)是在由十億像素相機(jī)收集的大范圍自然場景視覺數(shù)據(jù)集PANDA上進(jìn)行圖像目標(biāo)檢測和視頻多目標(biāo)跟蹤。

          Sub-Track 1 : Pedestrian & Vehicle Detection

          這項(xiàng)任務(wù)是為了推動(dòng)在十億像素圖像上的目標(biāo)檢測技術(shù)的發(fā)展。挑戰(zhàn)的參與者需要檢測兩類目標(biāo):行人和車輛。對于每個(gè)行人,需要提交三類檢測框:可見身體范圍框、全身范圍框、行人頭部范圍框。對于每個(gè)車輛,需要提交可見范圍框。一些特殊的區(qū)域(如假人、極度擁擠的人群、車群、被嚴(yán)重遮擋的人等)將在評估中被忽略。

          Sub-Track 2 : Multi-Pedestrian Tracking

          這項(xiàng)任務(wù)是為了推動(dòng)在十億像素視頻上的多目標(biāo)追蹤技術(shù)的發(fā)展。PANDA寬視場、多目標(biāo)、高分辨的優(yōu)越性能使特別適合于多目標(biāo)長時(shí)間追蹤任務(wù)。然而,巨大的同類目標(biāo)尺度變化和擁有豐富行人擁擠、遮擋的復(fù)雜場景也帶來了各種挑戰(zhàn)。在給定輸入視頻序列的情況下,該任務(wù)需要參與者提交行人在視頻中的軌跡。

          ?

          評測指標(biāo)

          對于賽道一,類似于MS COCO數(shù)據(jù)集的評估方案,主辦方采用AP、APIOU=0.50、APIOU=0.75、ARmax=10、ARmax=100、ARmax=500五個(gè)指標(biāo)來評估檢測算法的結(jié)果。最終的排名依據(jù)于 AP 和 ARmax=500?兩項(xiàng)指標(biāo)的調(diào)和平均數(shù),高者為優(yōu)
          ?? ? ??? ? ? ?
          對于賽道二,與MOTChallenge[2]中使用的評測方法類似,主辦方采用了包括MOTA、MOTP、IDF1、FAR、MT和Hz等指標(biāo)來評估多目標(biāo)追蹤算法的結(jié)果。最終的排名依據(jù)于 MOTA 和 MOTP 兩項(xiàng)指標(biāo)的調(diào)和平均數(shù),高者為優(yōu)
          ?

          DeepBlueAI團(tuán)隊(duì)榮獲兩項(xiàng)第一

          任務(wù)一:

          ?
          ? ? ? ? ? ? ?
          ?
          任務(wù)二:
          ?
          ? ? ? ? ? ? ?

          賽題特點(diǎn)

          圖像分辨率極高、近景和遠(yuǎn)景目標(biāo)尺度差異大
          ?
          十億像素級的超高分辨率是整個(gè)數(shù)據(jù)集的核心問題。一方面,由于計(jì)算資源的限制,超高分辨率使得網(wǎng)絡(luò)無法接受大圖作為輸入,而單純將原圖縮放到小圖會(huì)使得目標(biāo)丟失大量信息。另一方面,圖像中近景和遠(yuǎn)景的目標(biāo)尺度差異大,給檢測器帶來了巨大的挑戰(zhàn)。
          ?
          目標(biāo)在圖像中分布密集,并且遮擋嚴(yán)重
          ?
          數(shù)據(jù)集均從廣場、學(xué)校、商圈等真實(shí)場景采集,其人流和車輛密度極大。同時(shí),行人和車輛的擁擠、遮擋等情況頻發(fā),容易造成目標(biāo)的漏檢和誤檢


          主要工作

          賽道一 Pedestrian & Vehicle Detection

          根據(jù)以往積累的經(jīng)驗(yàn),團(tuán)隊(duì)首先將原圖縮放到合適尺度,并使用基于Cascade RCNN的檢測器直接檢測行人的三個(gè)類別和車輛,將其作為Baseline: Backbone + DCN + FPN + Cascade RCNN,并在此基礎(chǔ)上進(jìn)行改進(jìn)。
          ?
          ? ? ? ? ? ? ?
          ?
          實(shí)驗(yàn)結(jié)果顯示,模型存在大量的誤檢和漏檢。這些漏檢和無意義的檢測結(jié)果大幅降低了模型的性能。團(tuán)隊(duì)將上述問題歸納為兩方面的原因:

          1. 訓(xùn)練和測試時(shí)輸入模型的圖像尺度不合適。圖像經(jīng)過縮放后,目標(biāo)的尺度也隨之變小,導(dǎo)致遠(yuǎn)景中人的頭部等區(qū)域被大量遺漏。

          2. 網(wǎng)絡(luò)本身的分類能力較弱。行人的可見區(qū)域和全身區(qū)域十分相似,容易對分類器造成混淆,從而產(chǎn)生誤檢。
          ?
          根據(jù)上述問題,團(tuán)隊(duì)進(jìn)行了一些改進(jìn)。
          ?
          首先,使用滑動(dòng)窗口的方式切圖進(jìn)行訓(xùn)練。滑動(dòng)窗口切圖是一種常用的大圖像處理方式,這樣可以有效的保留圖像的高分辨率信息,使得網(wǎng)絡(luò)獲得的信息更加豐富。如果某個(gè)目標(biāo)處于切圖邊界,根據(jù)其IOF大于0.5來決定是否保留。
          ?
          其次,對于每個(gè)類別采用一個(gè)單獨(dú)的檢測器進(jìn)行檢測。經(jīng)過實(shí)驗(yàn)對比,對每個(gè)類別采用單獨(dú)的檢測器可以有效的提高網(wǎng)絡(luò)的效果,尤其是對于可見區(qū)域和全身區(qū)域兩類。
          ?
          同時(shí)向檢測器添加了Global Context (GC) block來進(jìn)一步提高特征提取能力。GC-Block結(jié)合了Non-local的上下文建模能力,并繼承了SE-Net節(jié)省計(jì)算量的優(yōu)點(diǎn),可以有效的對目標(biāo)的上下文進(jìn)行建模。
          ?
          ? ? ? ? ? ? ?
          除Cascade RCNN外,還采用了Generalize Focal Loss (GFL)檢測器進(jìn)行結(jié)果互補(bǔ)。GFL提出了一種泛化的Focal Loss損失,解決了分類得分和質(zhì)量預(yù)測得分在訓(xùn)練和測試時(shí)的不一致問題。
          ?? ? ? ?

          最后,將各檢測器的結(jié)果使用Weighted Box Fusion (WBF)進(jìn)行融合,形成了最終的解決方案

          傳統(tǒng)的NMS和Soft-NMS方法會(huì)移除預(yù)測結(jié)果中的一部分預(yù)測框,而WBF使用全部的預(yù)測框,通過進(jìn)行組合來獲得更加準(zhǔn)確的預(yù)測框,從而實(shí)現(xiàn)精度提升。整體pipeline如下圖所示:
          ?
          ? ? ? ? ? ? ?
          ?
          實(shí)驗(yàn)結(jié)果:

          ? ? ? ? ? ? ?

          ?

          賽道二 ?Multi-Pedestrian Tracking

          ?
          賽題分析
          ?
          多行人跟蹤問題是一個(gè)典型的多目標(biāo)跟蹤問題。通過調(diào)研總結(jié)發(fā)現(xiàn),Tracking-by-detection是處理這一問題的常用且精度比較高的方法[2][7]。基本的流程可以總結(jié)如下:

          1) 在每一幀中檢測物體的位置。
          2) 為每個(gè)檢測框提取特征。
          3) 通過將特征距離或空間距離將預(yù)測的目標(biāo)與現(xiàn)有軌跡關(guān)聯(lián)。

          本次挑戰(zhàn)賽更注重精度,因此采用了分離Detection和Embedding的方法,該方法的模塊化設(shè)計(jì)的優(yōu)點(diǎn)使得競賽精度上優(yōu)化空間的十分大。通過簡單的數(shù)據(jù)統(tǒng)計(jì)分析和可視化分析,團(tuán)隊(duì)認(rèn)為該比賽的主要挑戰(zhàn)在于圖像的大分辨率和行人的嚴(yán)重?fù)頂D,如下圖所示。

          ? ? ? ? ? ? ?
          ? ? ? ? ? ? ?
          為了應(yīng)對這些挑戰(zhàn),針對高分辨、小目標(biāo)等問題,引入了一種滑動(dòng)窗口檢測算法。針對遮擋嚴(yán)重的問題,使用局部和全局特征來衡量兩個(gè)相鄰幀之間的預(yù)測邊界框的相似距離,并且借鑒了FairMOT的特征平滑的方法進(jìn)行緩解。
          ?
          競賽方案:
          ?
          本次采用的多目標(biāo)跟蹤系統(tǒng)是基于Detection和Embedding分離的方法,采用了以Generalized Focal Loss(GFL)[9]為損失的anchor-free檢測器,并以Multiple Granularity Network (MGN)[10]作為Embedding模型。

          在關(guān)聯(lián)過程中,借鑒了DeepSORT[6]和FairMOT[8]的思想,構(gòu)建了一個(gè)簡單的在線多目標(biāo)跟蹤器, 如下圖所示。
          ? ? ? ? ? ? ?
          ? ? ? ? ? ? ?
          檢測器

          檢測部分:
          ?
          為了處理高分辨率的圖像,我們提出了一個(gè)segmentation-and-fusion(SF)的方法,如下圖所示。每一張大圖有交疊的切分成多個(gè)子圖,每一個(gè)子圖的分辨率為6000*6000,位于圖像邊緣的子圖直接填充均值。為了防止較大的行人目標(biāo)被切分成進(jìn)兩個(gè)子圖,相鄰的子圖橫向上重疊寬度為1000像素,縱向重疊寬度設(shè)置為2000像素。在融合子圖檢測結(jié)果時(shí),我們采用一種基于子圖重疊中線和檢測框相交判定的規(guī)則。比如,對于一對橫向有重疊的子圖,如果基于左子圖的檢測框處于子圖重疊中線的右側(cè),但與該中線相交,該檢測框就被保留,反之則丟棄該檢測框。通過segmentation-and-fusion方法,與直接合并進(jìn)行NMS的方法相比, 我們在本地檢測驗(yàn)證集取得了0.2AP的提升。
          ? ? ? ? ? ? ?
          ? ? ? ? ? ? ?
          ?
          Embedding部分:
          ?
          ? ? ? ? ? ? ?
          ?
          為了解決行人擁擠帶來的問題,我們采用了Multiple Granularity Network(MGN),如上圖所示。我們首先利用Resnet50-ibn-a[4]提取特征,然后使用Triplet loss和Softmax loss計(jì)算三個(gè)全局特征的損失,僅使用Softmax loss計(jì)算局部特征的損失。此外,我們使用了ReID中的常用的訓(xùn)練技巧來優(yōu)化MGN的性能[3]。
          ?
          Data Association:
          ?
          我們借鑒了DeepSORT和FairMOT的想法,以檢測框的表觀距離為主,以檢測框的空間距離為輔。首先,我們根據(jù)第一幀中的檢測框初始化多個(gè)軌跡。在隨后的幀中,我們根據(jù)embedding features之間的距離(最大距離限制為0.7),來將檢測框和已有的軌跡做關(guān)聯(lián)。與FairMOT一致,每一幀都會(huì)通過指數(shù)加權(quán)平均更新跟蹤器的特征,以應(yīng)對特征變化的問題。對于未匹配的激活軌跡和檢測框通過他們的IOU距離關(guān)聯(lián)起來(閾值為0.8)。最后,對于失活但未完全跟丟的軌跡和檢測框也是由它們的IoU距離關(guān)聯(lián)的(閾值為0.8)。
          ?
          ? ? ? ? ? ? ?
          ?
          后處理:
          ?
          由于只對較高的置信度的檢測框進(jìn)行跟蹤,因此存在大量假陰性的檢測框,導(dǎo)致MOTA[1]性能低下。為了減少置信閾值的影響,團(tuán)隊(duì)嘗試了兩種簡單的插值方法。

          1) 對總丟失幀不超過20的軌跡進(jìn)行線性插值。我們稱之為簡單插值(simple interpolation, SI);

          2)對每一個(gè)軌跡只在丟失不超過4幀的幀之間插入。另外,我們稱之為片段插值(fragment interpolation, FI)。

          雖然插值的方法增加了假陽性樣本的數(shù)量,但是大大減少了假陰性樣本,使我們在測試集上實(shí)現(xiàn)了0.9左右的提升。不同插值方法的效果如下表所示。
          ?? ? ? ?

          ? ? ? ?? ? ? ?
          以上是團(tuán)隊(duì)對參賽方案的優(yōu)化路線圖,通過優(yōu)化檢測器以及特征提取器,數(shù)據(jù)關(guān)聯(lián)方法、后處理等方法,在GigaVision 2020多行人跟蹤挑戰(zhàn)賽中獲得第一名的成績
          ?
          總結(jié)與思考

          本文針對GigaVision多行人跟蹤挑戰(zhàn)賽,設(shè)計(jì)了一個(gè)簡單、在線的多目標(biāo)跟蹤系統(tǒng),包括檢測器、特征提取、數(shù)據(jù)關(guān)聯(lián)和軌跡后處理,在GigaVision 2020多行人跟蹤挑戰(zhàn)賽中獲得第一名。很榮幸取得這次競賽的第一名,在這里也分享一下針對多目標(biāo)跟蹤任務(wù)的一些問題以及思考:
          ?
          1)檢測器和特征提取器mAP越高,最終跟蹤的性能也會(huì)相應(yīng)的提升?
          2)數(shù)據(jù)關(guān)聯(lián)過程真的需要運(yùn)動(dòng)模型么?
          3)跟蹤器的特征平滑為何有效?
          4)Part-Based的特征提取器為何有效?
          ?
          團(tuán)隊(duì)對以上問題進(jìn)行了思考,得出一些比較簡單的看法:
          ?
          1) 一般來說檢測器和特征提取器的性能越理想,最終跟蹤的性能也會(huì)有相應(yīng)的提升;mAP作為常用的檢測器評估指標(biāo)來說,mAP的提升不一定能帶來跟蹤的性能提升,當(dāng)然這也和評價(jià)指標(biāo)有關(guān)系,需要具體問題具體分析,比如檢測上多尺度增強(qiáng)帶來的AP增益往往會(huì)造成MOTA的降低。
          ?
          mAP作為特征提取器的評估指標(biāo)來說,mAP的提升也不一定能帶來跟蹤的性能提升,比如Part-Based 的MGN在本次競賽中雖然mAP比全局特征提取器差幾個(gè)點(diǎn),在最后的跟蹤上卻取得不錯(cuò)的效果。
          ?
          2)現(xiàn)實(shí)中的多目標(biāo)跟蹤任務(wù)中,攝像頭的突然運(yùn)動(dòng)以及跟蹤對象的突然加速往往都是存在的,這時(shí)候的運(yùn)動(dòng)模型其實(shí)動(dòng)態(tài)性能十分的差勁,反而造成不好的跟蹤效果,本次競賽采用的是直接不采用運(yùn)動(dòng)模型的方法。
          ?
          3) 跟蹤器的特征平滑操作十分簡單有效,不需要類似于DeepSORT進(jìn)行級聯(lián)匹配,速度比較快,考慮了同一軌跡的歷史特征,使得特征更加魯棒,減少了單幀跟蹤錯(cuò)誤帶來的影響;
          ?
          4) Part-Based的特征提取器針對這種遮擋比較嚴(yán)重的情況在距離度量時(shí)考慮了各個(gè)部分的特征,特別的,遮擋部分往往變化比較大,結(jié)合特征平滑操作,一定程度上消除了遮擋部分的影響,更關(guān)注沒有遮擋部分的特征。
          ?
          作者介紹

          羅志鵬,DeepBlue Technology北京AI研發(fā)中心負(fù)責(zé)人,畢業(yè)于北京大學(xué),曾任職于微軟亞太研發(fā)集團(tuán)。


          現(xiàn)主要負(fù)責(zé)公司AI平臺(tái)相關(guān)研發(fā)工作,帶領(lǐng)團(tuán)隊(duì)已在CVPR、ICCV、ECCV、KDD、NeurIPS、SIGIR等數(shù)十個(gè)世界頂級會(huì)議挑戰(zhàn)賽中獲得近二十項(xiàng)冠軍,以一作在KDD、WWW等國際頂會(huì)上發(fā)表論文,具有多年跨領(lǐng)域的人工智能研究和實(shí)戰(zhàn)經(jīng)驗(yàn)。
          ??
          參考文獻(xiàn):
          1. ?Bernardin, K. ? Stiefelhagen, R.: Evaluating multiple object tracking performance(2008)
          2. ?Milan, A., Leal-Taixe, L., Reid, I., Roth, S., Schindler, K.: Mot16: A benchmark for multi-object tracking (2016)
          3. ?Luo, H., Gu, Y., Liao, X., Lai, S., Jiang, W.: Bag of tricks and a strong baseline for deep person re-identification (2019)
          4. ?Pan, X., Luo, P., Shi, J., Tang, X.: Two at once: Enhancing learning and generalization capacities via ibn-net (2018)
          5. ?Wang, ?X., ?Zhang, ?X., ?Zhu, ?Y., ?Guo, ?Y., ?Yuan, ?X., ?Xiang, ?L., ?Wang, ?Z., ?Ding,G., Brady, D.J., Dai, Q., Fang, L.: Panda: A gigapixel-level human-centric video dataset (2020)
          6. ?Wojke, N., Bewley, A., Paulus, D.: Simple online and realtime tracking with a deep association metric (2017)
          7. ?Yu, F., Li, W., Li, Q., Liu, Y., Shi, X., Yan, J.: Poi: Multiple object tracking with high performance detection and appearance feature (2016)
          8. ?Zhang, Y., Wang, C., Wang, X., Zeng, W., Liu, W.: A simple baseline for multi-object tracking (2020)
          9. ?Li, X., Wang, W., Wu, L., Chen, S., Hu, X., Li, J., Tang, J., Yang, J.: Generalized focal loss: Learning qualified and distributed bounding boxes for dense object detection. arXiv (2020)
          10. ?Wang, G., Yuan, Y., Chen, X., Li, J., Zhou, X.: Learning discriminative features with ?multiple ?granularities ?for ?person ?re-identification. ?CoRRabs/1804.01438(2018)
          11. ?Cai, Z., Vasconcelos, N.: Cascade r-cnn: Delving into high quality object detection. In: Proceedings of the IEEE conference on computer vision and pattern recognition.pp. 6154–6162 (2018)
          12. ?Cao, Y., Xu, J., Lin, S., Wei, F., Hu, H.: Gcnet: Non-local networks meet squeeze-excitation networks and beyond. In: Proceedings of the IEEE International Conference on Computer Vision Workshops. pp. 0–0 (2019)
          13. ?Dai, J., Qi, H., Xiong, Y., Li, Y., Zhang, G., Hu, H., Wei, Y.: Deformable convolutional networks. In: Proceedings of the IEEE international conference on computer vision. pp. 764–773 (2017)
          14. ?Hu, J., Shen, L., Sun, G.: Squeeze-and-excitation networks. In: Proceedings of the IEEE conference on computer vision and pattern recognition. pp. 7132–7141 (2018)
          15. ?Li, X., Wang, W., Wu, L., Chen, S., Hu, X., Li, J., Tang, J., Yang, J.: Generalized focal loss: Learning qualified and distributed bounding boxes for dense object detection. arXiv preprint arXiv:2006.04388 (2020)
          16. ?Solovyev, R., Wang, W.: Weighted boxes fusion: ensembling boxes for object detection models. arXiv preprint arXiv:1910.13302 (2019)




          瀏覽 55
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評論
          圖片
          表情
          推薦
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  看一级一级黄色免费视频 | 囯产精品久久久 | 国产91 白丝在线播放 | 尹人网站| 大香蕉国语黄色录像 |