>加入極市CV技術交流群,走在計算機..." />
<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          ECCV 2020 GigaVision挑戰(zhàn)賽“行人和車輛檢測”和“多目標追蹤”冠軍方案解讀

          共 8453字,需瀏覽 17分鐘

           ·

          2020-10-09 15:23

          ↑ 點擊藍字?關注極市平臺

          來源丨DeepBlue深蘭科技
          編輯丨極市平臺

          極市導讀

          ?

          本文介紹了首屆GigaVision挑戰(zhàn)賽“行人和車輛檢測”和“多目標追蹤”兩個賽道的難點以及冠軍方案的工作細節(jié)。>>加入極市CV技術交流群,走在計算機視覺的最前沿


          日前,全球計算機視覺頂會ECCV 2020落下帷幕,各項挑戰(zhàn)賽的結果也塵埃落定。深蘭科技DeepBlueAI 團隊包攬了首屆GigaVision挑戰(zhàn)賽“行人和車輛檢測”和“多目標追蹤”兩個賽道的冠軍。


          過去十年中,行人檢測、跟蹤、動作識別、異常檢測、屬性識別等以人為中心的計算機視覺分析任務引起了人們的極大關注,為了促進新的算法來理解大規(guī)?,F(xiàn)實世界場景中復雜的人群活動及社交行為,可把圖像放大千倍的十億級別像素目標檢測,將在例如人臉識別、無人駕駛、監(jiān)控安防和智能手機等多個領域被廣泛應用。

          計算機視覺作為深蘭科技的核心技術之一,其實力已在多個國際頂會競賽中得以驗證,并已應用于不同領域的產(chǎn)品中,包括疫情期間發(fā)揮了極大作用的深蘭AI熱感視覺行為監(jiān)控系統(tǒng)-貓頭鷹,在廣州、深圳、武漢、上海、長沙等多地獲得自動駕駛路測牌照的熊貓智能公交車,以及各類機器人和智能零售產(chǎn)品等。

          GigaVision賽題介紹


          以人為中心的各項計算機視覺分析任務,例如行人檢測,跟蹤,動作識別,異常檢測,屬性識別等,在過去的十年中引起了人們的極大興趣。

          為了對大規(guī)模時空范圍內(nèi)具有高清細節(jié)的人群活動進行跨越長時間、長距離分析,清華大學智能成像實驗室推出一個新的十億像素視頻數(shù)據(jù)集:PANDA。

          該數(shù)據(jù)集是在多種自然場景中收集,旨在為社區(qū)貢獻一個標準化的評測基準,以研究新的算法來理解大規(guī)?,F(xiàn)實世界場景中復雜的人群活動及社交行為。圍繞PANDA數(shù)據(jù)集,主辦方組織了GigaVision 2020挑戰(zhàn)賽。

          ?
          本次的挑戰(zhàn)賽同時是ECCV2020的Workshop:「GigaVision: When Gigapixel Videography Meets Computer Vision」。

          任務介紹


          挑戰(zhàn)賽的任務是在由十億像素相機收集的大范圍自然場景視覺數(shù)據(jù)集PANDA上進行圖像目標檢測和視頻多目標跟蹤。


          Sub-Track 1 : Pedestrian & Vehicle Detection

          這項任務是為了推動在十億像素圖像上的目標檢測技術的發(fā)展。挑戰(zhàn)的參與者需要檢測兩類目標:行人和車輛。對于每個行人,需要提交三類檢測框:可見身體范圍框、全身范圍框、行人頭部范圍框。對于每個車輛,需要提交可見范圍框。一些特殊的區(qū)域(如假人、極度擁擠的人群、車群、被嚴重遮擋的人等)將在評估中被忽略。

          Sub-Track 2 : Multi-Pedestrian Tracking

          這項任務是為了推動在十億像素視頻上的多目標追蹤技術的發(fā)展。PANDA寬視場、多目標、高分辨的優(yōu)越性能使特別適合于多目標長時間追蹤任務。然而,巨大的同類目標尺度變化和擁有豐富行人擁擠、遮擋的復雜場景也帶來了各種挑戰(zhàn)。在給定輸入視頻序列的情況下,該任務需要參與者提交行人在視頻中的軌跡。

          評測指標


          對于賽道一,類似于MS COCO數(shù)據(jù)集的評估方案,主辦方采用AP、APIOU=0.50、APIOU=0.75、ARmax=10、ARmax=100、ARmax=500五個指標來評估檢測算法的結果。最終的排名依據(jù)于 AP 和 ARmax=500?兩項指標的調(diào)和平均數(shù),高者為優(yōu)。
          ?? ? ??? ? ? ?
          對于賽道二,與MOTChallenge[2]中使用的評測方法類似,主辦方采用了包括MOTA、MOTP、IDF1、FAR、MT和Hz等指標來評估多目標追蹤算法的結果。最終的排名依據(jù)于 MOTA 和 MOTP 兩項指標的調(diào)和平均數(shù),高者為優(yōu)。

          DeepBlueAI團隊榮獲兩項第一


          任務一:


          ?? ? ? ?????
          任務二:
          ?? ? ? ?

          賽題特點



          圖像分辨率極高、近景和遠景目標尺度差異大。
          ?
          十億像素級的超高分辨率是整個數(shù)據(jù)集的核心問題。一方面,由于計算資源的限制,超高分辨率使得網(wǎng)絡無法接受大圖作為輸入,而單純將原圖縮放到小圖會使得目標丟失大量信息。另一方面,圖像中近景和遠景的目標尺度差異大,給檢測器帶來了巨大的挑戰(zhàn)。
          ?
          目標在圖像中分布密集,并且遮擋嚴重。
          ?
          數(shù)據(jù)集均從廣場、學校、商圈等真實場景采集,其人流和車輛密度極大。同時,行人和車輛的擁擠、遮擋等情況頻發(fā),容易造成目標的漏檢和誤檢。

          主要工作


          賽道一 Pedestrian & Vehicle Detection


          根據(jù)以往積累的經(jīng)驗,團隊首先將原圖縮放到合適尺度,并使用基于Cascade RCNN的檢測器直接檢測行人的三個類別和車輛,將其作為Baseline: Backbone + DCN + FPN + Cascade RCNN,并在此基礎上進行改進。?

          ? ? ? ?? ? ??

          實驗結果顯示,模型存在大量的誤檢和漏檢。這些漏檢和無意義的檢測結果大幅降低了模型的性能。團隊將上述問題歸納為兩方面的原因:


          1、訓練和測試時輸入模型的圖像尺度不合適。圖像經(jīng)過縮放后,目標的尺度也隨之變小,導致遠景中人的頭部等區(qū)域被大量遺漏。

          2、網(wǎng)絡本身的分類能力較弱。行人的可見區(qū)域和全身區(qū)域十分相似,容易對分類器造成混淆,從而產(chǎn)生誤檢。


          ?
          根據(jù)上述問題,團隊進行了一些改進。
          ?
          首先,使用滑動窗口的方式切圖進行訓練。滑動窗口切圖是一種常用的大圖像處理方式,這樣可以有效的保留圖像的高分辨率信息,使得網(wǎng)絡獲得的信息更加豐富。如果某個目標處于切圖邊界,根據(jù)其IOF大于0.5來決定是否保留。
          ?
          其次,對于每個類別采用一個單獨的檢測器進行檢測。經(jīng)過實驗對比,對每個類別采用單獨的檢測器可以有效的提高網(wǎng)絡的效果,尤其是對于可見區(qū)域和全身區(qū)域兩類。
          ?
          同時向檢測器添加了Global Context (GC) block來進一步提高特征提取能力。GC-Block結合了Non-local的上下文建模能力,并繼承了SE-Net節(jié)省計算量的優(yōu)點,可以有效的對目標的上下文進行建模。
          ?? ? ? ?? ? ?
          除Cascade RCNN外,還采用了Generalize Focal Loss (GFL)檢測器進行結果互補。GFL提出了一種泛化的Focal Loss損失,解決了分類得分和質(zhì)量預測得分在訓練和測試時的不一致問題。
          ?? ? ? ?

          最后,將各檢測器的結果使用Weighted Box Fusion (WBF)進行融合,形成了最終的解決方案。

          傳統(tǒng)的NMS和Soft-NMS方法會移除預測結果中的一部分預測框,而WBF使用全部的預測框,通過進行組合來獲得更加準確的預測框,從而實現(xiàn)精度提升。整體pipeline如下圖所示:
          ? ? ? ?? ? ??

          實驗結果:


          ? ? ? ?


          賽道二 ?Multi-Pedestrian Tracking

          ?
          賽題分析
          ?
          多行人跟蹤問題是一個典型的多目標跟蹤問題。通過調(diào)研總結發(fā)現(xiàn),Tracking-by-detection是處理這一問題的常用且精度比較高的方法[2][7]?;镜牧鞒炭梢钥偨Y如下:

          1) 在每一幀中檢測物體的位置。
          2) 為每個檢測框提取特征。
          3) 通過將特征距離或空間距離將預測的目標與現(xiàn)有軌跡關聯(lián)。

          本次挑戰(zhàn)賽更注重精度,因此采用了分離Detection和Embedding的方法,該方法的模塊化設計的優(yōu)點使得競賽精度上優(yōu)化空間的十分大。通過簡單的數(shù)據(jù)統(tǒng)計分析和可視化分析,團隊認為該比賽的主要挑戰(zhàn)在于圖像的大分辨率和行人的嚴重擁擠,如下圖所示。
          ? ? ? ??? ? ?? ? ? ?? ? ??
          為了應對這些挑戰(zhàn),針對高分辨、小目標等問題,引入了一種滑動窗口檢測算法。針對遮擋嚴重的問題,使用局部和全局特征來衡量兩個相鄰幀之間的預測邊界框的相似距離,并且借鑒了FairMOT的特征平滑的方法進行緩解。
          ?
          競賽方案:
          ?
          本次采用的多目標跟蹤系統(tǒng)是基于Detection和Embedding分離的方法,采用了以Generalized Focal Loss(GFL)[9]為損失的anchor-free檢測器,并以Multiple Granularity Network (MGN)[10]作為Embedding模型。

          在關聯(lián)過程中,借鑒了DeepSORT[6]和FairMOT[8]的思想,構建了一個簡單的在線多目標跟蹤器, 如下圖所示。

          ? ? ? ??? ? ?
          ? ? ?? ??

          檢測部分:
          ?
          為了處理高分辨率的圖像,我們提出了一個segmentation-and-fusion(SF)的方法,如下圖所示。每一張大圖有交疊的切分成多個子圖,每一個子圖的分辨率為6000*6000,位于圖像邊緣的子圖直接填充均值。為了防止較大的行人目標被切分成進兩個子圖,相鄰的子圖橫向上重疊寬度為1000像素,縱向重疊寬度設置為2000像素。在融合子圖檢測結果時,我們采用一種基于子圖重疊中線和檢測框相交判定的規(guī)則。比如,對于一對橫向有重疊的子圖,如果基于左子圖的檢測框處于子圖重疊中線的右側,但與該中線相交,該檢測框就被保留,反之則丟棄該檢測框。通過segmentation-and-fusion方法,與直接合并進行NMS的方法相比, 我們在本地檢測驗證集取得了0.2AP的提升。

          ? ????
          ? ???? ? ??
          Embedding部分:
          ? ? ? ? ?
          ? ? ???
          為了解決行人擁擠帶來的問題,我們采用了Multiple Granularity Network(MGN),如上圖所示。我們首先利用Resnet50-ibn-a[4]提取特征,然后使用Triplet loss和Softmax loss計算三個全局特征的損失,僅使用Softmax loss計算局部特征的損失。此外,我們使用了ReID中的常用的訓練技巧來優(yōu)化MGN的性能[3]。
          ?
          Data Association:
          ?
          我們借鑒了DeepSORT和FairMOT的想法,以檢測框的表觀距離為主,以檢測框的空間距離為輔。首先,我們根據(jù)第一幀中的檢測框初始化多個軌跡。在隨后的幀中,我們根據(jù)embedding features之間的距離(最大距離限制為0.7),來將檢測框和已有的軌跡做關聯(lián)。與FairMOT一致,每一幀都會通過指數(shù)加權平均更新跟蹤器的特征,以應對特征變化的問題。對于未匹配的激活軌跡和檢測框通過他們的IOU距離關聯(lián)起來(閾值為0.8)。最后,對于失活但未完全跟丟的軌跡和檢測框也是由它們的IoU距離關聯(lián)的(閾值為0.8)。
          ?? ? ? ?? ? ??
          后處理:
          ?
          由于只對較高的置信度的檢測框進行跟蹤,因此存在大量假陰性的檢測框,導致MOTA[1]性能低下。為了減少置信閾值的影響,團隊嘗試了兩種簡單的插值方法。

          1) 對總丟失幀不超過20的軌跡進行線性插值。我們稱之為簡單插值(simple interpolation, SI);

          2)對每一個軌跡只在丟失不超過4幀的幀之間插入。另外,我們稱之為片段插值(fragment interpolation, FI)。

          雖然插值的方法增加了假陽性樣本的數(shù)量,但是大大減少了假陰性樣本,使我們在測試集上實現(xiàn)了0.9左右的提升。不同插值方法的效果如下表所示。
          ?? ? ? ?
          ? ? ? ?? ? ? ?
          以上是團隊對參賽方案的優(yōu)化路線圖,通過優(yōu)化檢測器以及特征提取器,數(shù)據(jù)關聯(lián)方法、后處理等方法,在GigaVision 2020多行人跟蹤挑戰(zhàn)賽中獲得第一名的成績。

          總結與思考


          本文針對GigaVision多行人跟蹤挑戰(zhàn)賽,設計了一個簡單、在線的多目標跟蹤系統(tǒng),包括檢測器、特征提取、數(shù)據(jù)關聯(lián)和軌跡后處理,在GigaVision 2020多行人跟蹤挑戰(zhàn)賽中獲得第一名。很榮幸取得這次競賽的第一名,在這里也分享一下針對多目標跟蹤任務的一些問題以及思考:
          ?
          1)檢測器和特征提取器mAP越高,最終跟蹤的性能也會相應的提升?
          2)數(shù)據(jù)關聯(lián)過程真的需要運動模型么?
          3)跟蹤器的特征平滑為何有效?
          4)Part-Based的特征提取器為何有效?
          ?
          團隊對以上問題進行了思考,得出一些比較簡單的看法:
          ?
          1) 一般來說檢測器和特征提取器的性能越理想,最終跟蹤的性能也會有相應的提升;mAP作為常用的檢測器評估指標來說,mAP的提升不一定能帶來跟蹤的性能提升,當然這也和評價指標有關系,需要具體問題具體分析,比如檢測上多尺度增強帶來的AP增益往往會造成MOTA的降低。
          ?
          mAP作為特征提取器的評估指標來說,mAP的提升也不一定能帶來跟蹤的性能提升,比如Part-Based 的MGN在本次競賽中雖然mAP比全局特征提取器差幾個點,在最后的跟蹤上卻取得不錯的效果。
          ?
          2)現(xiàn)實中的多目標跟蹤任務中,攝像頭的突然運動以及跟蹤對象的突然加速往往都是存在的,這時候的運動模型其實動態(tài)性能十分的差勁,反而造成不好的跟蹤效果,本次競賽采用的是直接不采用運動模型的方法。
          ?
          3) 跟蹤器的特征平滑操作十分簡單有效,不需要類似于DeepSORT進行級聯(lián)匹配,速度比較快,考慮了同一軌跡的歷史特征,使得特征更加魯棒,減少了單幀跟蹤錯誤帶來的影響;
          ?
          4) Part-Based的特征提取器針對這種遮擋比較嚴重的情況在距離度量時考慮了各個部分的特征,特別的,遮擋部分往往變化比較大,結合特征平滑操作,一定程度上消除了遮擋部分的影響,更關注沒有遮擋部分的特征。

          參考文獻


          1. Bernardin, K. ?Stiefelhagen, R.: Evaluating multiple object tracking performance(2008)

          2. ?Milan, A., Leal-Taixe, L., Reid, I., Roth, S., Schindler, K.: Mot16: A benchmark for multi-object tracking (2016)

          3. ?Luo, H., Gu, Y., Liao, X., Lai, S., Jiang, W.: Bag of tricks and a strong baseline for deep person re-identification (2019)

          4. ?Pan, X., Luo, P., Shi, J., Tang, X.: Two at once: Enhancing learning and generalization capacities via ibn-net (2018)

          5. ?Wang, ?X., ?Zhang, ?X., ?Zhu, ?Y., ?Guo, ?Y., ?Yuan, ?X., ?Xiang, ?L., ?Wang, ?Z., ?Ding,G., Brady, D.J., Dai, Q., Fang, L.: Panda: A gigapixel-level human-centric video dataset (2020)

          6. ?Wojke, N., Bewley, A., Paulus, D.: Simple online and realtime tracking with a deep association metric (2017)

          7. ?Yu, F., Li, W., Li, Q., Liu, Y., Shi, X., Yan, J.: Poi: Multiple object tracking with high performance detection and appearance feature (2016)

          8. ?Zhang, Y., Wang, C., Wang, X., Zeng, W., Liu, W.: A simple baseline for multi-object tracking (2020)

          9. ?Li, X., Wang, W., Wu, L., Chen, S., Hu, X., Li, J., Tang, J., Yang, J.: Generalized focal loss: Learning qualified and distributed bounding boxes for dense object detection. arXiv (2020)

          10. ?Wang, G., Yuan, Y., Chen, X., Li, J., Zhou, X.: Learning discriminative features with ?multiple ?granularities ?for ?person ?re-identification. ?CoRRabs/1804.01438(2018)

          11. ?Cai, Z., Vasconcelos, N.: Cascade r-cnn: Delving into high quality object detection. In: Proceedings of the IEEE conference on computer vision and pattern recognition.pp. 6154–6162 (2018)

          12. ?Cao, Y., Xu, J., Lin, S., Wei, F., Hu, H.: Gcnet: Non-local networks meet squeeze-excitation networks and beyond. In: Proceedings of the IEEE International Conference on Computer Vision Workshops. pp. 0–0 (2019)

          13. ?Dai, J., Qi, H., Xiong, Y., Li, Y., Zhang, G., Hu, H., Wei, Y.: Deformable convolutional networks. In: Proceedings of the IEEE international conference on computer vision. pp. 764–773 (2017)

          14. ?Hu, J., Shen, L., Sun, G.: Squeeze-and-excitation networks. In: Proceedings of the IEEE conference on computer vision and pattern recognition. pp. 7132–7141 (2018)

          15. ?Li, X., Wang, W., Wu, L., Chen, S., Hu, X., Li, J., Tang, J., Yang, J.: Generalized focal loss: Learning qualified and distributed bounding boxes for dense object detection. arXiv preprint arXiv:2006.04388 (2020)

          16. ?Solovyev, R., Wang, W.: Weighted boxes fusion: ensembling boxes for object detection models. arXiv preprint arXiv:1910.13302 (2019)


          推薦閱讀



          回復“煉丹師“參與測評,領取CV電子書大禮包

          添加極市小助手微信(ID : cvmart2),備注:姓名-學校/公司-研究方向-城市(如:小極-北大-目標檢測-深圳),即可申請加入極市目標檢測/圖像分割/工業(yè)檢測/人臉/醫(yī)學影像/3D/SLAM/自動駕駛/超分辨率/姿態(tài)估計/ReID/GAN/圖像增強/OCR/視頻理解等技術交流群:每月大咖直播分享、真實項目需求對接、求職內(nèi)推、算法競賽、干貨資訊匯總、與?10000+來自港科大、北大、清華、中科院、CMU、騰訊、百度等名校名企視覺開發(fā)者互動交流~

          △長按添加極市小助手

          △長按關注極市平臺,獲取最新CV干貨

          覺得有用麻煩給個在看啦~??
          瀏覽 78
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  免费看国产成人A级视频 | 高清无码性爱视频 | 天天撸天天撸 | 黄瓜视频| 精品欧美色视频网站在线观看 |