<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          ACM MM2021 | 探索基于序列特征對齊的域適應(yīng)目標檢測方法

          共 6280字,需瀏覽 13分鐘

           ·

          2021-09-23 09:33

          ↑ 點擊藍字 關(guān)注極市平臺

          來源丨將門創(chuàng)投
          編輯丨極市平臺

          極市導(dǎo)讀

           

          本文提出了一種針對Detection Transformer的域適應(yīng)方法SFA,該工作是探索研究院在Detection Transformer這一熱門方向上的首項成果,已經(jīng)被MultiMedia2021收錄。 >>加入極市CV技術(shù)交流群,走在計算機視覺的最前沿

          視覺模型在跨域場景下的穩(wěn)定性和魯棒性是可信人工智能的重要基礎(chǔ),目前京東探索研究院研究員在跨域場景下的目標檢測、語義分割等視覺任務(wù)上已有多項研究成果[1, 2, 3, 4],這是提升視覺模型在應(yīng)用場景下的安全性與可靠性的重要步驟。

          針對如何提升Detection Transformer的跨域性能這一問題,本文介紹了探索研究院在域適應(yīng)目標檢測(Domain Adaptive Object Detection)領(lǐng)域的一項新工作“Exploring Sequence Feature Alignment for Domain Adaptive Detection Transformers”。該工作是探索研究院在Detection Transformer這一熱門方向上的首項成果,已經(jīng)被MultiMedia2021收錄。

          論文地址:https://arxiv.org/abs/2107.12636

          代碼地址:https://github.com/encounter1997/SFA

          一、前言

          目標檢測是計算機視覺中的基本任務(wù)之一,具有廣泛的運用價值[5]。盡管近年來現(xiàn)有的目標檢測算法取得了長足進展,但是它們往往假設(shè)測試數(shù)據(jù)和訓(xùn)練數(shù)據(jù)采樣自相同的數(shù)據(jù)分布。然而,在現(xiàn)實生活中,由于天氣變化、場景變化、圖像采集設(shè)備的不穩(wěn)定性等原因,測試數(shù)據(jù)和訓(xùn)練數(shù)據(jù)的分布并不一致,其中往往存在域間隔(domain gap)。由于這些問題,如果直接將目標檢測器運用到這些場景下,可能會面臨性能下降明顯的情況。

          無監(jiān)督域適應(yīng)目標檢測領(lǐng)域試圖在有標注的源域數(shù)據(jù)上訓(xùn)練一個能泛化到目標域的目標檢測器,以減少人工標注的成本。 近年來,基于Faster RCNN,SSD,F(xiàn)COS等的無監(jiān)督域適應(yīng)目標檢測取得了很多進展。隨著Vision Transformer[6, 7]和目標檢測中Detection Transformer類方法的迅速發(fā)展,我們很自然地會希望這類目標檢測器也具有跨域目標檢測的能力。在這篇文章中我們將針對這一問題進行深入的探討。

          由于現(xiàn)有的域適應(yīng)目標檢測算法大部分是針對特定目標檢測器結(jié)構(gòu)的,例如DA-Faster[8]依賴于Faster RCNN中的RPN結(jié)構(gòu),EPN[9]需要FCOS中的centerness branch,它們并不能直接運用在Detection Transformer上。為此,我們首先探索一個簡單的域適應(yīng)方法:通過對CNN backbone提取的特征做特征分布對齊實現(xiàn)域適應(yīng)。

          如圖1(a) 所示,盡管這種方法取得了一定效果,但相比于在transformer的序列特征上做分布對齊,帶來的提升十分有限。通過圖1(b) 中CNN,encoder(編碼器)和decoder(解碼器)提取的特征的可視化我們可以看出,在CNN backbone上做特征對齊只能保證CNN基礎(chǔ)特征的分布的對齊,而被直接用于分類、定位預(yù)測的transformer序列特征上依然存在顯著的分布差異。這限制了Detection Transformer的跨域性能。

          圖1 在CNN特征上進行對齊的主客觀結(jié)果

          二、解決方法

          基于以上觀察,我們提出基于序列特征對齊(Sequence Feature Alignment, SFA) 的域適應(yīng)方法來提升Detection Transformer的跨域性能。具體來說,它包含基于域查詢的序列特征對齊和逐詞的序列特征對齊,此外,我們提出二分圖匹配一致性約束,進一步提升約束Detection Transformer的序列特征,提升其魯棒性。我們的Domain Adaptive Detection Transformer整體框架如圖2所示。

          圖2 SFA整體框架

          基于域查詢的序列特征對齊(domain query-based feature alignment) 利用域查詢對序列特征中的與域相關(guān)的特性做聚合,并在聚合了全局域特性的域查詢上做特征對齊,從而在整體上對Transformer序列特征進行對齊。通過在Transformer的encoder和decoder中分別加入域查詢token,使得這一方法能夠很容易地并用,來對齊encoder和decoder中的序列特征。

          值得注意的是,在編碼器和解碼器端采用這一方法具有不同的意義。具體來說,由于編碼器輸入的序列特征是由**圖像的特征圖拉平(flatten)**得到的,此處基于域查詢的序列特征對齊從整體上對圖像場景布局等層面做遷移。而解碼器端的序列特征是由物體查詢組成的,此處基于域查詢的序列特征對齊是在物體間關(guān)系、前景與背景關(guān)系等層面上做遷移。

          基于域查詢的特征對齊只能在全局上對物體間關(guān)系和場景布局等層面減少域差異,而不能解決源域和目標域在紋理、風格等細節(jié)上的域差異。為了解決這一問題,我們提出對序列特征做逐詞的特征對齊(token-wise feature alignment)。同樣,該方法也能夠很方便的適用于encoder和decoder中不同的序列特征。其中,在編碼器端序列中的詞代表圖片的一塊局部區(qū)域,因此,此處的逐詞的序列特征對齊主要解決圖像的局部紋理、表觀等層面的差異。而解碼器端的詞代表物體個體,因此,此處的逐詞的序列特征對齊是在圖像的前景物體個體層面做特征對齊(類似于DA-Faster中的instance-level feature alignment)。

          同時,為了實現(xiàn)更全面的特征對齊,我們采用漸進特征對齊,由淺層到深層,對Transformer編碼器各層的輸出逐一做特征對齊。

          Detection Transformer采用二分圖匹配將模型的輸出與圖像中的物體或背景進行一一對應(yīng)。由于目標域上沒有標簽做監(jiān)督,目標檢測器容易在目標域上產(chǎn)生不準確的匹配。為此,我們對不同解碼器層的輸出做集成,并約束不同解碼器層的輸出,以產(chǎn)生一致的二分圖匹配來實現(xiàn)更準確的檢測。

          值得注意的是,我們的方法不局限于Detection Transformer結(jié)構(gòu),而是可以廣泛運用在此類目標檢測器上,如DETR[5],Deformable DETR[6]。

          我們從域適應(yīng)和泛化性兩個角度對SFA的跨域性能進行了理論分析,分析表明,我們的SFA能夠顯著提升Detection Transformer的跨域性能。

          三、實驗結(jié)果

          在實驗部分,我們考慮了三種常見的域適應(yīng)場景,即天氣域適應(yīng)(Cityscapes to Foggy Cityscapes),合成數(shù)據(jù)到真實數(shù)據(jù)域適應(yīng)(Sim10k to Cityscapes)和場景域適應(yīng)(Cityscapes to BDD100k daytime)。我們的方法在這三種場景下的結(jié)果如下表所示??梢钥吹?,我們的方法能夠在跨域場景下取得SOTA性能,超越基于Faster RCNN或基于FCOS的域適應(yīng)方法。同時,我們的方法相比于Source only Deformable DETR基線性能有顯著提升。

          表1 天氣域適應(yīng)(Cityscapes to Foggy Cityscapes)實驗結(jié)果

          表2 合成數(shù)據(jù)到真實數(shù)據(jù)域適應(yīng)(Sim10k to Cityscapes)實驗結(jié)果

          表3 場景域適應(yīng)(Cityscapes to BDD100k daytime)實驗結(jié)果

          此外,為了深入理解SFA中每個模塊的作用,我們對SFA中的主要組件——基于域查詢的序列特征對齊(DQ),逐詞的特征對齊(TW),二分圖匹配一致性約(BMC)和層級式特征對齊(HR)做消融實驗。結(jié)果如下表所示。

          表4 消融實驗實驗結(jié)果

          可以看出,我們的各個模塊中,基于域查詢的序列特征對齊和逐詞的特征對齊均能顯著提升模型的跨域性能,并且二者是互補的。而二分圖匹配一致性和層級式特征對齊能夠進一步提升模型的整體性能。

          在附加材料中,我們將SFA運用到DETR上來提升其跨域性能,得到的結(jié)果如下表所示。

          表5 在DETR上運用SFA實驗結(jié)果

          由于DETR相較于Deformable DETR有更少的先驗(如稀疏采樣),其依賴更多的數(shù)據(jù)來訓(xùn)練,導(dǎo)致其在Cityscapes to Foggy Cityscape上性能不佳(14.1 mAP50)。盡管如此,我們的方法能夠顯著提升其跨域性能,提升7.9 mAP50(相對提升56%)。

          最后我們對SFA模型的輸出以及特征進行可視化,包含:

          1. 在不同跨域場景下的主觀結(jié)果可視化,如圖3所示。

          圖3 SFA模型在不同跨域場景下的主觀結(jié)果可視化

          2. CNN特征,encoder和decoder特征分布的可視化,如圖4所示。 可以看出,在不同域的序列特征的分布均已對齊,并且受益于漸進式特征對齊,CNN提取的特征也已對齊。

          圖4 SFA模型特征可視化

          3. 對domain query關(guān)注區(qū)域的可視化,如圖5所示。 可以看到,domain query的主要權(quán)重出現(xiàn)在圖像的上半部分霧比較濃(域差異顯著)的區(qū)域。

          圖5 對domain query關(guān)注區(qū)域的可視化

          四、總結(jié)與展望

          本文提出了一種針對Detection Transformer的域適應(yīng)方法SFA,其中主要包含基于域查詢的序列特征對齊(DQFA)、逐詞的序列特征對齊(TDA)和二分圖匹配一致性損失,該方法的有效性已經(jīng)通過實驗和理論分析進行證明。希望我們的SFA能夠成為基于Detection Transformer的域適應(yīng)目標檢測方法的基線。論文和代碼已開源,歡迎大家關(guān)注。

          參考文獻:

          [1] Zhang Q, Zhang J, Liu W, et al. Category anchor-guided unsupervised domain adaptation for semantic segmentation[J]. arXiv preprint arXiv:1910.13049, 2019.

          [2] Gao L, Zhang J, Zhang L, et al. DSP: Dual Soft-Paste for Unsupervised Domain Adaptive Semantic Segmentation[J]. arXiv preprint arXiv:2107.09600, 2021.

          [3] He F, Liu T, Tao D. Control batch size and learning rate to generalize well: Theoretical and empirical evidence[J]. Advances in Neural Information Processing Systems, 2019, 32: 1143-1152.

          [4] He F, Liu T, Tao D. Why resnet works? residuals generalize[J]. IEEE transactions on neural networks and learning systems, 2020, 31(12): 5349-5362.

          [5] Zhang J, Tao D. Empowering things with intelligence: a survey of the progress, challenges, and opportunities in artificial intelligence of things[J]. IEEE Internet of Things Journal, 2020, 8(10): 7789-7817.

          [6] Dosovitskiy A, Beyer L, Kolesnikov A, et al. An image is worth 16x16 words: Transformers for image recognition at scale[J]. arXiv preprint arXiv:2010.11929, 2020.

          [7] Xu Y, Zhang Q, Zhang J, et al. ViTAE: Vision Transformer Advanced by Exploring Intrinsic Inductive Bias[J]. arXiv preprint arXiv:2106.03348, 2021.

          [8] Chen Y, Li W, Sakaridis C, et al. Domain adaptive faster r-cnn for object detection in the wild[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2018: 3339-3348.

          [9] Hsu C C, Tsai Y H, Lin Y Y, et al. Every pixel matters: Center-aware feature alignment for domain adaptive object detector[C]//European Conference on Computer Vision. Springer, Cham, 2020: 733-748.

          Illustrastion__by Natasha Remarchuk from Icons8_\

          The End

          如果覺得有用,就請分享到朋友圈吧!

          △點擊卡片關(guān)注極市平臺,獲取最新CV干貨

          公眾號后臺回復(fù)“CVPR21檢測”獲取CVPR2021目標檢測論文下載~


          極市干貨
          深度學(xué)習環(huán)境搭建:如何配置一臺深度學(xué)習工作站?
          實操教程:OpenVINO2021.4+YOLOX目標檢測模型測試部署為什么你的顯卡利用率總是0%?
          算法技巧(trick):圖像分類算法優(yōu)化技巧21個深度學(xué)習調(diào)參的實用技巧


          CV技術(shù)社群邀請函 #

          △長按添加極市小助手
          添加極市小助手微信(ID : cvmart4)

          備注:姓名-學(xué)校/公司-研究方向-城市(如:小極-北大-目標檢測-深圳)


          即可申請加入極市目標檢測/圖像分割/工業(yè)檢測/人臉/醫(yī)學(xué)影像/3D/SLAM/自動駕駛/超分辨率/姿態(tài)估計/ReID/GAN/圖像增強/OCR/視頻理解等技術(shù)交流群


          每月大咖直播分享、真實項目需求對接、求職內(nèi)推、算法競賽、干貨資訊匯總、與 10000+來自港科大、北大、清華、中科院、CMU、騰訊、百度等名校名企視覺開發(fā)者互動交流~



          覺得有用麻煩給個在看啦~  
          瀏覽 96
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  手机免费看操逼视频 | 午夜精品视频在线观看 | 日批视频在线 | 无码中文字幕无码视频在线观看 | 美国在线成人 |