<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          ICCV2023|目標檢測新突破!AlignDet:支持各類檢測器完全自監(jiān)督預訓練的框架

          共 9857字,需瀏覽 20分鐘

           ·

          2023-08-07 17:13

          點擊下方卡片,關注「集智書童」公眾號

          點擊加入??「集智書童」交流群

          作者丨Garfield來源丨極市平臺編輯丨小書童

          論文鏈接:https://arxiv.org/abs/2307.11077

          項目地址:https://github.com/liming-ai/AlignDet

          1. 引言

          這篇論文主要研究目標檢測領域的自監(jiān)督預訓練方法。作者首先指出,當前主流的預訓練-微調框架在預訓練和微調階段存在數據、模型和任務上的不一致。具體來說

          1. 數據不一致預訓練通常在分類數據集上進行,如ImageNet,而微調數據集像COCO包含多個目標物體。數據特征和域的差異會導致預訓練偏離下游任務。

          2. 模型不一致當前預訓練方法主要聚焦在模型的部分模塊,如骨干網絡,而檢測器的其他關鍵模塊如RPN和回歸頭沒有進行預訓練。

          3. 任務不一致現(xiàn)有預訓練只將分類作為預訓練任務,沒有學習到目標相關的位置上下文信息,如proposal生成、目標分配和框回歸。

          這些不一致性可能導致目標檢測性能的局限、泛化能力差和收斂速度慢的問題。為此,作者提出AlignDet框架,可以調適到不同檢測器中,以彌合預訓練和微調中的差異。

          AlignDet將預訓練過程解耦為Image-domain預訓練和Box-domain預訓練兩個階段。Image-domain預訓練優(yōu)化檢測網絡的骨干提取高層語義特征,Box-domain預訓練則學習實例級語義和任務感知的概念,來初始化骨干以外的模塊。具體來說

          1. 在Image-domain預訓練中,可以用分類器對骨干網絡進行監(jiān)督預訓練,也可以用最近出現(xiàn)的自監(jiān)督方法進行無監(jiān)督預訓練。

          2. 在Box-domain預訓練中,使用選擇性搜索生成偽標簽,構建兩視圖進行對比學習和坐標回歸損失計算,以適應檢測導向的任務。同時固定骨干網絡避免過擬合噪聲標簽。

          那么對于數據、模型和任務存在的不一致性,AlignDet都是怎么解決的呢?首先對于數據不一致性方面,AlignDet通過Box-domain預訓練直接在目標檢測數據集上進行,而不是僅在分類數據集上預訓練。這使得預訓練過程可以適應目標檢測的數據分布, bridge the gap between pre-training and fine-tuning datasets。至于模型不一致性方面,AlignDet可以預訓練檢測器中的所有模塊,而不僅僅是骨干網絡。這確保了檢測頭等關鍵模塊可以得到良好的初始化,有利于遷移到下游任務。從任務不一致性的方面來看,AlignDet構建了檢測導向的預訓練任務,既包含分類也包含回歸。這使得預訓練不僅學習語義信息,還學習物體的坐標信息,更貼近目標檢測的實際任務。進一步來說,AlignDet通過Image-domain和Box-domain解耦設計,可以充分利用現(xiàn)有預訓練的骨干網絡,提升預訓練效率。同時,它也是第一個支持各種檢測器完全自監(jiān)督預訓練的框架。

          從實驗結果來看,AlignDet可以顯著提升各種檢測器在不同訓練策略和數據量下的性能。例如,在COCO上使用12個epoch預訓練,F(xiàn)COS精度提升5.3 mAP,Mask R-CNN提升3.3 mAP。這充分驗證了AlignDet可以有效解決目標檢測預訓練與微調中的差異,并取得顯著的性能改進。

          2. 方法

          這篇論文提出了AlignDet框架,以解決目標檢測中預訓練和微調過程中的數據、模型和任務的不一致性問題。該框架包含Image-domain預訓練提取語義特征和Box-domain預訓練學習實例級語義的兩個階段。Box-domain預訓練利用選擇性搜索生成偽標簽,并通過對比學習和坐標回歸任務進行檢測導向的預訓練。

          2.1   Image-domain Pre-training

          在AlignDet框架中,Image-domain預訓練主要針對骨干網絡,以提取語義特征。該過程可以使用監(jiān)督或自監(jiān)督方式進行。

          以自監(jiān)督預訓練為例,給定輸入圖像x,可以通過數據增強構建兩個視圖x1和x2。然后骨干網絡backbone可以學習到視角不變的表示:



          具體而言,可以使用對比學習方法SimSiam,它通過預測器predictor和停 gradient阻斷梯度反向傳播,最大化不同視圖表示的相似性,獲得泛化能力更強的特征:



          這里的predictor通常是一個小的MLP,stopgrad表示停止梯度回傳。

          通過在大規(guī)模圖像分類數據集上預訓練,骨干網絡可以學到語義特征,為后續(xù)的Box-domain預訓練提供輸入。這種監(jiān)督或自監(jiān)督的Image-domain預訓練可以有效提取視角不變的特征表示,是AlignDet框架的第一步。

          2.2 Box-domain Pre-training

          AlignDet框架中的Box-domain預訓練主要針對檢測器中除骨干網絡之外的模塊,以學習實例級語義和任務感知的先驗知識。Box-domain預訓練包含以下幾個關鍵步驟:

          1. Box-domain Pre-training:Box-domain Pre-training的目的是生成用于后續(xù)預訓練的偽標簽。它使用選擇性搜索算法從圖像中生成多個區(qū)域proposal,作為預訓練時的偽真值框標簽。這可以提供多對象和不同位置、尺度的樣本,使預訓練數據更貼近目標檢測場景。實現(xiàn)方式是:對輸入圖像執(zhí)行選擇性搜索,獲得proposal集P。同時構建圖像的兩增強視圖,proposal集也做相應變換,獲得P1和P2。檢測器的回歸模塊預測兩視圖的框坐標B1和B2。

            給定輸入圖像x,使用選擇性搜索生成區(qū)域proposal集P = {p1, p2, ..., pn}作為偽標簽。對x進行數據增強構建兩視圖x1和x2,proposal集也同時進行變換生成P1和P2。檢測器的回歸相關模塊freg預測兩視圖的框坐標:


            這里φ表示目標分配操作,如計算IoU匹配。每視圖的預測框坐標為b = (x, y, w, h, l)。

          2. Box-domain Contrastive Learning:目的是學習實例級的語義特征表示。它利用預測的框坐標,最大化同一proposal在兩視圖中特征的相似度,實現(xiàn)對比學習。實現(xiàn)方式是:基于預測框B1和B2,提取兩視圖的特征表示Z1和Z2。定義正負樣本,通過InfoNCE對比損失拉近正樣本距離,推遠負樣本距離。

            基于預測的框坐標,可以提取特征向量用于對比學習:


            這里 表示特征提取模塊, 是投影頭。通過最大化同一proposal在兩視圖中的特征相似度,進行對比學習:


            其中 是查詢框的特征, 是正樣本特征集, 是負樣本特征集, 是溫度參數。

          3. Overall Loss:Box-domain預訓練的總損失為對比損失和坐標回歸損失之和:

            這里 表示不同檢測器的坐標回歸損失。

          3. 實驗

          從Table 2的實驗結果可以看出,AlignDet與只進行Image-domain預訓練的方法相比,在不同的檢測器、訓練策略和數據量設置下都獲得了顯著的性能提升。在數據量方面,隨著訓練數據的減少,AlignDet的提升越明顯。例如在只有1%數據的情況下,AlignDet分別為FCOS、RetinaNet、Faster R-CNN和Mask R-CNN帶來了1.4、1.8、2.5和3.6 mAP的提升。這說明AlignDet學到的知識可以緩解數據不足的問題。

          在訓練策略方面,在訓練輪數較少(12k iters)的情況下,AlignDet同樣帶來顯著提升,例如Mask R-CNN在12k iters下提升3.2 mAP。這證明AlignDet加速了模型收斂速度。

          在檢測器方面,AlignDet對一階段模型FCOS和RetinaNet、兩階段模型Faster R-CNN、query基礎模型DETR都取得明顯的效果提升。這展示了AlignDet的普適性。即使在充足數據(100% COCO)和充分訓練迭代(90k iters)下,AlignDet仍可帶來約1.0 mAP的提升。這進一步證明了AlignDet的有效性。與其他方法相比,AlignDet對各類檢測器都獲得顯著且一致的效果改進,尤其是在低數據量或訓練迭代較少的困難設置下,而其他方法的提升則相對較小且局限。這充分證明AlignDet可以有效地解決預訓練和微調過程中的差異,為各類檢測方法提供強有力的預訓練方案。

          從Table 4的遷移學習結果可以看出,AlignDet在COCO數據集上進行預訓練后,可以有效地遷移至Pascal VOC數據集并提升下游檢測性能。具體來看:AlignDet在所有檢測器上都獲得了顯著的AP提升,特別是高閾值metric AP75的提升非常明顯。例如Faster R-CNN的AP75提升了6.5。對于RetinaNet和FCOS等一階段檢測器而言,AlignDet預訓練主要增強了分類能力,即AP50指標獲得明顯提升。這與一階段檢測器更依賴分類的特點一致。對于兩階段檢測器Faster R-CNN,AlignDet預訓練主要提升了回歸準確度,即AP75指標明顯增強。這與兩階段檢測器同時優(yōu)化分類和回歸的流程吻合。而DETR這樣的query基礎檢測器,AlignDet在分類和回歸兩個指標上都取得顯著提升。

          也就是說,AlignDet學到的知識能有效遷移到下游檢測任務和數據集上,提升不同檢測器的分類和回歸能力。這進一步證明了AlignDet學習到的語義和坐標信息對目標檢測任務具有普適的優(yōu)化作用。這表明AlignDet不僅適用于COCO等多對象檢測,也適用于VOC等較簡單的少類檢測。

          4. 討論

          這篇論文的一大優(yōu)點在于作者針對目標檢測預訓練與微調之間的數據、模型和任務不一致性難題,提出了一套統(tǒng)一且全面的AlignDet框架進行檢測導向的預訓練。該框架通過分別解決數據、模型和任務上的差異,成功地在有效性、效率和遷移能力上取得明顯改進和突破。此外,該方法的普適性也很強,可以廣泛應用于各類檢測器和骨干網絡。這可以說是一個具有重要意義的里程碑性工作。

          但是,這篇論文也存在一些可以改進的地方。比如Box-domain預訓練目前需要依賴選擇性搜索生成偽標簽,這可能會帶來一定局限性,我們可以探索端到端的無監(jiān)督框檢測方法來獲得proposal。此外,當前方法主要在COCO數據集驗證,可以考慮在更多檢測數據集和場景下進行評估。

          展望未來,這項工作為目標檢測的預訓練研究打開了新的大門。我們可以基于該框架,繼續(xù)探索無監(jiān)督、弱監(jiān)督proposal生成和Box-domain預訓練技術,以進一步降低人工標注和計算成本。另一方面,如何將該框架擴展到其他密集預測任務也是一個有趣的方向??傊?,這項工作為更好地解決預訓練與下游任務的不一致提供了重要啟發(fā),是目標檢測和計算機視覺領域一個高質量的工作。

          從表1可以看出,AlignDet與其他目標檢測預訓練方法的主要區(qū)別在于:

          1. 數據方面,AlignDet不僅適用于單對象的數據集,也能夠在多對象的數據集上進行預訓練,更貼近下游任務。

          2. 模型方面,AlignDet可以預訓練檢測模型中的所有模塊,而不僅是骨干網絡,確保各模塊初始化良好。

          3. 任務方面,AlignDet同時引入了分類和回歸兩種預訓練任務,學習語義和坐標信息,更符合目標檢測的需求。

          4. 效果方面,AlignDet對各類檢測器都能取得顯著提升,展示了更強的普適性。

          5. 效率方面,AlignDet只需要12個epoch在COCO上預訓練即可取得穩(wěn)定收益,訓練時間上也更為高效。

          6. 創(chuàng)新方面,AlignDet支持各類檢測器的完全自監(jiān)督預訓練,是第一個實現(xiàn)這一目標的方法。

          綜上所述,AlignDet相比其他方法更充分地解決了預訓練和微調過程中的數據、模型和任務差異,使檢測器獲得了顯著和一致的性能改進。這說明了AlignDet的有效性、普適性以及創(chuàng)新性。

          5. 結論

          總結而言,這篇題為“AlignDet: Aligning Pre-training and Fine-tuning for Object Detection”的論文研究了目標檢測中預訓練和微調過程中的數據、模型和任務不一致性問題。論文指出現(xiàn)有預訓練范式存在上述三方面差異,導致檢測性能受限、泛化能力差且收斂速度慢。為解決這一問題,論文提出了AlignDet框架,可以適配各種檢測器以彌合預訓練和微調的差異。該框架分為Image-domain預訓練提取語義特征和Box-domain預訓練學習實例級語義與任務感知先驗。實驗結果展示,AlignDet可以顯著提升各類檢測器在不同數據量、訓練策略及遷移學習下的性能。例如在COCO上12輪預訓練,F(xiàn)COS精度提升5.3 mAP,Mask R-CNN提升3.3 mAP??梢哉fAlignDet是第一個支持各類檢測器完全自監(jiān)督預訓練的框架,對推進目標檢測預訓練研究具有重要意義。總之,本論文不僅指出了目標檢測中存在的預訓練與微調不一致性問題,也設計了AlignDet框架進行有效的檢測導向預訓練,為該領域的研究做出了重要貢獻。

          TensorRT部署系列 | 如何將模型從 PyTorch 轉換為 TensorRT 并加速推理?


          大眾 7 億美元入股小鵬,合作 2 款純電車;Meta Q2 營收超過預期,達到 320 億美元


          廣汽豐田被曝裁員千人,賠償N+3;微信手機號可一鍵登QQ;HarmonyOS 4定檔8月;RISC-V成Debian官方支持架構


          掃碼加入??「集智書童」交流群

          (備注:方向+學校/公司+昵稱

          想要了解更多:

          前沿AI視覺感知全棧知識??「分類、檢測、分割、關鍵點、車道線檢測、3D視覺(分割、檢測)、多模態(tài)、目標跟蹤、NerF

          行業(yè)技術方案??AI安防、AI醫(yī)療、AI自動駕駛
          AI模型部署落地實戰(zhàn)??CUDA、TensorRT、NCNN、OpenVINO、MNN、ONNXRuntime以及地平線框架」

          歡迎掃描上方二維碼,加入集智書童-知識星球,日常分享論文、學習筆記、問題解決方案、部署方案以及全棧式答疑,期待交流!

          免責聲明
          凡本公眾號注明“來源:XXX(非集智書童)”的作品,均轉載自其它媒體,版權歸原作者所有,如有侵權請聯(lián)系我們刪除,謝謝。

          點擊下方“閱讀原文”,
          了解更多AI學習路上的「武功秘籍」

          瀏覽 614
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  久久国产乱子伦精品一区二区 | 日韩无码,123。 | 婷婷色五月在线 | 爽到高潮免费视频 | 影音先锋男人资源网站 |