豆花视频免费观看无码,www.黄网,水多多成人网站A片在线观看,国产无码内射,任你躁精品视频一区二区三区 ,69香蕉视频,天天天天爽爽天干天,日韩A片在线免费观看

點擊下方卡片，關注「集智書童」公眾號

點擊加入??「集智書童」交流群

作者丨Garfield來源丨極市平臺編輯丨小書童

論文鏈接：https://arxiv.org/abs/2307.11077

項目地址：https://github.com/liming-ai/AlignDet

1. 引言

這篇論文主要研究目標檢測領域的自監(jiān)督預訓練方法。作者首先指出，當前主流的預訓練-微調框架在預訓練和微調階段存在數據、模型和任務上的不一致。具體來說

數據不一致預訓練通常在分類數據集上進行，如ImageNet，而微調數據集像COCO包含多個目標物體。數據特征和域的差異會導致預訓練偏離下游任務。
模型不一致當前預訓練方法主要聚焦在模型的部分模塊，如骨干網絡，而檢測器的其他關鍵模塊如RPN和回歸頭沒有進行預訓練。
任務不一致現(xiàn)有預訓練只將分類作為預訓練任務，沒有學習到目標相關的位置上下文信息，如proposal生成、目標分配和框回歸。

這些不一致性可能導致目標檢測性能的局限、泛化能力差和收斂速度慢的問題。為此，作者提出AlignDet框架，可以調適到不同檢測器中，以彌合預訓練和微調中的差異。

AlignDet將預訓練過程解耦為Image-domain預訓練和Box-domain預訓練兩個階段。Image-domain預訓練優(yōu)化檢測網絡的骨干提取高層語義特征，Box-domain預訓練則學習實例級語義和任務感知的概念，來初始化骨干以外的模塊。具體來說

在Image-domain預訓練中，可以用分類器對骨干網絡進行監(jiān)督預訓練，也可以用最近出現(xiàn)的自監(jiān)督方法進行無監(jiān)督預訓練。
在Box-domain預訓練中，使用選擇性搜索生成偽標簽，構建兩視圖進行對比學習和坐標回歸損失計算，以適應檢測導向的任務。同時固定骨干網絡避免過擬合噪聲標簽。

那么對于數據、模型和任務存在的不一致性，AlignDet都是怎么解決的呢？首先對于數據不一致性方面，AlignDet通過Box-domain預訓練直接在目標檢測數據集上進行，而不是僅在分類數據集上預訓練。這使得預訓練過程可以適應目標檢測的數據分布， bridge the gap between pre-training and fine-tuning datasets。至于模型不一致性方面，AlignDet可以預訓練檢測器中的所有模塊，而不僅僅是骨干網絡。這確保了檢測頭等關鍵模塊可以得到良好的初始化，有利于遷移到下游任務。從任務不一致性的方面來看，AlignDet構建了檢測導向的預訓練任務，既包含分類也包含回歸。這使得預訓練不僅學習語義信息，還學習物體的坐標信息，更貼近目標檢測的實際任務。進一步來說，AlignDet通過Image-domain和Box-domain解耦設計，可以充分利用現(xiàn)有預訓練的骨干網絡，提升預訓練效率。同時，它也是第一個支持各種檢測器完全自監(jiān)督預訓練的框架。

從實驗結果來看，AlignDet可以顯著提升各種檢測器在不同訓練策略和數據量下的性能。例如，在COCO上使用12個epoch預訓練，F(xiàn)COS精度提升5.3 mAP，Mask R-CNN提升3.3 mAP。這充分驗證了AlignDet可以有效解決目標檢測預訓練與微調中的差異，并取得顯著的性能改進。

2. 方法

這篇論文提出了AlignDet框架，以解決目標檢測中預訓練和微調過程中的數據、模型和任務的不一致性問題。該框架包含Image-domain預訓練提取語義特征和Box-domain預訓練學習實例級語義的兩個階段。Box-domain預訓練利用選擇性搜索生成偽標簽，并通過對比學習和坐標回歸任務進行檢測導向的預訓練。

2.1 Image-domain Pre-training

在AlignDet框架中，Image-domain預訓練主要針對骨干網絡，以提取語義特征。該過程可以使用監(jiān)督或自監(jiān)督方式進行。

以自監(jiān)督預訓練為例，給定輸入圖像x，可以通過數據增強構建兩個視圖x1和x2。然后骨干網絡backbone可以學習到視角不變的表示:

具體而言，可以使用對比學習方法SimSiam，它通過預測器predictor和停 gradient阻斷梯度反向傳播，最大化不同視圖表示的相似性，獲得泛化能力更強的特征:

這里的predictor通常是一個小的MLP，stopgrad表示停止梯度回傳。

通過在大規(guī)模圖像分類數據集上預訓練，骨干網絡可以學到語義特征，為后續(xù)的Box-domain預訓練提供輸入。這種監(jiān)督或自監(jiān)督的Image-domain預訓練可以有效提取視角不變的特征表示，是AlignDet框架的第一步。

2.2 Box-domain Pre-training

AlignDet框架中的Box-domain預訓練主要針對檢測器中除骨干網絡之外的模塊，以學習實例級語義和任務感知的先驗知識。Box-domain預訓練包含以下幾個關鍵步驟:

Box-domain Pre-training：Box-domain Pre-training的目的是生成用于后續(xù)預訓練的偽標簽。它使用選擇性搜索算法從圖像中生成多個區(qū)域proposal，作為預訓練時的偽真值框標簽。這可以提供多對象和不同位置、尺度的樣本，使預訓練數據更貼近目標檢測場景。實現(xiàn)方式是:對輸入圖像執(zhí)行選擇性搜索，獲得proposal集P。同時構建圖像的兩增強視圖，proposal集也做相應變換，獲得P1和P2。檢測器的回歸模塊預測兩視圖的框坐標B1和B2。

給定輸入圖像x，使用選擇性搜索生成區(qū)域proposal集P = {p1， p2， ...， pn}作為偽標簽。對x進行數據增強構建兩視圖x1和x2，proposal集也同時進行變換生成P1和P2。檢測器的回歸相關模塊freg預測兩視圖的框坐標:

這里φ表示目標分配操作，如計算IoU匹配。每視圖的預測框坐標為b = (x， y， w， h， l)。
Box-domain Contrastive Learning：目的是學習實例級的語義特征表示。它利用預測的框坐標，最大化同一proposal在兩視圖中特征的相似度，實現(xiàn)對比學習。實現(xiàn)方式是:基于預測框B1和B2，提取兩視圖的特征表示Z1和Z2。定義正負樣本，通過InfoNCE對比損失拉近正樣本距離，推遠負樣本距離。

基于預測的框坐標，可以提取特征向量用于對比學習:

這里表示特征提取模塊，是投影頭。通過最大化同一proposal在兩視圖中的特征相似度，進行對比學習:

其中是查詢框的特征，是正樣本特征集，是負樣本特征集，是溫度參數。
Overall Loss：Box-domain預訓練的總損失為對比損失和坐標回歸損失之和:

這里表示不同檢測器的坐標回歸損失。

3. 實驗

從Table 2的實驗結果可以看出，AlignDet與只進行Image-domain預訓練的方法相比，在不同的檢測器、訓練策略和數據量設置下都獲得了顯著的性能提升。在數據量方面，隨著訓練數據的減少，AlignDet的提升越明顯。例如在只有1%數據的情況下，AlignDet分別為FCOS、RetinaNet、Faster R-CNN和Mask R-CNN帶來了1.4、1.8、2.5和3.6 mAP的提升。這說明AlignDet學到的知識可以緩解數據不足的問題。

在訓練策略方面，在訓練輪數較少(12k iters)的情況下，AlignDet同樣帶來顯著提升，例如Mask R-CNN在12k iters下提升3.2 mAP。這證明AlignDet加速了模型收斂速度。

在檢測器方面，AlignDet對一階段模型FCOS和RetinaNet、兩階段模型Faster R-CNN、query基礎模型DETR都取得明顯的效果提升。這展示了AlignDet的普適性。即使在充足數據(100% COCO)和充分訓練迭代(90k iters)下，AlignDet仍可帶來約1.0 mAP的提升。這進一步證明了AlignDet的有效性。與其他方法相比，AlignDet對各類檢測器都獲得顯著且一致的效果改進，尤其是在低數據量或訓練迭代較少的困難設置下，而其他方法的提升則相對較小且局限。這充分證明AlignDet可以有效地解決預訓練和微調過程中的差異，為各類檢測方法提供強有力的預訓練方案。

從Table 4的遷移學習結果可以看出，AlignDet在COCO數據集上進行預訓練后，可以有效地遷移至Pascal VOC數據集并提升下游檢測性能。具體來看:AlignDet在所有檢測器上都獲得了顯著的AP提升，特別是高閾值metric AP75的提升非常明顯。例如Faster R-CNN的AP75提升了6.5。對于RetinaNet和FCOS等一階段檢測器而言，AlignDet預訓練主要增強了分類能力，即AP50指標獲得明顯提升。這與一階段檢測器更依賴分類的特點一致。對于兩階段檢測器Faster R-CNN，AlignDet預訓練主要提升了回歸準確度，即AP75指標明顯增強。這與兩階段檢測器同時優(yōu)化分類和回歸的流程吻合。而DETR這樣的query基礎檢測器，AlignDet在分類和回歸兩個指標上都取得顯著提升。

也就是說，AlignDet學到的知識能有效遷移到下游檢測任務和數據集上，提升不同檢測器的分類和回歸能力。這進一步證明了AlignDet學習到的語義和坐標信息對目標檢測任務具有普適的優(yōu)化作用。這表明AlignDet不僅適用于COCO等多對象檢測，也適用于VOC等較簡單的少類檢測。

4. 討論

這篇論文的一大優(yōu)點在于作者針對目標檢測預訓練與微調之間的數據、模型和任務不一致性難題，提出了一套統(tǒng)一且全面的AlignDet框架進行檢測導向的預訓練。該框架通過分別解決數據、模型和任務上的差異，成功地在有效性、效率和遷移能力上取得明顯改進和突破。此外，該方法的普適性也很強，可以廣泛應用于各類檢測器和骨干網絡。這可以說是一個具有重要意義的里程碑性工作。

但是，這篇論文也存在一些可以改進的地方。比如Box-domain預訓練目前需要依賴選擇性搜索生成偽標簽，這可能會帶來一定局限性，我們可以探索端到端的無監(jiān)督框檢測方法來獲得proposal。此外，當前方法主要在COCO數據集驗證，可以考慮在更多檢測數據集和場景下進行評估。

展望未來，這項工作為目標檢測的預訓練研究打開了新的大門。我們可以基于該框架，繼續(xù)探索無監(jiān)督、弱監(jiān)督proposal生成和Box-domain預訓練技術，以進一步降低人工標注和計算成本。另一方面，如何將該框架擴展到其他密集預測任務也是一個有趣的方向?？傊?，這項工作為更好地解決預訓練與下游任務的不一致提供了重要啟發(fā)，是目標檢測和計算機視覺領域一個高質量的工作。

從表1可以看出,AlignDet與其他目標檢測預訓練方法的主要區(qū)別在于:

數據方面,AlignDet不僅適用于單對象的數據集,也能夠在多對象的數據集上進行預訓練,更貼近下游任務。
模型方面,AlignDet可以預訓練檢測模型中的所有模塊,而不僅是骨干網絡,確保各模塊初始化良好。
任務方面,AlignDet同時引入了分類和回歸兩種預訓練任務,學習語義和坐標信息,更符合目標檢測的需求。
效果方面,AlignDet對各類檢測器都能取得顯著提升,展示了更強的普適性。
效率方面,AlignDet只需要12個epoch在COCO上預訓練即可取得穩(wěn)定收益,訓練時間上也更為高效。
創(chuàng)新方面,AlignDet支持各類檢測器的完全自監(jiān)督預訓練,是第一個實現(xiàn)這一目標的方法。

綜上所述,AlignDet相比其他方法更充分地解決了預訓練和微調過程中的數據、模型和任務差異,使檢測器獲得了顯著和一致的性能改進。這說明了AlignDet的有效性、普適性以及創(chuàng)新性。

5. 結論

總結而言，這篇題為“AlignDet: Aligning Pre-training and Fine-tuning for Object Detection”的論文研究了目標檢測中預訓練和微調過程中的數據、模型和任務不一致性問題。論文指出現(xiàn)有預訓練范式存在上述三方面差異，導致檢測性能受限、泛化能力差且收斂速度慢。為解決這一問題，論文提出了AlignDet框架，可以適配各種檢測器以彌合預訓練和微調的差異。該框架分為Image-domain預訓練提取語義特征和Box-domain預訓練學習實例級語義與任務感知先驗。實驗結果展示，AlignDet可以顯著提升各類檢測器在不同數據量、訓練策略及遷移學習下的性能。例如在COCO上12輪預訓練，F(xiàn)COS精度提升5.3 mAP，Mask R-CNN提升3.3 mAP?？梢哉fAlignDet是第一個支持各類檢測器完全自監(jiān)督預訓練的框架，對推進目標檢測預訓練研究具有重要意義。總之，本論文不僅指出了目標檢測中存在的預訓練與微調不一致性問題，也設計了AlignDet框架進行有效的檢測導向預訓練，為該領域的研究做出了重要貢獻。