ICCV2023|目標檢測新突破!AlignDet:支持各類檢測器完全自監(jiān)督預訓練的框架
點擊下方卡片,關注「集智書童」公眾號
作者丨Garfield來源丨極市平臺編輯丨小書童
論文鏈接:https://arxiv.org/abs/2307.11077
項目地址:https://github.com/liming-ai/AlignDet
1. 引言
這篇論文主要研究目標檢測領域的自監(jiān)督預訓練方法。作者首先指出,當前主流的預訓練-微調框架在預訓練和微調階段存在數據、模型和任務上的不一致。具體來說
-
數據不一致預訓練通常在分類數據集上進行,如ImageNet,而微調數據集像COCO包含多個目標物體。數據特征和域的差異會導致預訓練偏離下游任務。
-
模型不一致當前預訓練方法主要聚焦在模型的部分模塊,如骨干網絡,而檢測器的其他關鍵模塊如RPN和回歸頭沒有進行預訓練。
-
任務不一致現(xiàn)有預訓練只將分類作為預訓練任務,沒有學習到目標相關的位置上下文信息,如proposal生成、目標分配和框回歸。
這些不一致性可能導致目標檢測性能的局限、泛化能力差和收斂速度慢的問題。為此,作者提出AlignDet框架,可以調適到不同檢測器中,以彌合預訓練和微調中的差異。
AlignDet將預訓練過程解耦為Image-domain預訓練和Box-domain預訓練兩個階段。Image-domain預訓練優(yōu)化檢測網絡的骨干提取高層語義特征,Box-domain預訓練則學習實例級語義和任務感知的概念,來初始化骨干以外的模塊。具體來說
-
在Image-domain預訓練中,可以用分類器對骨干網絡進行監(jiān)督預訓練,也可以用最近出現(xiàn)的自監(jiān)督方法進行無監(jiān)督預訓練。
-
在Box-domain預訓練中,使用選擇性搜索生成偽標簽,構建兩視圖進行對比學習和坐標回歸損失計算,以適應檢測導向的任務。同時固定骨干網絡避免過擬合噪聲標簽。
那么對于數據、模型和任務存在的不一致性,AlignDet都是怎么解決的呢?首先對于數據不一致性方面,AlignDet通過Box-domain預訓練直接在目標檢測數據集上進行,而不是僅在分類數據集上預訓練。這使得預訓練過程可以適應目標檢測的數據分布, bridge the gap between pre-training and fine-tuning datasets。至于模型不一致性方面,AlignDet可以預訓練檢測器中的所有模塊,而不僅僅是骨干網絡。這確保了檢測頭等關鍵模塊可以得到良好的初始化,有利于遷移到下游任務。從任務不一致性的方面來看,AlignDet構建了檢測導向的預訓練任務,既包含分類也包含回歸。這使得預訓練不僅學習語義信息,還學習物體的坐標信息,更貼近目標檢測的實際任務。進一步來說,AlignDet通過Image-domain和Box-domain解耦設計,可以充分利用現(xiàn)有預訓練的骨干網絡,提升預訓練效率。同時,它也是第一個支持各種檢測器完全自監(jiān)督預訓練的框架。
從實驗結果來看,AlignDet可以顯著提升各種檢測器在不同訓練策略和數據量下的性能。例如,在COCO上使用12個epoch預訓練,F(xiàn)COS精度提升5.3 mAP,Mask R-CNN提升3.3 mAP。這充分驗證了AlignDet可以有效解決目標檢測預訓練與微調中的差異,并取得顯著的性能改進。
2. 方法
這篇論文提出了AlignDet框架,以解決目標檢測中預訓練和微調過程中的數據、模型和任務的不一致性問題。該框架包含Image-domain預訓練提取語義特征和Box-domain預訓練學習實例級語義的兩個階段。Box-domain預訓練利用選擇性搜索生成偽標簽,并通過對比學習和坐標回歸任務進行檢測導向的預訓練。
2.1 Image-domain Pre-training
在AlignDet框架中,Image-domain預訓練主要針對骨干網絡,以提取語義特征。該過程可以使用監(jiān)督或自監(jiān)督方式進行。
以自監(jiān)督預訓練為例,給定輸入圖像x,可以通過數據增強構建兩個視圖x1和x2。然后骨干網絡backbone可以學習到視角不變的表示:
具體而言,可以使用對比學習方法SimSiam,它通過預測器predictor和停 gradient阻斷梯度反向傳播,最大化不同視圖表示的相似性,獲得泛化能力更強的特征:
這里的predictor通常是一個小的MLP,stopgrad表示停止梯度回傳。
通過在大規(guī)模圖像分類數據集上預訓練,骨干網絡可以學到語義特征,為后續(xù)的Box-domain預訓練提供輸入。這種監(jiān)督或自監(jiān)督的Image-domain預訓練可以有效提取視角不變的特征表示,是AlignDet框架的第一步。
2.2 Box-domain Pre-training
AlignDet框架中的Box-domain預訓練主要針對檢測器中除骨干網絡之外的模塊,以學習實例級語義和任務感知的先驗知識。Box-domain預訓練包含以下幾個關鍵步驟:
-
Box-domain Pre-training:Box-domain Pre-training的目的是生成用于后續(xù)預訓練的偽標簽。它使用選擇性搜索算法從圖像中生成多個區(qū)域proposal,作為預訓練時的偽真值框標簽。這可以提供多對象和不同位置、尺度的樣本,使預訓練數據更貼近目標檢測場景。實現(xiàn)方式是:對輸入圖像執(zhí)行選擇性搜索,獲得proposal集P。同時構建圖像的兩增強視圖,proposal集也做相應變換,獲得P1和P2。檢測器的回歸模塊預測兩視圖的框坐標B1和B2。
給定輸入圖像x,使用選擇性搜索生成區(qū)域proposal集P = {p1, p2, ..., pn}作為偽標簽。對x進行數據增強構建兩視圖x1和x2,proposal集也同時進行變換生成P1和P2。檢測器的回歸相關模塊freg預測兩視圖的框坐標:
這里φ表示目標分配操作,如計算IoU匹配。每視圖的預測框坐標為b = (x, y, w, h, l)。
-
Box-domain Contrastive Learning:目的是學習實例級的語義特征表示。它利用預測的框坐標,最大化同一proposal在兩視圖中特征的相似度,實現(xiàn)對比學習。實現(xiàn)方式是:基于預測框B1和B2,提取兩視圖的特征表示Z1和Z2。定義正負樣本,通過InfoNCE對比損失拉近正樣本距離,推遠負樣本距離。
基于預測的框坐標,可以提取特征向量用于對比學習:
這里 表示特征提取模塊, 是投影頭。通過最大化同一proposal在兩視圖中的特征相似度,進行對比學習:
其中 是查詢框的特征, 是正樣本特征集, 是負樣本特征集, 是溫度參數。
-
Overall Loss:Box-domain預訓練的總損失為對比損失和坐標回歸損失之和:
這里 表示不同檢測器的坐標回歸損失。
3. 實驗
從Table 2的實驗結果可以看出,AlignDet與只進行Image-domain預訓練的方法相比,在不同的檢測器、訓練策略和數據量設置下都獲得了顯著的性能提升。在數據量方面,隨著訓練數據的減少,AlignDet的提升越明顯。例如在只有1%數據的情況下,AlignDet分別為FCOS、RetinaNet、Faster R-CNN和Mask R-CNN帶來了1.4、1.8、2.5和3.6 mAP的提升。這說明AlignDet學到的知識可以緩解數據不足的問題。
在訓練策略方面,在訓練輪數較少(12k iters)的情況下,AlignDet同樣帶來顯著提升,例如Mask R-CNN在12k iters下提升3.2 mAP。這證明AlignDet加速了模型收斂速度。
在檢測器方面,AlignDet對一階段模型FCOS和RetinaNet、兩階段模型Faster R-CNN、query基礎模型DETR都取得明顯的效果提升。這展示了AlignDet的普適性。即使在充足數據(100% COCO)和充分訓練迭代(90k iters)下,AlignDet仍可帶來約1.0 mAP的提升。這進一步證明了AlignDet的有效性。與其他方法相比,AlignDet對各類檢測器都獲得顯著且一致的效果改進,尤其是在低數據量或訓練迭代較少的困難設置下,而其他方法的提升則相對較小且局限。這充分證明AlignDet可以有效地解決預訓練和微調過程中的差異,為各類檢測方法提供強有力的預訓練方案。
從Table 4的遷移學習結果可以看出,AlignDet在COCO數據集上進行預訓練后,可以有效地遷移至Pascal VOC數據集并提升下游檢測性能。具體來看:AlignDet在所有檢測器上都獲得了顯著的AP提升,特別是高閾值metric AP75的提升非常明顯。例如Faster R-CNN的AP75提升了6.5。對于RetinaNet和FCOS等一階段檢測器而言,AlignDet預訓練主要增強了分類能力,即AP50指標獲得明顯提升。這與一階段檢測器更依賴分類的特點一致。對于兩階段檢測器Faster R-CNN,AlignDet預訓練主要提升了回歸準確度,即AP75指標明顯增強。這與兩階段檢測器同時優(yōu)化分類和回歸的流程吻合。而DETR這樣的query基礎檢測器,AlignDet在分類和回歸兩個指標上都取得顯著提升。
也就是說,AlignDet學到的知識能有效遷移到下游檢測任務和數據集上,提升不同檢測器的分類和回歸能力。這進一步證明了AlignDet學習到的語義和坐標信息對目標檢測任務具有普適的優(yōu)化作用。這表明AlignDet不僅適用于COCO等多對象檢測,也適用于VOC等較簡單的少類檢測。
4. 討論
這篇論文的一大優(yōu)點在于作者針對目標檢測預訓練與微調之間的數據、模型和任務不一致性難題,提出了一套統(tǒng)一且全面的AlignDet框架進行檢測導向的預訓練。該框架通過分別解決數據、模型和任務上的差異,成功地在有效性、效率和遷移能力上取得明顯改進和突破。此外,該方法的普適性也很強,可以廣泛應用于各類檢測器和骨干網絡。這可以說是一個具有重要意義的里程碑性工作。
但是,這篇論文也存在一些可以改進的地方。比如Box-domain預訓練目前需要依賴選擇性搜索生成偽標簽,這可能會帶來一定局限性,我們可以探索端到端的無監(jiān)督框檢測方法來獲得proposal。此外,當前方法主要在COCO數據集驗證,可以考慮在更多檢測數據集和場景下進行評估。
展望未來,這項工作為目標檢測的預訓練研究打開了新的大門。我們可以基于該框架,繼續(xù)探索無監(jiān)督、弱監(jiān)督proposal生成和Box-domain預訓練技術,以進一步降低人工標注和計算成本。另一方面,如何將該框架擴展到其他密集預測任務也是一個有趣的方向??傊?,這項工作為更好地解決預訓練與下游任務的不一致提供了重要啟發(fā),是目標檢測和計算機視覺領域一個高質量的工作。
從表1可以看出,AlignDet與其他目標檢測預訓練方法的主要區(qū)別在于:
-
數據方面,AlignDet不僅適用于單對象的數據集,也能夠在多對象的數據集上進行預訓練,更貼近下游任務。
-
模型方面,AlignDet可以預訓練檢測模型中的所有模塊,而不僅是骨干網絡,確保各模塊初始化良好。
-
任務方面,AlignDet同時引入了分類和回歸兩種預訓練任務,學習語義和坐標信息,更符合目標檢測的需求。
-
效果方面,AlignDet對各類檢測器都能取得顯著提升,展示了更強的普適性。
-
效率方面,AlignDet只需要12個epoch在COCO上預訓練即可取得穩(wěn)定收益,訓練時間上也更為高效。
-
創(chuàng)新方面,AlignDet支持各類檢測器的完全自監(jiān)督預訓練,是第一個實現(xiàn)這一目標的方法。
綜上所述,AlignDet相比其他方法更充分地解決了預訓練和微調過程中的數據、模型和任務差異,使檢測器獲得了顯著和一致的性能改進。這說明了AlignDet的有效性、普適性以及創(chuàng)新性。
5. 結論
總結而言,這篇題為“AlignDet: Aligning Pre-training and Fine-tuning for Object Detection”的論文研究了目標檢測中預訓練和微調過程中的數據、模型和任務不一致性問題。論文指出現(xiàn)有預訓練范式存在上述三方面差異,導致檢測性能受限、泛化能力差且收斂速度慢。為解決這一問題,論文提出了AlignDet框架,可以適配各種檢測器以彌合預訓練和微調的差異。該框架分為Image-domain預訓練提取語義特征和Box-domain預訓練學習實例級語義與任務感知先驗。實驗結果展示,AlignDet可以顯著提升各類檢測器在不同數據量、訓練策略及遷移學習下的性能。例如在COCO上12輪預訓練,F(xiàn)COS精度提升5.3 mAP,Mask R-CNN提升3.3 mAP??梢哉fAlignDet是第一個支持各類檢測器完全自監(jiān)督預訓練的框架,對推進目標檢測預訓練研究具有重要意義。總之,本論文不僅指出了目標檢測中存在的預訓練與微調不一致性問題,也設計了AlignDet框架進行有效的檢測導向預訓練,為該領域的研究做出了重要貢獻。
TensorRT部署系列 | 如何將模型從 PyTorch 轉換為 TensorRT 并加速推理?
大眾 7 億美元入股小鵬,合作 2 款純電車;Meta Q2 營收超過預期,達到 320 億美元
廣汽豐田被曝裁員千人,賠償N+3;微信手機號可一鍵登QQ;HarmonyOS 4定檔8月;RISC-V成Debian官方支持架構
掃碼加入??「集智書童」交流群
(備注:方向+學校/公司+昵稱)
前沿AI視覺感知全棧知識??「分類、檢測、分割、關鍵點、車道線檢測、3D視覺(分割、檢測)、多模態(tài)、目標跟蹤、NerF」
歡迎掃描上方二維碼,加入「集智書童-知識星球」,日常分享論文、學習筆記、問題解決方案、部署方案以及全棧式答疑,期待交流!
