目標(biāo)檢測頂流的碰撞 | YOLOv5+DETR成就地表最強目標(biāo)檢測器DEYO...

目標(biāo)檢測是計算機視覺中的一個重要課題,后處理是典型目標(biāo)檢測流水線的重要組成部分,這對傳統(tǒng)目標(biāo)檢測模型的性能造成了嚴(yán)重的瓶頸。作為首個端到端目標(biāo)檢測模型,DETR摒棄了Anchor和非最大抑制(NMS)等手動組件的要求,大大簡化了目標(biāo)檢測過程。
然而,與大多數(shù)傳統(tǒng)的目標(biāo)檢測模型相比,DETR收斂速度非常慢,query的含義也很模糊。因此,受Step-by-Step概念的啟發(fā),本文提出了一種新的兩階段目標(biāo)檢測模型,名為DETR with YOLO(DEYO),該模型依賴于漸進推理來解決上述問題。DEYO是一個兩階段架構(gòu),分別包括經(jīng)典目標(biāo)檢測模型和類DETR模型作為第一和第二兩階段。
具體而言,第一階段向第二階段提供高質(zhì)量的query和Anchor反饋,與原始DETR模型相比,提高了第二階段的性能和效率。同時,第二兩階段補償由第一兩階段檢測器的限制引起的性能下降。
廣泛的實驗表明,DEYO在12和36個Epoch分別達到50.6 AP和52.1 AP,同時利用ResNet-50作為COCO數(shù)據(jù)集的主干和多尺度特征。與DINO相比,DEYO模型在2個Epoch的設(shè)置中提供了1.6 AP和1.2 AP的顯著性能改進。
1、簡介
目標(biāo)檢測涉及一個過程,其中檢測器識別圖像中的感興趣區(qū)域,并用邊界框和類標(biāo)簽對其進行標(biāo)記。經(jīng)過多年來對經(jīng)典目標(biāo)檢測器的大力發(fā)展,已經(jīng)開發(fā)出了幾種優(yōu)秀的單階段和兩階段目標(biāo)檢測模型。檢測器通常包括兩部分,即用于預(yù)測物體類別和邊界框的主干和頭部。最近的架構(gòu)在主干和頭部之間插入層,以收集不同階段的特征圖。這些層被稱為物體檢測器的頸部。
R-CNN系列是最具代表性的兩階段目標(biāo)檢測器,包括Fast R-CNN和Faster R-CNN。最具代表性的單階段目標(biāo)檢測模型是YOLO[4,5,6]、SSD和RetinaNet。這些經(jīng)典目標(biāo)檢測器的一個共同特點是嚴(yán)重依賴手工設(shè)計的組件,如Anchor和非最大抑制(NMS),NMS是一個去除冗余邊界框的后處理過濾器。近年來,Anchor-Free方法,如CenterNet、CornerNet和FCOS,已經(jīng)取得了與Anchor-Base的模型相當(dāng)?shù)慕Y(jié)果。然而,Anchor-Base和Anchor-Free的兩種方案都利用非最大抑制進行后處理,這給經(jīng)典檢測器帶來了瓶頸。此外,由于非最大抑制不使用圖像信息,因此在邊界框保留和刪除中容易出錯。
經(jīng)典的檢測器主要基于卷積神經(jīng)網(wǎng)絡(luò)。DETR依靠基于Transformer的編碼器-解碼器架構(gòu)來消除對Anchor和NMS手動組件的依賴。此外,DETR使用匈牙利損失直接預(yù)測一對一對象集,簡化了目標(biāo)檢測流程。盡管DETR有許多吸引人的特性,但它存在一些問題。首先,DETR需要500個訓(xùn)練周期才能達到吸引人的表現(xiàn)。此外,DETR的query很模糊,無法充分利用。
應(yīng)該指出的是,已經(jīng)提出了一系列基于DETR的變體模型,很好地解決了上述問題。例如,通過設(shè)計新的注意力模塊,Deformable DETR專注于參考點周圍的采樣點,以提高交叉注意力的效率。Conditional DETR將DETR query分離為content和location部分,以澄清query的含義。此外,DAB-DETR將query視為4D Anchor,并逐層改進。基于DAB-DETR,DN-DETR表明,DETR訓(xùn)練的緩慢收斂是由于早期訓(xùn)練階段的二分圖匹配不穩(wěn)定性。因此,引入去噪組技術(shù)顯著加速了DETR模型的收斂。
在上述模型的推動下,DINO通過使用Object365進行檢測預(yù)訓(xùn)練和使用Swin Transformer作為主干網(wǎng)絡(luò),進一步改進了DETR。事實上,DINO在COCO val2017數(shù)據(jù)集上獲得了63.3AP的最新(SOTA)結(jié)果。目前,DINO在類DETR模型中具有最快的訓(xùn)練收斂速度和最高的精度,并證明類DETR的檢測器實現(xiàn)了與經(jīng)典檢測器同等的性能,甚至優(yōu)于經(jīng)典檢測器。

盡管相關(guān)工作顯著改進了類DETR模型,但作者仍然認為類DETR模型很難直接預(yù)測一對一的對象集。經(jīng)典檢測器,如YOLOv5,可以在640x640像素的圖像中生成25200個預(yù)測作為其輸出。假設(shè)DETR使用的Transformer模型計算與query數(shù)成正比,則類DETR模型的query數(shù)通常在100到900之間。顯然,單個YOLO預(yù)測的計算負擔(dān)比類DETR模型低得多。因此,受“循序漸進”思想的啟發(fā),作者使用低成本和高質(zhì)量的YOLO預(yù)測作為第二階段類DETR模型的輸入,以降低預(yù)測一對一對象集的難度。該策略為類DETR模型提供了有限數(shù)量的query,以專注于具有挑戰(zhàn)性的任務(wù),例如難以識別的目標(biāo)和嚴(yán)重遮擋的目標(biāo),從而提高了整體性能。
本文提出了一種新的基于漸進推理的兩階段目標(biāo)檢測模型。具體而言,本文的模型將YOLOv5用作第一階段,將類似DETR的模型用作第二階段。YOLO模型的輸出由過渡組件處理,包括目標(biāo)和邊界框信息,然后將其傳遞給類DETR模型。YOLO的高質(zhì)量初始化query、anchor和DETR的初始化query以及初始化的anchor被組合,然后被發(fā)送到Transformer的解碼器。
實驗結(jié)果表明,所開發(fā)模型的第二階段解碼器可以容易地識別來自第一階段的信息。事實上,類似DETR的模型更多地關(guān)注于微調(diào)初始邊界框、驗證和調(diào)整類別,以及預(yù)測NMS由于嚴(yán)重遮擋而錯誤濾除的目標(biāo)或第一階段檢測器無法輕易識別的目標(biāo)。此外,由于存在高質(zhì)量的初始化query和anchor,優(yōu)化目標(biāo)在第二階段中為query和anchor都進行了初始化。第二階段的二分圖匹配的不穩(wěn)定性進一步降低,訓(xùn)練時間大大加快。
所提出的兩階段網(wǎng)絡(luò)是相輔相成的,因為模型的第一階段為第二階段提供了高質(zhì)量的初始化,以便后一階段能夠快速地關(guān)注難以學(xué)習(xí)的信息。這一概念加速了類DETR模型的收斂,提高了它們的峰值性能。第二階段模型對第一階段模型進行微調(diào),以獲得更好的結(jié)果。因此,所提出的模型補償了由于NMS限制導(dǎo)致的經(jīng)典檢測器的性能下降,從而使模型能夠識別嚴(yán)重遮擋的目標(biāo)。這是第一個將漸進推理引入類DETR檢測模型的工作。本文的貢獻總結(jié)如下:
-
設(shè)計一個新的兩階段模型,靈感來源于循序漸進的思想。實驗結(jié)果表明,這種漸進推理顯著降低了預(yù)測一對一目標(biāo)集的難度。此外,從一個新的角度來看,類DETR模型的訓(xùn)練收斂時間顯著減少,同時模型的精度提高到一個新水平。
-
克服了經(jīng)典檢測器因NMS而遭受的瓶頸性能問題。此外,在解決了基于NMS的性能瓶頸問題之后,分析了經(jīng)典檢測器的潛在性能。
-
進行幾個實驗,驗證了想法,并探索模型中每個組件的貢獻。
2、相關(guān)工作
2.1、YOLO
多年來,YOLO[4,5,6]系列一直是最好的單階段實時目標(biāo)檢測器類別之一。YOLO可以在許多硬件平臺和應(yīng)用場景中找到,滿足不同的需求。經(jīng)過多年的發(fā)展,YOLO已經(jīng)發(fā)展成為一系列性能良好的快速模型。Anchor-Base的YOLO方法包括YOLOv4、YOLOv 5和YOLOv7,而Anchor-Free方法是YOLOX、YOLOR和YOLOv6。考慮到這些檢測器的性能,Anchor-Free方法的性能與Anchor-Base的方法一樣好,Anchor不再是限制YOLO發(fā)展的主要因素。
然而,所有YOLO變體都會產(chǎn)生許多冗余邊界框,NMS必須在預(yù)測階段過濾掉這些邊界框,這可能導(dǎo)致性能瓶頸。在本文的模型中,這個問題得到了一定程度的改善。
2.2、NMS
NMS是經(jīng)典目標(biāo)檢測管道的重要組成部分,旨在從一組重疊框中選擇最佳邊界框。NMS根據(jù)得分對所有邊界框進行排序。選擇得分最高的邊界框M,并抑制與M重疊超過閾值的所有其他邊界框。近年來,一些工作試圖改進NMS,如Soft-NMS、Softer-NMS和Adaptive-NMS。然而,這些都不能克服NMS的固有問題,即過濾掉冗余邊界框不考慮圖像信息。
NMS的一個主要問題是,它將相鄰檢測的分?jǐn)?shù)設(shè)置為零,如果在該重疊閾值中實際存在一個目標(biāo),則該目標(biāo)將被忽略,這將導(dǎo)致平均精度下降。因此,模型的泛化能力在一定程度上受到限制,影響了模型在復(fù)雜任務(wù)中的性能。
2.3、DETR and its variants
DETR由于其端到端的目標(biāo)檢測特性而引起了研究人員的注意。具體而言,DETR去除了傳統(tǒng)檢測流水線中的Anchor和NMS組件,采用二分圖匹配的標(biāo)簽分配方法,并直接預(yù)測一對一對象集。該策略簡化了目標(biāo)檢測過程,并緩解了NMS引起的性能瓶頸問題。
此外,引入Transformer架構(gòu)使邊界框過濾在圖像和目標(biāo)特征之間具有交互作用,即DETR的目標(biāo)過濾結(jié)合了圖像信息,使DETR能夠正確地保留和刪除框。然而,DETR存在收斂速度慢和query模糊的問題。
為了解決這些問題,已經(jīng)提出了許多DETR變體,如Conditional DETR、Deformable DETR和DAB-DETR,DN-DETR和DINO。例如,Conditional DETR將query分離為content和location部分,而Deformable DETR提高了交叉注意力的效率。DAB-DETR將query解釋為4-D Anchor框,并學(xué)習(xí)逐層改進它們。DN-DETR在DAB-DETR的基礎(chǔ)上,引入了一個去噪組來解決不穩(wěn)定的二分圖匹配問題,顯著加快了模型訓(xùn)練的收斂速度。DINO是一個類似DETR的模型,它進一步改進了以前的工作并實現(xiàn)了SOTA結(jié)果。
2.4、Let’s think step by step
通過使用特定提示“Let’s think step by step”和相應(yīng)的兩階段提示技術(shù),Zero-shot-CoT提高了大規(guī)模語言模型在幾個與推理相關(guān)的Zero-shot任務(wù)上的推理能力,優(yōu)于以前的Zero-shot方法?!癓et’s think step by step”分步方案鼓勵模型對難以直接提供正確答案的復(fù)雜任務(wù)進行分步推理,并使模型能夠計算出結(jié)果;否則無法正確給出的答案。
受Step-by-Step的啟發(fā),本文的模型的第一階段預(yù)測簡單任務(wù)而不是最終推理,類似于語言模型中的“intermediate inference step”。第二階段側(cè)重于第一階段從“intermediate inference step”中給出的困難任務(wù),并降低了難度,允許模型預(yù)測否則將無法正確識別的目標(biāo)。
3、Why is Step-by-Step effective?
3.1、High-quality query initialization speeds up training
DETR采用匈牙利匹配算法直接預(yù)測一對一對象集。然而,有證據(jù)表明,由于blocking pairs,匈牙利匹配會導(dǎo)致匹配不穩(wěn)定。由于代價矩陣的微小變化,最終匹配結(jié)果將發(fā)生顯著變化,從而導(dǎo)致在訓(xùn)練的早期階段解碼器query的優(yōu)化目標(biāo)不一致。這顯著增加了訓(xùn)練難度,這是DETR收斂速度慢的關(guān)鍵原因之一。

因此,將高質(zhì)量的query和anchor輸入到解碼器中。如圖4(b)所示,本文的模型在第一個epoch就實現(xiàn)了40.6 AP,這表明解碼器可以很容易地學(xué)習(xí)在高質(zhì)量query和anchor中獲取信息,幫助模型明確其優(yōu)化目標(biāo),并避免匈牙利匹配導(dǎo)致的歧義。因此,由于不穩(wěn)定的匈牙利匹配而導(dǎo)致的緩慢訓(xùn)練收斂顯著減少。
3.2、Breaking through the performance bottleneck caused by NMS
在預(yù)測階段,經(jīng)典檢測器生成冗余邊界框,這些邊界框必須被NMS抑制和過濾掉。然而,NMS過濾算法不整合圖像信息,而是通過根據(jù)不同的任務(wù)調(diào)整不同的IoU閾值來優(yōu)化過濾,這在保留和刪除框時容易出錯。因此,在不使用NMS的情況下研究了YOLOv5x的潛在性能。在圖2中,顯示了使用具有不同Iou閾值的NMS的25200個預(yù)測的640x640大小圖像的YOLOv5的后處理性能。

結(jié)果表明,隨著IoU閾值的增加,在NMS之后使用預(yù)匹配濾波的預(yù)測性能將逐漸提高。此外,沒有預(yù)匹配濾波的預(yù)測性能將隨著IoU閾值的增加而逐漸降低。這一觀察表明,在一項困難的任務(wù)中,低閾值可能會導(dǎo)致錯誤地移除預(yù)測框,而高閾值可能會生成多余的預(yù)測框并影響最終結(jié)果。這意味著,即使檢測模型的預(yù)測很好,最終結(jié)果仍可能受到NMS的影響,從而造成性能瓶頸。圖2還描述了沒有NMS的YOLOv5x的潛在性能。
4、DEYO
4.1、Overview
本文的模型使用YOLOv5作為第一階段,DINO作為第二階段,提供了一種新的基于漸進推理的兩階段模型。在本文中,第一階段的YOLOv5模型稱為PRE-DEYO,第二階段的DINO模型稱為POST-DEYO。作為經(jīng)典YOLO系列的檢測器,PRE-DEYO包含一個主干、一個包括FPN+PAN的頸部和一個輸出三個尺度預(yù)測信息的頭部。作為一個類似DETR的模型,POST-DEYO包含一個主干、多層Transformer編碼器、多層Transformer解碼器和多個預(yù)測頭。它使用Anchor的靜態(tài)query和動態(tài)初始化,并涉及用于比較去噪訓(xùn)練的Additional CDN分支。

整個DEYO模型如圖3所示。PRE-DEYO的輸出通過轉(zhuǎn)換組件與PRE-DEJO的初始化query和Anchor相結(jié)合,并輸入到Transformer解碼器。POST-DEYO可以在訓(xùn)練期間快速獲取PRE-DEYO的信息,并專注于困難的任務(wù)。
本文給出了兩種標(biāo)簽分配方法,DEYO默認使用POST匹配,PRE匹配僅用于消融研究。PRE匹配類似于POST匹配,PRE-DEYO的輸出直接與GT匹配,以避免二分匹配不穩(wěn)定性對目標(biāo)分配的影響。
4.2、DINO briefing
DINO是一種基于DN-DETR、DAB-DETR和Deformable-DETR的類DETR模型,將解碼器中的query公式化為動態(tài)Anchor,并在解碼器層中逐步細化。在DN-DETR之后,DINO將去噪訓(xùn)練改進為對比去噪訓(xùn)練(CDN),提高了對沒有附近對象的Anchor的“無目標(biāo)”預(yù)測能力,同時在訓(xùn)練期間穩(wěn)定了二分圖匹配。
同時,DINO還使用可變形注意力來提高其計算效率。動態(tài)Anchor Box的逐層細化有助于POST-DEYO在推理中微調(diào)PRE-DEYO的高質(zhì)量Anchor Box??勺冃巫⒁饬εc高質(zhì)量Anchor Box相結(jié)合,使POST-DEYO能夠快速找到圖像中的關(guān)鍵信息,進一步加快邊界框過濾、驗證和調(diào)整圖像內(nèi)容。
4.3、Transition components
轉(zhuǎn)換組件處理從PRE-DEYO發(fā)送到POST-DETR的信息,以確保信息解釋期間的一致性,并確保從PRE-DIYO過濾的信息最適合POST-DEYO。
1、Prediction selection
PRE-DEYO預(yù)測了許多幾乎相同的邊界框,如果沒有引入過濾機制,則訓(xùn)練過程中會導(dǎo)致POST-DEYO崩潰。作者發(fā)現(xiàn)POST-DEYO中的過濾能力是有限的。因此,POST-DEYO很難學(xué)習(xí)相似和重疊框的正確過濾策略。
因此,作者將NMS包含在轉(zhuǎn)換組件中,以過濾來自PRE-DEYO的信息。為了保證模型的最終性能,作者通過調(diào)整合適的IoU閾值來獲得最適合POST-DEYO的高質(zhì)量query和Anchor。在過渡組件中使用NMS不會限制模型的最終性能,因為由于錯誤保留或刪除框而可能導(dǎo)致的性能下降在POST-DEYO中得到了補償。
2、Padding
由于每張圖像中的目標(biāo)數(shù)量會動態(tài)變化,因此PRE-DEYO生成的高質(zhì)量query和Anchor在發(fā)送到POST-DEYO之前會被填充到特定的數(shù)字。該策略確保了每個epoch中query數(shù)量的穩(wěn)定性。填充query不參與二分圖匹配或損失計算,并且不用于最終預(yù)測結(jié)果。
3、Label Mapper
PRE-DEYO的COCO類別指數(shù)從0到79,POST-DEYO COCO類別索引從0到90,涉及POST-DEY中幾個未使用的類別指數(shù)。標(biāo)簽映射器將PRE-DEYO的類別索引替換為POST-DEYO中CDN組件的同一類別所使用的序列號。對齊類別索引允許模型只學(xué)習(xí)一種類型的編碼系統(tǒng)并加速模型訓(xùn)練。
4、Class Embedding
PRE-DEYO的類別信息通過類嵌入被投影到隱藏特征維度,然后被發(fā)送到Transformer編碼器。由于COCO類別號一致,本文的類嵌入與CDN的標(biāo)簽嵌入一致,但獨立于標(biāo)簽嵌入,大大加快了模型學(xué)習(xí)PRE-DEYO類別信息的過程。
5、Post Processing of Anchor
由于PRE-DEYO和POST-DEYO的推斷是在不同的圖像尺度下進行的,因此Anchor后處理將PRE-DEY的高質(zhì)量Anchor與POST-DEY的尺度對齊。在歸一化和inverse sigmoid 處理之后,Anchor被傳送到POST-DEYO的解碼器。
5、實驗
5.1、Main Results


5.2、Ablation Study

在表3和表4中,利用PRE匹配來保護CDN不受增加二分匹配穩(wěn)定性對性能的影響。在表3中,探討了不同的類嵌入方法對第一個epoch性能的影響,并發(fā)現(xiàn)在CDN上使用標(biāo)簽嵌入對POST-DEYO從PRE-DEYO學(xué)習(xí)信息最為有利。
作者還分析了CDN對POST-DEYO性能的增益,表4中的結(jié)果表明,除了提高匹配后二分匹配的穩(wěn)定性之外,CDN還可以引導(dǎo)模型學(xué)習(xí)正確重建來自PRE-DEYO的信息。

在圖4(a)中,作者使用900個query分析了訓(xùn)練收斂曲線,這些query都來自PRE-DEYO,過渡分量的iou閾值不同。結(jié)果表明,POST-DEYO的電流濾波鑒別能力有限,性能隨著iou閾值的升高而降低。
作者還分析了12個epoch訓(xùn)練收斂曲線混合和原始query,如圖4(b)所示。結(jié)果表明,使用混合query的DEYO模型對query數(shù)量的變化最不敏感。DEYO模型使用來自PRE-DEYO的計算成本較低的預(yù)測來減少計算成本較高的query數(shù)量,而不會降低準(zhǔn)確性和加快推理速度。

在表5中分析了使用不同的PRE-DEYO對DEYO整體性能的影響。結(jié)果表明,query和anchor的質(zhì)量在很大程度上決定了最終的性能。這是因為良好的query和anchor質(zhì)量可以為POST-DEYO建立明確的優(yōu)化目標(biāo),使預(yù)測一對一對象集變得更容易,而低質(zhì)量的query和anchor會使POST-DEXO訓(xùn)練變得更困難。
5.3、分析
對比去噪訓(xùn)練對于DEYO模型至關(guān)重要,可以增強POST-DEYO二分法匹配的穩(wěn)定性,并指導(dǎo)POST-DEYO在推理中獲得更好的結(jié)果。正如在Let’s think by think中一樣,精心設(shè)計的中間推理步驟可以顯著提高模型的最終性能。
因此,作者認為,POST-DEYO的鑒別濾波能力不僅取決于解碼器,還與CDN等組件的設(shè)計密切相關(guān)。在表3中,將共享嵌入導(dǎo)致的性能下降與獨立嵌入進行了比較,這表明CDN query anchor和POST-DEYO初始化中的query anchor在訓(xùn)練期間是不明確的。作者相信,更好的“CDN”和中間推理指導(dǎo)可以幫助POST-DEYO在更大程度上利用PRE-DEYO的潛在性能。
6、總結(jié)
本文提出了一種新的兩階段目標(biāo)檢測模型DEYO,該模型采用基于分步思想的漸進推理方法。該模型降低了類DETR模型預(yù)測一對一對象集的難度,并從新的角度解決了類DETR模型收斂速度慢的問題。同時,它有效地改善了經(jīng)典檢測器由于NMS后處理而導(dǎo)致的性能瓶頸問題。結(jié)果表明,漸進推理方法顯著加快了收斂速度并提高了性能,使用ResNet-50作為主干,在1x(epochs)設(shè)置中獲得了最佳結(jié)果。
考慮到限制和未來的工作,輕量級過渡組件和POST-DEYO還沒有充分利用第一階段的信息。事實上,圖4(a)強調(diào)了由于不適當(dāng)?shù)剡^濾信息而導(dǎo)致的性能下降。因此,應(yīng)探索兩個階段之間更有效的信息傳輸方案,并應(yīng)改進不完善的信息編碼和解碼,以避免最終性能下降。
7、參考
[1].DEYO: DETR with YOLO for Step-by-Step Object Detection.
推薦閱讀
輔助模塊加速收斂,精度大幅提升!移動端實時的NanoDet-Plus來了!
機器學(xué)習(xí)算法工程師
? ??? ? ? ? ? ? ? ? ? ? ????????? ??一個用心的公眾號

