目標(biāo)檢測(cè)落地技能 | 擁擠目標(biāo)檢測(cè)你是如何解決的呢?改進(jìn)Copy-Paste解決擁擠問(wèn)題!


在2D目標(biāo)檢測(cè)領(lǐng)域,由相似目標(biāo)之間的重疊引起的擁擠是普遍存在的挑戰(zhàn)。在本文中,首先強(qiáng)調(diào)了擁擠問(wèn)題的兩個(gè)主要影響:
IoU置信相關(guān)干擾(ICD)
混淆重復(fù)數(shù)據(jù)消除(CDD)
然后,從數(shù)據(jù)擴(kuò)充的角度探索破解這些困難的途徑。首先,提出了一種用于制作擁擠場(chǎng)景的特Copy-Paste方案?;诖瞬僮?,首先設(shè)計(jì)了一種“共識(shí)學(xué)習(xí)”策略,以進(jìn)一步抵抗ICD問(wèn)題,然后發(fā)現(xiàn)Paste過(guò)程自然地揭示了場(chǎng)景中目標(biāo)的偽“深度”,這可能用于緩解CDD困境。
這兩種方法都源自對(duì)Copy-Paste的神奇使用,無(wú)需額外的處理費(fèi)用。實(shí)驗(yàn)表明,在典型的擁擠檢測(cè)任務(wù)中,本文的方法可以輕松地將最先進(jìn)的檢測(cè)器提高2%以上,而無(wú)需任何計(jì)算開(kāi)銷。此外,這項(xiàng)工作可以在擁擠場(chǎng)景中勝過(guò)現(xiàn)有的數(shù)據(jù)擴(kuò)充策略。
1、簡(jiǎn)介
目標(biāo)檢測(cè)的任務(wù)已經(jīng)被仔細(xì)研究了相當(dāng)長(zhǎng)的時(shí)間。在深度學(xué)習(xí)時(shí)代,近年來(lái),已經(jīng)提出了許多精心設(shè)計(jì)的目標(biāo)檢測(cè)方法,并將檢測(cè)性能提高到了令人驚訝的高水平。盡管如此,仍然存在許多根本性問(wèn)題沒(méi)有得到根本解決。其中之一是“擁擠問(wèn)題”,這通常表示屬于同一類別的目標(biāo)高度重疊在一起的現(xiàn)象。在幾何方式中,基本困難源于2D空間的語(yǔ)義歧義。

如圖1所示,在3D世界中,每個(gè)體素都有其“獨(dú)特的語(yǔ)義”,并位于“特定目標(biāo)”上。然而,投影到2D平面后,一個(gè)像素可能落在幾個(gè)碰撞的目標(biāo)上。在將概念從“像素”演變?yōu)椤翱颉敝?,擁擠場(chǎng)景中的語(yǔ)義模糊導(dǎo)致了重疊的概念。
為了探究這個(gè)問(wèn)題的影響,作者深入到檢測(cè)范式的本質(zhì)。通常,目標(biāo)檢測(cè)器讀取圖像并輸出一組邊界框,每個(gè)邊界框與置信度分?jǐn)?shù)相關(guān)。對(duì)于理想的檢測(cè)器,得分值應(yīng)傳達(dá)預(yù)測(cè)框與GT的重疊程度。換句話說(shuō),這兩個(gè)框之間的交集(IoU)應(yīng)與置信度得分呈正相關(guān)。

在圖2中可視化了與IoU相關(guān)的得分的平均值和標(biāo)準(zhǔn)差之后,結(jié)果表明,即使是現(xiàn)成的檢測(cè)器,這種正相關(guān)性也會(huì)隨著擁擠程度的增加而逐漸受到干擾。這項(xiàng)實(shí)驗(yàn)研究清楚地表明了當(dāng)前檢測(cè)算法在面對(duì)超重重疊時(shí)的困難。作者將這種影響體現(xiàn)為IoU置信度相關(guān)干擾(ICD)。
另一方面,典型的檢測(cè)管道通常以重復(fù)數(shù)據(jù)消除模塊結(jié)束,例如,廣泛采用的非最大抑制(NMS)。由于前面提到的2D語(yǔ)義模糊,這些模塊經(jīng)常被嚴(yán)重重疊的預(yù)測(cè)所混淆,這導(dǎo)致在人群中嚴(yán)重缺失。作者將這種類型的效果稱為混淆重復(fù)數(shù)據(jù)消除(CDD)。
為了克服這兩個(gè)障礙,作者從數(shù)據(jù)擴(kuò)充的角度探索了一條道路。參考前面的工作,提出了一種簡(jiǎn)單的Copy-Paste變體。首先,按照一些專門用于制作擁擠場(chǎng)景的規(guī)則,將目標(biāo)分割塊粘貼到訓(xùn)練圖像上。然后,圍繞Copy-Paste設(shè)計(jì)了一種“共識(shí)學(xué)習(xí)”方法,將重疊目標(biāo)的置信分布與其相同但未重疊的對(duì)應(yīng)目標(biāo)對(duì)齊,這進(jìn)一步限制了ICD問(wèn)題。
此外,由于程序控制的粘貼過(guò)程,當(dāng)兩個(gè)目標(biāo)重疊時(shí),自然可以獲得哪個(gè)在前面,哪個(gè)在后面的額外信息。這種無(wú)成本的知識(shí)提供了關(guān)于除了跨越圖像平面的x軸和y軸之外的額外第三維深度的線索,這可以被視為對(duì)導(dǎo)致CDD困境的前述2D限制的突破。
從這個(gè)動(dòng)機(jī)出發(fā)提出了一個(gè)名為“覆蓋深度”的概念,并半監(jiān)督地訓(xùn)練檢測(cè)器來(lái)預(yù)測(cè)這個(gè)標(biāo)簽。然后,引入了覆蓋深度感知NMS(OD-NMS),以在重復(fù)數(shù)據(jù)消除期間利用深度知識(shí)。實(shí)驗(yàn)表明,該策略可以幫助區(qū)分2D空間中聚集的框,并進(jìn)一步提高檢測(cè)結(jié)果。
作者從多個(gè)方面評(píng)估本文的方法。作為一種數(shù)據(jù)增強(qiáng)策略,無(wú)論是手工方法還是自動(dòng)化方法,這項(xiàng)工作都可以在擁擠的場(chǎng)景中勝過(guò)其他算法。作為一種解決擁擠問(wèn)題的方法,本文的方法可以穩(wěn)定地將最先進(jìn)的檢測(cè)器提高2%以上,而無(wú)需任何提示。此外,由于手動(dòng)標(biāo)記擁擠的數(shù)據(jù)是消耗資源的,因此該方法提供了一種僅對(duì)“稀疏數(shù)據(jù)”進(jìn)行訓(xùn)練的方法,并通過(guò)數(shù)據(jù)增強(qiáng)應(yīng)用于擁擠的場(chǎng)景??傊?,這項(xiàng)工作的主要貢獻(xiàn)有兩方面:
(1)提出了一種面向擁擠的Copy-Paste方案,并引入了共識(shí)學(xué)習(xí)策略,這有效地幫助檢測(cè)器抵抗ICD問(wèn)題,并在擁擠場(chǎng)景中帶來(lái)改善。
(2) 設(shè)計(jì)了一種簡(jiǎn)單的方法來(lái)利用粘貼過(guò)程產(chǎn)生的弱深度知識(shí),從而進(jìn)一步優(yōu)化檢測(cè)器。
2、相關(guān)工作
2.1、Crowded Object Detection
在擁擠的場(chǎng)景中檢測(cè)物體一直是一個(gè)長(zhǎng)期的挑戰(zhàn),在這一主題上花費(fèi)了大量精力。例如,Zhang等人2018年提出了特定的損失函數(shù),以約束更接近相應(yīng)的GT并遠(yuǎn)離附近物體的提議,從而增強(qiáng)重疊個(gè)體之間的區(qū)別。CaSe使用一個(gè)新的分支來(lái)計(jì)算感興趣區(qū)域(RoI)中的行人數(shù)量,并為每個(gè)提議生成相似性嵌入。作為對(duì)上述CDD問(wèn)題的回應(yīng),一組工作集中于緩解非最大抑制(NMS)的不足。自適應(yīng)NMS引入了一種自適應(yīng)機(jī)制來(lái)動(dòng)態(tài)調(diào)整NMS中的閾值,從而在人群中實(shí)現(xiàn)更好的召回。
2020 Huang等人NMS利用較少遮擋的可見(jiàn)框來(lái)指導(dǎo)完整框的選擇,而需要額外標(biāo)記(可見(jiàn)框)。CrowdDet提出了一個(gè)方案來(lái)進(jìn)行多個(gè)預(yù)測(cè),并使用精心設(shè)計(jì)的Set NMS來(lái)解決嚴(yán)重重疊的情況。最近的一些作品探索了其他方式。Zhang等人將行人檢測(cè)任務(wù)建模為一個(gè)變分推理問(wèn)題。Zheng等人改進(jìn)了端到端檢測(cè)器Sparse R-CNN,以適應(yīng)擁擠的檢測(cè)場(chǎng)景。
2.2、Data Augmentation in Object Detection
在計(jì)算機(jī)視覺(jué)領(lǐng)域,數(shù)據(jù)增強(qiáng)長(zhǎng)期以來(lái)被用于優(yōu)化模型訓(xùn)練,其主要來(lái)源于圖像分類任務(wù)。早期的方法通常包括顏色變換和隨機(jī)裁剪等策略。自然,核心思想被轉(zhuǎn)移到檢測(cè)領(lǐng)域,一些操作(例如,圖像翻轉(zhuǎn)和尺度抖動(dòng))已被廣泛采用作為標(biāo)準(zhǔn)模塊。
目前,已經(jīng)出現(xiàn)了具有更具體理論基礎(chǔ)的方法。這些變體,從手工設(shè)計(jì)的Cutout、Mixup和CutMix到基于學(xué)習(xí)的AutoAugment、Fast AutoAugment和RandAugment,對(duì)圖像分類產(chǎn)生了相當(dāng)大的影響,并顯示出物體檢測(cè)的巨大潛力。
同時(shí),也有一些工作專注于檢測(cè)任務(wù)。Stitcher和YOLOv4引入了包含重新縮放圖像patch的Mosaic輸入,以增強(qiáng)魯棒性。
Zoph和Chen等人重新設(shè)計(jì)了AutoAugment方案,以適應(yīng)目標(biāo)檢測(cè)。也有研究人員提出了一種聯(lián)合搜索數(shù)據(jù)增強(qiáng)和損失函數(shù)策略的方法。Liu等人提出了一種新的APGAN,用于在進(jìn)行增強(qiáng)時(shí)從其他數(shù)據(jù)集轉(zhuǎn)移行人。
2.3、Copy-Paste Augmentation
Copy-Paste增強(qiáng)技術(shù)于2017年首次提出。通過(guò)從源圖像中剪切對(duì)象塊并粘貼到目標(biāo)圖像,可以輕松獲取組合數(shù)量的合成訓(xùn)練數(shù)據(jù),并顯著提高檢測(cè)/分割性能。這一驚人的魔力隨后被后續(xù)作品所驗(yàn)證,并通過(guò)上下文改編進(jìn)一步完善了該方法。
Ghiasi等人聲稱只要訓(xùn)練足夠,簡(jiǎn)單的Copy-Paste可以帶來(lái)相當(dāng)大的改進(jìn)。他們的實(shí)驗(yàn)進(jìn)一步表明了這種增強(qiáng)策略在實(shí)例級(jí)圖像理解上的潛力。需要注意的是Copy-Paste的最初動(dòng)機(jī)是使樣本空間多樣化,特別是對(duì)于稀有類別或緩解復(fù)雜的掩模標(biāo)簽。
然而,在本文的工作中利用這種操作來(lái)精確地解決擁擠問(wèn)題。盡管在以前的工作中有過(guò)簡(jiǎn)單的實(shí)踐,但從未系統(tǒng)地設(shè)計(jì)和研究過(guò)這種策略在處理?yè)頂D場(chǎng)景方面的實(shí)際效果。
3、回顧IoU-Confidence Disturbances
本部分著重于解決Iou置信干擾(ICD)。作者探索了實(shí)現(xiàn)這一目標(biāo)的兩種連續(xù)方式。首先,進(jìn)行Copy-Paste以制作擁擠的場(chǎng)景。然后,在重疊目標(biāo)和非重疊目標(biāo)之間引入共識(shí)學(xué)習(xí),這依賴于Copy-Paste。
3.1、Crowdedness Oriented Copy-Paste
根據(jù)圖2的觀察,一個(gè)直觀的想法是讓更多的擁擠案例主導(dǎo)訓(xùn)練。為此,仔細(xì)地重新設(shè)計(jì)了Copy-Paste策略。首先,介紹了“組”的概念。一個(gè)圖像應(yīng)該包括幾個(gè)組,每個(gè)組由多個(gè)嚴(yán)重重疊的目標(biāo)組成。按照這個(gè)邏輯方案,首先在圖像上生成組中心,然后在它們周圍粘貼目標(biāo)。
形式上,對(duì)于要增強(qiáng)的每個(gè)訓(xùn)練圖像,初始化一組C“組中心”:

其中每個(gè)元組表示位于相應(yīng)組中心的目標(biāo)(、和分別表示坐標(biāo)和標(biāo)準(zhǔn)化目標(biāo)大?。?。通過(guò)從當(dāng)前圖像上的原始目標(biāo)采樣來(lái)獲得這些組中心。組號(hào)|C|是從[0, N]的整數(shù)范圍中隨機(jī)選擇的,其中N是超參數(shù)。
第二步是在這些組中心周圍粘貼目標(biāo)。對(duì)于每個(gè)、 應(yīng)該生成組中目標(biāo)的集合:

類似地,組中的對(duì)象數(shù)||來(lái)自范圍[0,M],其中M是另一個(gè)超參數(shù)。由于擁擠的本質(zhì)是“重疊”的,因此被強(qiáng)制與群中心對(duì)象重疊??梢詮母怕室饬x上的、和條件的三個(gè)方面來(lái)處理重疊。
首先,組中的對(duì)象通常具有相似的大小。設(shè)是圖像中中心物體尺寸條件下的概率密度函數(shù)。選擇為高斯函數(shù),如下所示:

其中是標(biāo)準(zhǔn)偏差,本文中使用的是常數(shù)0.2。為了保證重疊,在建模坐標(biāo)值和時(shí)采用了兩個(gè)獨(dú)立的均勻分布:

式中,和是從具有重疊的群中心偏移的最大距離。系數(shù)和用于調(diào)整擁擠度。
在訓(xùn)練期間,對(duì)于加載的每個(gè)圖像,集合和都是按照上述規(guī)則生成的。然后,目標(biāo)分割塊將被采樣、重新縮放并相應(yīng)地粘貼到圖像上。
3.2、Consensus Learning
通過(guò)Copy-Paste工具包,使用專門的策略來(lái)抵抗ICD問(wèn)題,從而增強(qiáng)檢測(cè)器訓(xùn)練??紤]到圖2所示的觀察結(jié)果,預(yù)測(cè)分?jǐn)?shù)的不穩(wěn)定性來(lái)源于擁擠,一種新的解決方案是將擁擠環(huán)境中的一個(gè)目標(biāo)的分?jǐn)?shù)(被其他目標(biāo)覆蓋)與未覆蓋時(shí)的分?jǐn)?shù)對(duì)齊。由于Copy-Paste方法可以很容易地生成這種類型的目標(biāo)對(duì),其中兩個(gè)相同的目標(biāo)位于不同的環(huán)境中。圖3說(shuō)明了作者的想法。
在前面的數(shù)據(jù)擴(kuò)充之后,作者選擇了一組由其他目標(biāo)覆蓋的目標(biāo)。然后,將與中的目標(biāo)patch相同的目標(biāo)patch重新粘貼到圖像上,而不進(jìn)行覆蓋,從而構(gòu)建另一組。
在訓(xùn)練期間,強(qiáng)制執(zhí)行每個(gè)目標(biāo)的預(yù)測(cè)分?jǐn)?shù)分布與其對(duì)應(yīng)的保持一致。作者將這一過(guò)程稱為共識(shí)學(xué)習(xí),通過(guò)對(duì)每一對(duì)中的“達(dá)成共識(shí)”進(jìn)行類比。具體來(lái)說(shuō),具體來(lái)說(shuō),讓是與匹配的建議集,是匹配的建議集,首先計(jì)算每個(gè)目標(biāo)得分的平均值和標(biāo)準(zhǔn)差:

其中,和分別為和的大小,表示一個(gè)建議的預(yù)測(cè)置信值。然后,通過(guò)均方誤差(MSE)損失來(lái)追蹤一對(duì),接近:

值得指出的是,只有覆蓋的一半參與了梯度的反向傳播,而非覆蓋的一半(用?標(biāo)記)被視為目標(biāo)。
3.3、Analyze the IoU-Confidence Disturbances
現(xiàn)在,分析了方法在減輕上述ICD問(wèn)題上的有效性。為了重新審視圖2右側(cè)提出的原始動(dòng)機(jī),在圖4中繪制了分?jǐn)?shù)的標(biāo)準(zhǔn)差(STD)。

首先,清楚地表明,用提出的Crowdedness-oriented Copy-Paste(CCP)訓(xùn)練的模型的 STDs明顯低于基線模型(BL),并且通過(guò)提高擁擠程度(從圖4-(a)到(d))。其次,雖然CCP和CCP+CL的曲線似乎沒(méi)有明顯的區(qū)別,但通過(guò)計(jì)算它們的平均std(圖4中的4個(gè)直方圖),作者發(fā)現(xiàn)后者的值實(shí)際上低于前者。
此外,作者繪制了另一個(gè)使用random copy-paste(RCP)增強(qiáng)的模型,而沒(méi)有特別考慮擁擠性。很明顯, STDs Score的下降幅度要小得多。這些觀察結(jié)果表明,本文的方法可以顯著提高檢測(cè)器在擁擠場(chǎng)景中的魯棒性,從而緩解ICD問(wèn)題。
4、Alleviate the Confused De-Duplications
本文的增強(qiáng)策略有一個(gè)自然的副產(chǎn)品:對(duì)于粘貼的這些重疊目標(biāo),相對(duì)的“深度順序”是先驗(yàn)的。換句話說(shuō),我們知道哪個(gè)在前面,哪個(gè)在后面。現(xiàn)在,讓我們回到第節(jié)中描述的語(yǔ)義歧義?;旧希?D空間中的歧義是由真實(shí)(3D)世界中缺少一維造成的。從這個(gè)角度來(lái)看,深度順序可以被視為額外第三維度的一些薄弱知識(shí),這有助于減輕模糊性。作為一種可行的實(shí)踐,在這項(xiàng)工作中利用深度順序信息來(lái)解決混淆的重復(fù)數(shù)據(jù)消除(CDD)問(wèn)題。
首先,引入一個(gè)名為“overlay depth”(OD)的變量,該變量描述了目標(biāo)在視覺(jué)上被其他目標(biāo)覆蓋的程度。圖5顯示了計(jì)算OD的過(guò)程。首先假設(shè)一個(gè)目標(biāo)的覆蓋深度等于1.0,如果沒(méi)有其他目標(biāo)覆蓋它。設(shè)是由目標(biāo)覆蓋的目標(biāo)的區(qū)域,表示區(qū)域的大小。對(duì)于圖像中的任何目標(biāo),存在一組覆蓋的目標(biāo):

其中,是當(dāng)前圖像中所有目標(biāo)的集合。然后,可以明確定義的OD值:

因此,一個(gè)物體被其他物體(同一類別的物體)遮擋得越嚴(yán)重,其OD值就越高(如圖中的物體b1和b2)。

從這個(gè)特性出發(fā),疊加深度的應(yīng)用基于一個(gè)合理的觀察:2個(gè)高度重疊的物體通常位于不同的深度,或者更具體地說(shuō),具有不同的OD值。因此,通過(guò)從深度軸獲取額外的知識(shí),可以在混亂的2D平面中進(jìn)行重復(fù)數(shù)據(jù)消除時(shí)采用OD值。
現(xiàn)在,使檢測(cè)器能夠預(yù)測(cè)OD值。通常,檢測(cè)模型采用分支來(lái)回歸邊界框的坐標(biāo)。根據(jù)這一設(shè)計(jì),為分支添加了一個(gè)額外的預(yù)測(cè)因子,以負(fù)責(zé)OD回歸。該修改導(dǎo)致了可忽略的計(jì)算負(fù)擔(dān),并且可以很容易地在單階段和兩階段結(jié)構(gòu)中實(shí)現(xiàn)。在訓(xùn)練期間,采用了常見(jiàn)的L2損失。應(yīng)該強(qiáng)調(diào)的是,由于覆蓋深度的半監(jiān)督知識(shí),只能獲取粘貼對(duì)象的OD。因此,只有當(dāng)GT可用時(shí)才激活OD回歸損失。從形式上講,整個(gè)損失可以寫為:

其中為常規(guī)檢測(cè)損失,為共識(shí)學(xué)習(xí)損失,分別為OD回歸損失。在本文中,使用了α = γ = 1和η = 0.1。
在推理過(guò)程中提出了一種新的重復(fù)數(shù)據(jù)消除策略,稱為Overlay Depth-aware NMS(OD-NMS)。在原始的NMS管道中,bbox被遞歸地相互比較,如果IoU超過(guò)一個(gè)閾值,則在每個(gè)步驟中其中一個(gè)將被抑制。按照這個(gè)方案,在擁擠的場(chǎng)景中目標(biāo)可能會(huì)錯(cuò)誤地重復(fù)數(shù)據(jù)刪除。在OD-NMS中,對(duì)于IoU高于閾值的困難情況,將預(yù)測(cè)的OD值整合到一個(gè)更全面的決策中。如果兩個(gè)目標(biāo)的深度不同,即兩個(gè)OD值的絕對(duì)差值高于預(yù)定義的閾值,可以取消當(dāng)前步驟中的抑制。根據(jù)經(jīng)驗(yàn),模糊的情況經(jīng)常在大的IoU范圍內(nèi)增加:當(dāng)兩個(gè)bbox更嚴(yán)重地重疊時(shí),需要更嚴(yán)格的OD閾值來(lái)判斷它們是否是不同的目標(biāo)。因此,我們?cè)O(shè)計(jì)了一個(gè)基于于單位值的OD的動(dòng)態(tài)閾值:

其中,δ和ψ為常系數(shù)。

算法1總結(jié)了整個(gè)過(guò)程。通過(guò)這種方式,擁擠場(chǎng)景中的目標(biāo)可以被有效地召回,而不是不適當(dāng)?shù)剡M(jìn)行重復(fù)數(shù)據(jù)刪除。這種策略可以看作是具有相當(dāng)時(shí)間復(fù)雜度的原始NMS的演變。
5、實(shí)驗(yàn)
5.1、消融實(shí)驗(yàn)
1、Crowdedness-oriented Design

2、Consensus Learning

3、Overlay Depth

4、Robustness to Pasting Objects

5.2、CrowdHuman

5.3、Results on CityPersons

5.4、Results on KITTI

6、參考
[1].Improving Crowded Object Detection via Copy-Paste.
7、推薦閱讀
量化加速系列 | 一文帶你對(duì)YOLOv5使用PTQ和QAT進(jìn)行量化加速!?。?/a>
多目標(biāo)跟蹤新SOTA | TransTrack改進(jìn)版本來(lái)啦,模型減小58.73%,復(fù)雜性降低78.72%
輕量級(jí)的CNN模塊!RepGhost:重參數(shù)化技術(shù)構(gòu)建硬件高效的 Ghost 模塊
掃描上方二維碼可聯(lián)系小書(shū)童加入交流群~
想要了解更多前沿AI視覺(jué)感知全棧知識(shí)【分類、檢測(cè)、分割、關(guān)鍵點(diǎn)、車道線檢測(cè)、3D視覺(jué)(分割、檢測(cè))、多模態(tài)、目標(biāo)跟蹤、NerF】、行業(yè)技術(shù)方案【AI安防、AI醫(yī)療、AI自動(dòng)駕駛以及AI元宇宙】、AI模型部署落地實(shí)戰(zhàn)【CUDA、TensorRT、NCNN、OpenVINO、MNN、ONNXRuntime以及地平線框架等】,歡迎掃描下方二維碼,加入集智書(shū)童知識(shí)星球,日常分享論文、學(xué)習(xí)筆記、問(wèn)題解決方案、部署方案以及全棧式答疑,期待交流!
