arxiv論文整理20230812-0818(目標(biāo)檢測(cè)方向)
MS3D++: Ensemble of Experts for Multi-Source Unsupervised Domain Adaption in 3D Object Detection
摘要: 在陌生領(lǐng)域部署3D探測(cè)器被證明會(huì)導(dǎo)致檢測(cè)率的急劇下降,最高可達(dá)到70-90%,這是由于來(lái)自訓(xùn)練數(shù)據(jù)集的激光雷達(dá)、地理區(qū)域或天氣條件的變化所致。這種領(lǐng)域差距會(huì)導(dǎo)致密集觀測(cè)對(duì)象的漏檢、對(duì)齊不準(zhǔn)確的置信度評(píng)分以及增加高置信度的誤報(bào),使檢測(cè)器變得極不可靠。為了解決這個(gè)問(wèn)題,我們引入了MS3D ++,這是一個(gè)用于3D目標(biāo)檢測(cè)的自我訓(xùn)練框架,用于多源無(wú)監(jiān)督領(lǐng)域適應(yīng)。 MS3D ++通過(guò)生成高質(zhì)量的偽標(biāo)簽提供了一個(gè)簡(jiǎn)單的域適應(yīng)方法,使得無(wú)論激光雷達(dá)的密度如何,都可以適應(yīng)各種類型的激光雷達(dá)。我們的方法有效地融合了來(lái)自不同來(lái)源域的一組多幀預(yù)訓(xùn)練檢測(cè)器的預(yù)測(cè)結(jié)果,以改善領(lǐng)域泛化能力。我們隨后在時(shí)間上對(duì)預(yù)測(cè)結(jié)果進(jìn)行了細(xì)化,以確??蚨ㄎ缓蛯?duì)象分類的時(shí)間一致性。此外,我們還對(duì)不同3D檢測(cè)器組件在跨領(lǐng)域環(huán)境中的性能和特點(diǎn)進(jìn)行了深入研究,為改進(jìn)跨領(lǐng)域檢測(cè)器整合提供了有價(jià)值的見(jiàn)解。在Waymo、nuScenes和Lyft上的實(shí)驗(yàn)證明,使用MS3D++偽標(biāo)簽訓(xùn)練的檢測(cè)器在兩種激光雷達(dá)的鳥(niǎo)瞰圖(BEV)評(píng)估中實(shí)現(xiàn)了與使用人工標(biāo)注標(biāo)簽相當(dāng)?shù)淖钚滦阅?,無(wú)論激光雷達(dá)的密度是低還是高。
點(diǎn)評(píng): 通過(guò)多源無(wú)監(jiān)督領(lǐng)域適應(yīng)、專家集成算法和自學(xué)習(xí)流程,使得MS3D++能夠在3D物體檢測(cè)中取得更好的性能和魯棒性。代碼已開(kāi)源: https://github.com/darrenjkt/MS3D。
Cyclic-Bootstrap Labeling for Weakly Supervised Object Detection
摘要: 在弱監(jiān)督目標(biāo)檢測(cè)領(lǐng)域,最近的進(jìn)展以多實(shí)例檢測(cè)網(wǎng)絡(luò)(MIDN)和序數(shù)在線優(yōu)化的組合為特點(diǎn)。然而,由于只有圖像級(jí)別的注釋,MIDN在生成偽標(biāo)簽時(shí)不可避免地會(huì)對(duì)一些意外的區(qū)域建議分配高分。這些不準(zhǔn)確的高分區(qū)域建議會(huì)誤導(dǎo)后續(xù)優(yōu)化模塊的訓(xùn)練,從而影響檢測(cè)性能。在本研究中,我們探討了如何改善MIDN中偽標(biāo)注的質(zhì)量。具體來(lái)說(shuō),我們?cè)O(shè)計(jì)了循環(huán)引導(dǎo)標(biāo)注(CBL)這一弱監(jiān)督目標(biāo)檢測(cè)流程,通過(guò)從可靠的教師網(wǎng)絡(luò)中獲得等級(jí)信息來(lái)優(yōu)化MIDN。具體而言,我們通過(guò)引入加權(quán)指數(shù)移動(dòng)平均策略來(lái)獲得這個(gè)教師網(wǎng)絡(luò),以利用各種優(yōu)化模塊。我們還提出了一種新穎的類別特定的等級(jí)蒸餾算法,利用加權(quán)集成教師網(wǎng)絡(luò)的輸出來(lái)對(duì)MIDN進(jìn)行等級(jí)蒸餾。結(jié)果,MIDN被引導(dǎo)為對(duì)其鄰近的準(zhǔn)確建議分配更高的分?jǐn)?shù),從而使后續(xù)的偽標(biāo)注受益。在普遍的PASCAL VOC 2007&2012和COCO數(shù)據(jù)集上進(jìn)行了大量實(shí)驗(yàn)證明了我們CBL框架的優(yōu)越性能。代碼可在 GitHub - Yinyf0804/WSOD-CBL 上獲得。
點(diǎn)評(píng): 提出了一種新的循環(huán)引導(dǎo)標(biāo)注方法,用于弱監(jiān)督目標(biāo)檢測(cè)。代碼已開(kāi)源。
ICAFusion: Iterative Cross-Attention Guided Feature Fusion for Multispectral Object Detection
摘要: 多光譜圖像的有效特征融合在多光譜目標(biāo)檢測(cè)中起著至關(guān)重要的作用。先前的研究已經(jīng)證明了使用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行特征融合的有效性,但由于局部范圍特征交互中固有的不足導(dǎo)致對(duì)圖像錯(cuò)位非常敏感,從而使性能下降。為了解決這個(gè)問(wèn)題,提出了一種新穎的雙交叉注意力變換器特征融合框架,用于同時(shí)模擬全局特征交互和捕捉跨通道的互補(bǔ)信息。該框架通過(guò)查詢引導(dǎo)的交叉注意力機(jī)制增強(qiáng)了目標(biāo)特征的可辨識(shí)性,從而提高了性能。然而,為了增強(qiáng)特征,堆疊多個(gè)變換器塊會(huì)產(chǎn)生大量的參數(shù)和高空間復(fù)雜性。為了解決這個(gè)問(wèn)題,受到人類復(fù)習(xí)知識(shí)的過(guò)程的啟示,提出了一種迭代交互機(jī)制,用于在塊級(jí)多模式變換器之間共享參數(shù),從而降低模型復(fù)雜性和計(jì)算成本。所提出的方法是通用的,能夠有效地集成到不同的檢測(cè)框架中,并與不同的主干網(wǎng)絡(luò)配合使用。在KAIST、FLIR和VEDAI數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,所提出的方法實(shí)現(xiàn)了優(yōu)越的性能和更快的推理速度,適用于各種實(shí)際場(chǎng)景。代碼將在https://github.com/chanchanchan97/ICAFusion 上提供。
點(diǎn)評(píng): 利用了雙重交叉注意力變換框架,通過(guò)建模全局特征交互和同時(shí)捕捉不同模態(tài)之間的補(bǔ)充信息來(lái)增強(qiáng)物體特征的可區(qū)分性。代碼將開(kāi)源。
Identity-Consistent Aggregation for Video Object Detection(ICCV2023)
摘要: 在視頻目標(biāo)檢測(cè)(VID)中,常見(jiàn)的做法是利用視頻中豐富的時(shí)空上下文來(lái)增強(qiáng)每個(gè)幀中的目標(biāo)表示。現(xiàn)有的方法將不同目標(biāo)的時(shí)空上下文一視同仁,忽視了它們的不同身份。直觀地說(shuō),聚合不同幀中同一目標(biāo)的局部視圖可能有助于更好地理解目標(biāo)。因此,在本文中,我們的目標(biāo)是使模型能夠?qū)W⒂诿總€(gè)對(duì)象的身份一致的時(shí)空上下文,以獲得更全面的目標(biāo)表示,并處理快速的目標(biāo)外觀變化,如遮擋、動(dòng)態(tài)模糊等。然而,要在現(xiàn)有的VID模型上實(shí)現(xiàn)這個(gè)目標(biāo)面臨著低效率問(wèn)題,因?yàn)樗鼈兇嬖谌哂嗟膮^(qū)域建議和非并行的逐幀預(yù)測(cè)方式。為了解決這個(gè)問(wèn)題,我們提出了ClipVID,一種具備特定的身份一致聚合(ICA)層的VID模型,專門用于挖掘細(xì)粒度和身份一致的時(shí)空上下文。它通過(guò)集合預(yù)測(cè)策略有效地減少了冗余,使得ICA層非常高效,并進(jìn)一步允許我們?cè)O(shè)計(jì)一種架構(gòu),可以對(duì)整個(gè)視頻剪輯進(jìn)行并行的剪輯級(jí)預(yù)測(cè)。廣泛的實(shí)驗(yàn)結(jié)果證明了我們方法的優(yōu)越性:在ImageNet VID數(shù)據(jù)集上表現(xiàn)出最先進(jìn)的性能(84.7%的mAP),同時(shí)運(yùn)行速度比之前的最優(yōu)方法快7倍(39.3幀/秒)。
點(diǎn)評(píng): 通過(guò)引入身份一致聚合機(jī)制和關(guān)聯(lián)的時(shí)間一致性,并結(jié)合點(diǎn)云的信息,實(shí)現(xiàn)了更準(zhǔn)確、魯棒的視頻目標(biāo)檢測(cè)。
GPA-3D: Geometry-aware Prototype Alignment for Unsupervised Domain Adaptive 3D Object Detection from Point Clouds(ICCV 2023)
摘要: 近年來(lái),基于LiDAR的三維檢測(cè)取得了巨大的進(jìn)展。然而,當(dāng)在未知環(huán)境中部署時(shí),三維檢測(cè)器的性能受到嚴(yán)重的域間差異問(wèn)題的限制?,F(xiàn)有的域自適應(yīng)三維檢測(cè)方法沒(méi)有充分考慮特征空間中的分布差異問(wèn)題,從而阻礙了檢測(cè)器在不同領(lǐng)域間的泛化能力。在這項(xiàng)工作中,我們提出了一種新穎的無(wú)監(jiān)督域自適應(yīng)三維檢測(cè)框架,稱為幾何感知原型對(duì)齊(GPA-3D),它明確利用點(diǎn)云對(duì)象的內(nèi)在幾何關(guān)系來(lái)減少特征差異,從而促進(jìn)跨域轉(zhuǎn)移。具體而言,GPA-3D為具有不同幾何結(jié)構(gòu)的點(diǎn)云對(duì)象分配一系列量身定制且可學(xué)習(xí)的原型。每個(gè)原型都對(duì)應(yīng)于源域和目標(biāo)域上導(dǎo)出的鳥(niǎo)瞰圖特征,并將它們進(jìn)行對(duì)齊,從而減少分布差異并實(shí)現(xiàn)更好的自適應(yīng)。在包括Waymo、nuScenes和KITTI在內(nèi)的各種基準(zhǔn)測(cè)試中,我們的GPA-3D在不同的自適應(yīng)場(chǎng)景中表現(xiàn)出優(yōu)越性能,超過(guò)了現(xiàn)有最先進(jìn)方法。MindSpore版本的代碼將公開(kāi)在https://github.com/Liz66666/GPA3D。
點(diǎn)評(píng): 引入了隨機(jī)物體尺寸變化策略,以降低源域數(shù)據(jù)的負(fù)偏差,并用源域數(shù)據(jù)預(yù)訓(xùn)練3D目標(biāo)檢測(cè)器。代碼將開(kāi)源。
ps:承接程序代寫(xiě), 小程序編寫(xiě) 程序應(yīng)用 深度學(xué)習(xí) 卷積神經(jīng)網(wǎng)絡(luò) pytorch paddlepaddle 數(shù)據(jù)結(jié)構(gòu) 機(jī)器學(xué)習(xí) 目標(biāo)檢測(cè) 圖像處理
有需要的兄弟們可以在我公眾號(hào)留言。
ppt(有備注,可直接講)可以在知識(shí)星球獲?。?/p>
我正在「目標(biāo)檢測(cè)er的小圈子」和朋友們討論有趣的話題,你?起來(lái)吧?
https://t.zsxq.com/0cM8tmd4l
