YOLO |多域自適應(yīng)MSDA-YOLO解讀,惡劣天氣也看得見(附論文)


本文介紹了一種新的多尺度域自適應(yīng)YOLO(MS-DAYOLO)框架,該框架在YOLOv4檢測(cè)器的不同尺度上使用多個(gè)域自適應(yīng)路徑和相應(yīng)的域分類器來(lái)生成域不變特征。
1簡(jiǎn)介
Domain Adaptation在解決許多應(yīng)用中遇到的Domain Shift問題方面發(fā)揮了重要作用。這個(gè)問題的出現(xiàn)是由于用于訓(xùn)練的源數(shù)據(jù)的分布與實(shí)際測(cè)試場(chǎng)景中使用的目標(biāo)數(shù)據(jù)之間存在差異。

本文介紹了一種新的多尺度域自適應(yīng)YOLO(MS-DAYOLO)框架,該框架在YOLOv4檢測(cè)器的不同尺度上使用多個(gè)域自適應(yīng)路徑和相應(yīng)的域分類器來(lái)生成域不變特征。實(shí)驗(yàn)表明,當(dāng)使用本文提出的MS-DAYOLO訓(xùn)練YOLOv4時(shí),以及在自動(dòng)駕駛應(yīng)用中具有挑戰(zhàn)性的天氣條件的目標(biāo)數(shù)據(jù)上進(jìn)行測(cè)試時(shí),目標(biāo)檢測(cè)性能得到了顯著改善。
2方法
2.1 YOLO V4簡(jiǎn)述
相對(duì)于YOLO V3,YOLOv4包含了許多新的改進(jìn)和新技術(shù),以提高整體檢測(cè)精度。

如圖所示YOLOv4有3個(gè)主要部分:backbone、neck和head。
backbone負(fù)責(zé)提取不同尺度下的多層特征。
neck使用上采樣層將backbone的3種不同尺度的特征聚集在一起,并將它們輸入head。
最后,head預(yù)測(cè)目標(biāo)周圍的邊界框以及與每個(gè)邊界框相關(guān)聯(lián)的類別概率。
本文作者的目標(biāo)是將域適應(yīng)應(yīng)用于這3個(gè)特征(圖中的F1、F2、F3),使它們對(duì)不同尺度的域變化具有魯棒性,從而使它們?cè)诨谟蜻m應(yīng)的訓(xùn)練中向域不變性收斂。
2.2 Domain Adaptive Network for YOLO
提出的域自適應(yīng)網(wǎng)絡(luò)(DAN)僅在訓(xùn)練時(shí)附加到Y(jié)OLOv4中以學(xué)習(xí)域不變特征。對(duì)于推理,在推理階段,將使用原始的YOLOv4體系結(jié)構(gòu)中使用領(lǐng)域自適應(yīng)訓(xùn)練的權(quán)重(沒有DAN網(wǎng)絡(luò))。因此,本文所提出的框架不會(huì)增加推理過程中底層檢測(cè)器的復(fù)雜性。
DAN使用backbone的3個(gè)不同的尺度特征作為輸入。它有幾個(gè)卷積層來(lái)預(yù)測(cè)域類。然后,利用二元交叉熵計(jì)算域分類損失(Ldc):

這里為第個(gè)訓(xùn)練圖像的ground truth域標(biāo)簽,其中為源域,為目標(biāo)域。是第個(gè)訓(xùn)練圖像在位置的特征圖。
DAN通過最小化這種上述損失來(lái)區(qū)分源域和目標(biāo)域。另一方面,為了最大限度地學(xué)習(xí)域不變特征,對(duì)主干也進(jìn)行了優(yōu)化。因此,對(duì)于這2個(gè)域,backbone的特征應(yīng)該是難以區(qū)分的。因此,這將提高目標(biāo)域的目標(biāo)檢測(cè)性能。
為了解決聯(lián)合最小化和最大化問題,作者采用了對(duì)抗學(xué)習(xí)策略。通過在backbone網(wǎng)絡(luò)和DAN網(wǎng)絡(luò)之間使用梯度反轉(zhuǎn)層(GRL)來(lái)實(shí)現(xiàn)這個(gè)矛盾的目標(biāo)。
GRL是一個(gè)雙向算子,用于實(shí)現(xiàn)2個(gè)不同的優(yōu)化目標(biāo)。在前向傳播方向上,GRL作為恒等算子。這導(dǎo)致了在DAN內(nèi)執(zhí)行局部反向傳播時(shí)最小化分類錯(cuò)誤的標(biāo)準(zhǔn)目標(biāo)。另一方面,向主干網(wǎng)絡(luò)反向傳播時(shí),GRL變成一個(gè)負(fù)標(biāo)量。因此,在這種情況下,它會(huì)導(dǎo)致最大的二分類錯(cuò)誤,這種最大化促進(jìn)了由backbone生成領(lǐng)域不變特征。
為了計(jì)算檢測(cè)損失(ldt),只使用源圖像。因此,通過最小化ldt, YOLOv4的所有3個(gè)部分(即backbone, neck和head)都得到了優(yōu)化。另一方面,利用源標(biāo)記圖像和目標(biāo)未標(biāo)記圖像計(jì)算域分類損失(Ldc),Ldc通過最小化來(lái)優(yōu)化DAN, Ldc通過最大化來(lái)優(yōu)化backbone。因此,Ldet和Ldc都被用來(lái)優(yōu)化backbone。換句話說(shuō),通過最小化以下總損失,backbone被優(yōu)化了:

其中是GRL的一個(gè)負(fù)標(biāo)量,用來(lái)平衡檢測(cè)損失和域分類損失。事實(shí)上,是用來(lái)優(yōu)化DAN對(duì)backbone的影響。
2.3 DAN Architecture
與在Domain Adaptive Faster R-CNN架構(gòu)中只對(duì)特征提取器的最終尺度應(yīng)用域自適應(yīng)不同,本文分別開發(fā)了3個(gè)尺度的域自適應(yīng)來(lái)解決梯度消失問題。也就是說(shuō),只對(duì)最終的尺度(F3)進(jìn)行域自適應(yīng),由于之前的尺度(F1和F2)之間有很多層,存在梯度消失的問題,因此對(duì)之前的尺度(F1和F2)沒有顯著影響。
因此,作者采用了一個(gè)多尺度策略,將主干的三個(gè)特征F1、F2和F3通過三個(gè)相應(yīng)的grl連接到DAN,如圖2所示。對(duì)于每個(gè)尺度,GRL之后有2個(gè)卷積層,第1個(gè)卷積層將特征通道減少一半,第2個(gè)卷積層預(yù)測(cè)域類概率。最后,利用域分類器層計(jì)算域分類損失。
3實(shí)驗(yàn)
3.1 Clear=>Foggy

從這些結(jié)果可以看出,將域自適應(yīng)應(yīng)用于所有3個(gè)特征尺度提高了目標(biāo)域的檢測(cè)性能,取得了最好的結(jié)果。此外,作者提出的MS-DAYOLO在性能上大大優(yōu)于原來(lái)的YOLOv4方法,幾乎達(dá)到了理想(oracle)場(chǎng)景的性能。

3.2 Sunny=>Rainy

結(jié)果如表2所示。在2個(gè)數(shù)據(jù)集中,本文的方法都比原始的YOLO得到了明顯的性能提升。
4參考
[1].Multiscale Domain Adaptive YOLO for Cross-Domain Object Detection
5推薦閱讀

Transformer | 沒有Attention的Transformer依然是頂流?。?!

項(xiàng)目實(shí)踐 | 從零開始邊緣部署輕量化人臉檢測(cè)模型——EAIDK310部署篇

項(xiàng)目實(shí)踐 | 從零開始邊緣部署輕量化人臉檢測(cè)模型——訓(xùn)練篇

Google新作 | 詳細(xì)解讀 Transformer那些有趣的特性(建議全文背誦)

極品Trick | 在ResNet與Transformer均適用的Skip Connection解讀
本文論文原文獲取方式,掃描下方二維碼
回復(fù)【MDA-YOLO】即可獲取項(xiàng)目代碼
長(zhǎng)按掃描下方二維碼添加小助手。
可以一起討論遇到的問題
聲明:轉(zhuǎn)載請(qǐng)說(shuō)明出處
掃描下方二維碼關(guān)注【集智書童】公眾號(hào),獲取更多實(shí)踐項(xiàng)目源碼和論文解讀,非常期待你我的相遇,讓我們以夢(mèng)為馬,砥礪前行!

