DA-YOLO |多域自適應DA-YOLO解讀,惡劣天氣也看得見(附論文)
本文介紹了一種新的多尺度域自適應YOLO(MS-DAYOLO)框架,該框架在YOLOv4檢測器的不同尺度上使用多個域自適應路徑和相應的域分類器來生成域不變特征。
1簡介
Domain Adaptation在解決許多應用中遇到的Domain Shift問題方面發(fā)揮了重要作用。這個問題的出現(xiàn)是由于用于訓練的源數(shù)據的分布與實際測試場景中使用的目標數(shù)據之間存在差異。
本文介紹了一種新的多尺度域自適應YOLO(MS-DAYOLO)框架,該框架在YOLOv4檢測器的不同尺度上使用多個域自適應路徑和相應的域分類器來生成域不變特征。實驗表明,當使用本文提出的MS-DAYOLO訓練YOLOv4時,以及在自動駕駛應用中具有挑戰(zhàn)性的天氣條件的目標數(shù)據上進行測試時,目標檢測性能得到了顯著改善。
2方法
2.1 YOLO V4簡述
相對于YOLO V3,YOLOv4包含了許多新的改進和新技術,以提高整體檢測精度。
如圖所示YOLOv4有3個主要部分:backbone、neck和head。
backbone負責提取不同尺度下的多層特征。
neck使用上采樣層將backbone的3種不同尺度的特征聚集在一起,并將它們輸入head。
最后,head預測目標周圍的邊界框以及與每個邊界框相關聯(lián)的類別概率。
本文作者的目標是將域適應應用于這3個特征(圖中的F1、F2、F3),使它們對不同尺度的域變化具有魯棒性,從而使它們在基于域適應的訓練中向域不變性收斂。
2.2 Domain Adaptive Network for YOLO
提出的域自適應網絡(DAN)僅在訓練時附加到YOLOv4中以學習域不變特征。對于推理,在推理階段,將使用原始的YOLOv4體系結構中使用領域自適應訓練的權重(沒有DAN網絡)。因此,本文所提出的框架不會增加推理過程中底層檢測器的復雜性。
DAN使用backbone的3個不同的尺度特征作為輸入。它有幾個卷積層來預測域類。然后,利用二元交叉熵計算域分類損失(Ldc):
這里 為第 個訓練圖像的ground truth域標簽,其中 為源域, 為目標域。 是第 個訓練圖像在位置 的特征圖。
DAN通過最小化這種上述損失來區(qū)分源域和目標域。另一方面,為了最大限度地學習域不變特征,對主干也進行了優(yōu)化。因此,對于這2個域,backbone的特征應該是難以區(qū)分的。因此,這將提高目標域的目標檢測性能。
為了解決聯(lián)合最小化和最大化問題,作者采用了對抗學習策略。通過在backbone網絡和DAN網絡之間使用梯度反轉層(GRL)來實現(xiàn)這個矛盾的目標。
GRL是一個雙向算子,用于實現(xiàn)2個不同的優(yōu)化目標。在前向傳播方向上,GRL作為恒等算子。這導致了在DAN內執(zhí)行局部反向傳播時最小化分類錯誤的標準目標。另一方面,向主干網絡反向傳播時,GRL變成一個負標量 。因此,在這種情況下,它會導致最大的二分類錯誤,這種最大化促進了由backbone生成領域不變特征。
為了計算檢測損失(ldt),只使用源圖像。因此,通過最小化ldt, YOLOv4的所有3個部分(即backbone, neck和head)都得到了優(yōu)化。另一方面,利用源標記圖像和目標未標記圖像計算域分類損失(Ldc),Ldc通過最小化來優(yōu)化DAN, Ldc通過最大化來優(yōu)化backbone。因此,Ldet和Ldc都被用來優(yōu)化backbone。換句話說,通過最小化以下總損失,backbone被優(yōu)化了:
其中 是GRL的一個負標量,用來平衡檢測損失和域分類損失。事實上, 是用來優(yōu)化DAN對backbone的影響。
2.3 DAN Architecture
與在Domain Adaptive Faster R-CNN架構中只對特征提取器的最終尺度應用域自適應不同,本文分別開發(fā)了3個尺度的域自適應來解決梯度消失問題。也就是說,只對最終的尺度(F3)進行域自適應,由于之前的尺度(F1和F2)之間有很多層,存在梯度消失的問題,因此對之前的尺度(F1和F2)沒有顯著影響。
因此,作者采用了一個多尺度策略,將主干的三個特征F1、F2和F3通過三個相應的grl連接到DAN,如圖2所示。對于每個尺度,GRL之后有2個卷積層,第1個卷積層將特征通道減少一半,第2個卷積層預測域類概率。最后,利用域分類器層計算域分類損失。
3實驗
3.1 Clear=>Foggy
從這些結果可以看出,將域自適應應用于所有3個特征尺度提高了目標域的檢測性能,取得了最好的結果。此外,作者提出的MS-DAYOLO在性能上大大優(yōu)于原來的YOLOv4方法,幾乎達到了理想(oracle)場景的性能。
3.2 Sunny=>Rainy
結果如表2所示。在2個數(shù)據集中,本文的方法都比原始的YOLO得到了明顯的性能提升。
4參考
[1].Multiscale Domain Adaptive YOLO for Cross-Domain Object Detection
5推薦閱讀
Transformer | 沒有Attention的Transformer依然是頂流!??!
項目實踐 | 從零開始邊緣部署輕量化人臉檢測模型——EAIDK310部署篇
項目實踐 | 從零開始邊緣部署輕量化人臉檢測模型——訓練篇
Google新作 | 詳細解讀 Transformer那些有趣的特性(建議全文背誦)
極品Trick | 在ResNet與Transformer均適用的Skip Connection解讀
本文論文原文獲取方式,掃描下方二維碼
回復【MDA-YOLO】即可獲取項目代碼
長按掃描下方二維碼添加小助手。
可以一起討論遇到的問題
聲明:轉載請說明出處
掃描下方二維碼關注【集智書童】公眾號,獲取更多實踐項目源碼和論文解讀,非常期待你我的相遇,讓我們以夢為馬,砥礪前行!
