這篇論文提出了一種域自適應(yīng)的新方法,它能夠輕松合并多個模型,提高處理視覺任務(wù)的效率。

對于處理新的視覺任務(wù),則需要額外的數(shù)據(jù)集,這需要花費大量精力。本文提出了一種域自適應(yīng)的新方法,該方法可以比創(chuàng)建附加數(shù)據(jù)集更輕松地合并多個模型。該方法使用glue層和生成模型合并了不同領(lǐng)域中的預(yù)訓(xùn)練模型,提供了潛在特征來訓(xùn)練glue層而無需其他數(shù)據(jù)集。我們還提出了從預(yù)先訓(xùn)練的模型中通過知識蒸餾創(chuàng)建的生成模型。它還允許重用數(shù)據(jù)集來創(chuàng)建潛在特征以訓(xùn)練膠合層。我們將此方法應(yīng)用于弱光條件下的目標檢測。“Dark YOLO”包含兩個模型,“學(xué)習(xí)如何在黑暗中看”和YOLO。與其它方法相比,“Dark YOLO”花費更少的計算資源。
1、簡介
在光線弱的情況下進行視覺任務(wù)是一個比較困難的課題。Short-Exposure圖像沒有足夠的特征進行視覺處理,而圖像的亮度增強會引起噪聲進而影響視覺任務(wù)。相比之下,Long-Exposure圖像也含有噪聲,由于運動模糊而影響視覺任務(wù)。
1、通過制作附加數(shù)據(jù)集(比如說the See-in-the-Dark dataset)的方式來緩解這個問題,讓數(shù)據(jù)集中盡可能的包含多種Exposure情況下的圖像,但是帶來的弊端就是,需要多余的人力來解決,同時不是一個end to end的模型。2、通過知識蒸餾的方式解決這個問題,相對于構(gòu)造附加數(shù)據(jù)集的方式而言是個更好的處理方式;3、使用無監(jiān)督學(xué)習(xí)的方式來學(xué)習(xí)Domain Gap,進而學(xué)到Domain Adaption特性,進而提升在不同Domain之間的適應(yīng)性,方便Domain的遷移。2、本文方法
本文主要還是基于前面提到的知識蒸餾的方法進行的設(shè)計,提出了YOLO in the Dark模型。
圖2 使用領(lǐng)域適應(yīng)方法融合了在Domain A和Domain B訓(xùn)練的2個模型這里model A從一個RAW圖片中預(yù)測一個RGB圖片,然后model B從RGB圖像中預(yù)測目標的位置和類別,完成model A和B的訓(xùn)練后,以潛在特征A和B的邊界提取模型fragments。new model由model A和B的以潛在特征A和B的邊界提取模型fragments通過一層粘合層(Glue Layer)組合而成。Glue Layer層可以將模型fragments中的latent feature A轉(zhuǎn)換為latent feature B。SID模型在低光圖像上有比較好的效果,因此對model A使用SID模型。還使用目標檢測模型YOLO對于model B。2.1 Domain Adaption的生成模型
通過圖2也可以看出來訓(xùn)練Gule Layer需要Domain A+B的數(shù)據(jù),然而制作一個這樣的數(shù)據(jù)集需要很大的功夫,所以作者在這里選擇了知識蒸餾的方法來定義一個生成模型進而來訓(xùn)練Gule Layer圖3 知識蒸餾方案.紅色模塊G2e是Student Model圖3 解釋了知識蒸餾的方案,其中的生成模型輸出的latent feature A來自于,SID模型是編解碼的結(jié)構(gòu),因此生成模型可以作為解碼器的映射函數(shù);同時作為Teacher Model同時使用來自SID數(shù)據(jù)集和模型的數(shù)據(jù)樣本對來訓(xùn)練Student Model。
使用RGB數(shù)據(jù)和通過構(gòu)造的偽RGB數(shù)據(jù)訓(xùn)練模型的損失函數(shù)loss為:
同時在訓(xùn)練的過程中還定義了Latent Feature(LF)?和LF G1e:
這兩個損失函數(shù)幫助定義G2e為G1d的逆函數(shù):
圖4 顯示了Gule Laye的Latent Feature SID編碼器(a)是SID網(wǎng)絡(luò)結(jié)構(gòu)(基于UNet)。SID編碼器具有與4層特征相對應(yīng)的池化scales。(b)為Gule Laye結(jié)構(gòu)。由pool、cat、Conv和BN組成。pool和cat函數(shù)有助于收集latent feature。Conv和BN幫助Domain B轉(zhuǎn)換一個新的latent feature。圖5 顯示了使用SID編碼器的潛在特性重新構(gòu)建的RGB圖像。(a)展示了使用所有特性重構(gòu)的圖像。這些圖像的峰值信噪比(PSNR)為31.81,具有結(jié)構(gòu)特征相對于原始圖像的相似性(SSIM)為0.752。(b)、(c)和(d)為使用較少特征重建的圖像,去除了高空間頻率信息。這些圖象的質(zhì)量比圖象(a)的質(zhì)量差。但是為了檢測物體,必須識別出物體的具體形狀,因此文章決定使用所有的Latent Feature用于Gule Layer。
圖 6 可以看出SID模型生成的RGB圖像和組合的RGB圖像時非常相近的。同時為了進一步的優(yōu)化G2e模型,文章還使用YOLO的分類輸出特征向量來優(yōu)化G2e,以提升其轉(zhuǎn)換Domain A->B的性能,具體就是使用余弦相似度來計算向量之間的損失,最后通過反向傳播進行更新迭代和優(yōu)化:
2.2 Training environment
圖7(a)顯示了環(huán)境的完整視圖,其中點邊界顯示了用于訓(xùn)練新模型的部分,其中Gule Layer是模型訓(xùn)練的目標;而訓(xùn)練該模塊使用的RGB圖像數(shù)據(jù)即是G2e編碼器通過知識蒸餾的方法得到的。整體的訓(xùn)練環(huán)境還是基于原生的YOLO模型,使用和G2e編碼器一樣的RGB數(shù)據(jù),這里使用的是COCO數(shù)據(jù)集進行訓(xùn)練。在訓(xùn)練期間Gule Layer層會被多個損失函數(shù)同時約束,第一個損失函數(shù)就是原始YOLO的損失函數(shù);其他的損失函數(shù)都是基于原始YOLO模型的Latent Feature A與YOLO in Dark中的Latent Feature B之間的差異得到:

圖7(b)顯示了驗證期間的數(shù)據(jù)流。驗證使用與訓(xùn)練相同的路徑,后者使用RGB數(shù)據(jù)并評估來自數(shù)據(jù)集的足夠樣本,以確認Gule Layer的行為是正確的。圖7(c)顯示了預(yù)測期間的數(shù)據(jù)流。預(yù)測使用另一條路徑,使用通過編碼器G1e從SID模型傳輸?shù)脑紨?shù)據(jù)。這一階段是為了評估所提出的黑暗中模型,該模型將改進短曝光原始圖像中的目標檢測。3、實驗結(jié)果
圖8顯示了SID數(shù)據(jù)集的對象檢測結(jié)果。圖8(a)是原始YOLO模型使用亮度增強的RGB圖像得到的檢測結(jié)果。RGB圖像的亮度增強使得原始YOLO模型更容易檢測到目標。因此原始的YOLO模型可以很好地檢測圖像中的對象。但是,該模型無法檢測到圖像中的目標。這是因為亮度增強增加了噪音,影響了模型的推斷。而本文提出的方法可以直接檢測RAW圖像中的目標。檢測結(jié)果如圖b1和b2所示。圖像c1和c2是標簽,標簽是通過原始YOLO模型使用SID ground truth(長曝光)圖像檢測得到。在圖像b1中,提出的模型表現(xiàn)得和原始的YOLO模型(圖像a1)一樣好。此外,所提出的模型可以檢測圖像b2中的目標。
References
YOLO in the Dark - Domain Adaptation Method for Merging Multiple Models
推薦閱讀
添加極市小助手微信(ID : cvmart2),備注:姓名-學(xué)校/公司-目標檢測-城市(如:小極-北大-目標檢測-深圳),即可申請加入極市目標檢測等技術(shù)交流群:每月大咖直播分享、真實項目需求對接、求職內(nèi)推、算法競賽、干貨資訊匯總、與?10000+來自港科大、北大、清華、中科院、CMU、騰訊、百度等名校名企視覺開發(fā)者互動交流~
覺得有用麻煩給個在看啦~??