YOLO in the Dark 窺見黑夜 | 黑夜里的目標(biāo)檢測(cè)
點(diǎn)擊上方“AI算法與圖像處理”,選擇加"星標(biāo)"或“置頂”
重磅干貨,第一時(shí)間送達(dá)

對(duì)于處理新的視覺任務(wù),則需要額外的數(shù)據(jù)集,這需要花費(fèi)大量精力。本文提出了一種域自適應(yīng)的新方法,該方法可以比創(chuàng)建附加數(shù)據(jù)集更輕松地合并多個(gè)模型。該方法使用glue層和生成模型合并了不同領(lǐng)域中的預(yù)訓(xùn)練模型,該模型提供了潛在特征來(lái)訓(xùn)練glue層而無(wú)需其他數(shù)據(jù)集。我們還提出了從預(yù)先訓(xùn)練的模型中通過(guò)知識(shí)蒸餾創(chuàng)建的生成模型。它還允許重用數(shù)據(jù)集來(lái)創(chuàng)建潛在特征以訓(xùn)練膠合層。我們將此方法應(yīng)用于弱光條件下的目標(biāo)檢測(cè)?!癉ark YOLO”包含兩個(gè)模型,“學(xué)習(xí)如何在黑暗中看”和
YOLO。與其它方法相比,“Dark YOLO”花費(fèi)更少的計(jì)算資源。
1、簡(jiǎn)介
在光線弱的情況下進(jìn)行視覺任務(wù)是一個(gè)比較困難的課題。Short-Exposure圖像沒有足夠的特征進(jìn)行視覺處理,而圖像的亮度增強(qiáng)會(huì)引起噪聲進(jìn)而影響視覺任務(wù)。相比之下,Long-Exposure圖像也含有噪聲,由于運(yùn)動(dòng)模糊而影響視覺任務(wù)。
前人一些工作可以總結(jié)為以下三點(diǎn):
1、通過(guò)制作附加數(shù)據(jù)集(比如說(shuō)the See-in-the-Dark dataset)的方式來(lái)緩解這個(gè)問題,讓數(shù)據(jù)集中盡可能的包含多種Exposure情況下的圖像,但是帶來(lái)的弊端就是,需要多余的人力來(lái)解決,同時(shí)不是一個(gè) end to end的模型。2、通過(guò)知識(shí)蒸餾的方式解決這個(gè)問題,相對(duì)于構(gòu)造附加數(shù)據(jù)集的方式而言是個(gè)更好的處理方式; 3、使用無(wú)監(jiān)督學(xué)習(xí)的方式來(lái)學(xué)習(xí) Domain Gap,進(jìn)而學(xué)到Domain Adaption特性,進(jìn)而提升在不同Domain之間的適應(yīng)性,方便Domain的遷移。
2、本文方法
本文主要還是基于前面提到的知識(shí)蒸餾的方法進(jìn)行的設(shè)計(jì),提出了YOLO in the Dark模型。
這里model A從一個(gè)RAW圖片中預(yù)測(cè)一個(gè)RGB圖片,然后model B從RGB圖像中預(yù)測(cè)目標(biāo)的位置和類別,完成model A和B的訓(xùn)練后,以潛在特征A和B的邊界提取模型fragments。new model由model A和B的以潛在特征A和B的邊界提取模型fragments通過(guò)一層粘合層(Glue Layer)組合而成。
Glue Layer層可以將模型fragments中的latent feature A轉(zhuǎn)換為latent feature B。SID模型在低光圖像上有比較好的效果,因此對(duì)model A使用SID模型。還使用目標(biāo)檢測(cè)模型YOLO對(duì)于model B。
2.1、Domain Adaption的生成模型
通過(guò)圖2也可以看出來(lái)訓(xùn)練Gule Layer需要Domain A+B的數(shù)據(jù),然而制作一個(gè)這樣的數(shù)據(jù)集需要很大的功夫,所以作者在這里選擇了知識(shí)蒸餾的方法來(lái)定義一個(gè)生成模型進(jìn)而來(lái)訓(xùn)練Gule Layer

圖3 解釋了知識(shí)蒸餾的方案,其中的生成模型輸出的latent feature A來(lái)自于,SID模型是編解碼的結(jié)構(gòu),因此生成模型可以作為解碼器的映射函數(shù);同時(shí)作為Teacher Model同時(shí)使用來(lái)自SID數(shù)據(jù)集和模型的數(shù)據(jù)樣本對(duì)來(lái)訓(xùn)練Student Model。
使用RGB數(shù)據(jù)和通過(guò)構(gòu)造的偽RGB數(shù)據(jù)訓(xùn)練模型的損失函數(shù)loss為:
同時(shí)在訓(xùn)練的過(guò)程中還定義了Latent Feature(LF) 和LF G1e:
這兩個(gè)損失函數(shù)幫助定義G2e為G1d的逆函數(shù):

(a)是SID網(wǎng)絡(luò)結(jié)構(gòu)(基于UNet)。SID編碼器具有與4層特征相對(duì)應(yīng)的池化scales。
(b)為Gule Laye結(jié)構(gòu)。由pool、cat、Conv和BN組成。pool和cat函數(shù)有助于收集latent feature。Conv和BN幫助Domain B轉(zhuǎn)換一個(gè)新的latent feature。

圖5顯示了使用SID編碼器的潛在特性重新構(gòu)建的RGB圖像。(a)展示了使用所有特性重構(gòu)的圖像。這些圖像的峰值信噪比(PSNR)為31.81,具有結(jié)構(gòu)特征相對(duì)于原始圖像的相似性(SSIM)為0.752。(b)、(c)和(d)為使用較少特征重建的圖像,去除了高空間頻率信息。這些圖象的質(zhì)量比圖象(a)的質(zhì)量差。但是為了檢測(cè)物體,必須識(shí)別出物體的具體形狀,因此文章決定使用所有的Latent Feature用于Gule Layer。
圖 6 可以看出SID模型生成的RGB圖像和組合的RGB圖像時(shí)非常相近的。
同時(shí)為了進(jìn)一步的優(yōu)化G2e模型,文章還使用YOLO的分類輸出特征向量來(lái)優(yōu)化G2e,以提升其轉(zhuǎn)換Domain A->B的性能,具體就是使用余弦相似度來(lái)計(jì)算向量之間的損失,最后通過(guò)反向傳播進(jìn)行更新迭代和優(yōu)化:
2.2、Training environment
圖7(a)顯示了環(huán)境的完整視圖,其中點(diǎn)邊界顯示了用于訓(xùn)練新模型的部分,其中Gule Layer是模型訓(xùn)練的目標(biāo);而訓(xùn)練該模塊使用的RGB圖像數(shù)據(jù)即是G2e編碼器通過(guò)知識(shí)蒸餾的方法得到的。整體的訓(xùn)練環(huán)境還是基于原生的YOLO模型,使用和G2e編碼器一樣的RGB數(shù)據(jù),這里使用的是COCO數(shù)據(jù)集進(jìn)行訓(xùn)練。

在訓(xùn)練期間Gule Layer層會(huì)被多個(gè)損失函數(shù)同時(shí)約束,第一個(gè)損失函數(shù)就是原始YOLO的損失函數(shù);其他的損失函數(shù)都是基于原始YOLO模型的Latent Feature A與YOLO in Dark中的Latent Feature B之間的差異得到:
總的損失函數(shù)為:
其中即為原生YOLO的損失函數(shù)。
圖7(b)顯示了驗(yàn)證期間的數(shù)據(jù)流。驗(yàn)證使用與訓(xùn)練相同的路徑,后者使用RGB數(shù)據(jù)并評(píng)估來(lái)自數(shù)據(jù)集的足夠樣本,以確認(rèn)Gule Layer的行為是正確的。
圖7(c)顯示了預(yù)測(cè)期間的數(shù)據(jù)流。預(yù)測(cè)使用另一條路徑,使用通過(guò)編碼器G1e從SID模型傳輸?shù)脑紨?shù)據(jù)。這一階段是為了評(píng)估所提出的黑暗中模型,該模型將改進(jìn)短曝光原始圖像中的目標(biāo)檢測(cè)。
3、實(shí)驗(yàn)結(jié)果
圖8顯示了SID數(shù)據(jù)集的對(duì)象檢測(cè)結(jié)果。圖8(a)是原始YOLO模型使用亮度增強(qiáng)的RGB圖像得到的檢測(cè)結(jié)果。RGB圖像的亮度增強(qiáng)使得原始YOLO模型更容易檢測(cè)到目標(biāo)。因此原始的YOLO模型可以很好地檢測(cè)圖像中的對(duì)象。但是,該模型無(wú)法檢測(cè)到圖像中的目標(biāo)。這是因?yàn)榱炼仍鰪?qiáng)增加了噪音,影響了模型的推斷。而本文提出的方法可以直接檢測(cè)RAW圖像中的目標(biāo)。檢測(cè)結(jié)果如圖b1和b2所示。圖像c1和c2是標(biāo)簽,標(biāo)簽是通過(guò)原始YOLO模型使用SID ground truth(長(zhǎng)曝光)圖像檢測(cè)得到。在圖像b1中,提出的模型表現(xiàn)得和原始的YOLO模型(圖像a1)一樣好。此外,所提出的模型可以檢測(cè)圖像b2中的目標(biāo)。

References
[1] YOLO in the Dark - Domain Adaptation Method for Merging Multiple Models
下載1:動(dòng)手學(xué)深度學(xué)習(xí)
在「AI算法與圖像處理」公眾號(hào)后臺(tái)回復(fù):動(dòng)手學(xué)深度學(xué)習(xí),即可下載547頁(yè)《動(dòng)手學(xué)深度學(xué)習(xí)》電子書和源碼。該書是面向中文讀者的能運(yùn)行、可討論的深度學(xué)習(xí)教科書,它將文字、公式、圖像、代碼和運(yùn)行結(jié)果結(jié)合在一起。本書將全面介紹深度學(xué)習(xí)從模型構(gòu)造到模型訓(xùn)練,以及它們?cè)谟?jì)算機(jī)視覺和自然語(yǔ)言處理中的應(yīng)用。
個(gè)人微信(如果沒有備注不拉群!) 請(qǐng)注明:地區(qū)+學(xué)校/企業(yè)+研究方向+昵稱

