目標(biāo)檢測(cè)任務(wù)中的訓(xùn)練寶典 |實(shí)用技巧
點(diǎn)擊上方“小白學(xué)視覺(jué)”,選擇加"星標(biāo)"或“置頂”
重磅干貨,第一時(shí)間送達(dá)
本文轉(zhuǎn)自|磐創(chuàng)AI

特約作者 : Slumbers
最近正好在做檢測(cè)項(xiàng)目,相對(duì)于分類任務(wù)而言,檢測(cè)任務(wù)的優(yōu)化策略少之又少,最近閱讀了 @李沐老師 團(tuán)隊(duì)新出的論文Bag of Freebies for Training Object Detection Neural Networks中,提到了一些在不犧牲模型性能的前提下提升目標(biāo)檢測(cè)模型的tricks。
這篇論文我讀完之后覺(jué)得CNN訓(xùn)練分類任務(wù)中可以執(zhí)行的優(yōu)化策略有不少重疊的地方,包括學(xué)習(xí)率熱身、Label smoothing、 Cosine learning rate decay等都是可以在目標(biāo)檢測(cè)中使用的tricks,實(shí)驗(yàn)證明這些在分類上的tricks在目標(biāo)檢測(cè)領(lǐng)域也非常有效。

兩篇論文都提到的一些可以使用的技術(shù): mix up , label smoothing, cosine learning rate, warm up。除此之外,這篇論文還提到了一些單獨(dú)增對(duì)檢測(cè)任務(wù)的tricks如數(shù)據(jù)增量策略,跨卡BN和random shapes traning等。
Mix up最早是用于解決對(duì)抗擾動(dòng)的方法。是數(shù)據(jù)增量(data augmentation)的一種方法,每次隨機(jī)取兩個(gè)樣本點(diǎn)
, 然后按照如下的混合方式生成一個(gè)新的樣本點(diǎn):

, 是從
分布中隨機(jī)生成的。在mixup training中,只使用新的樣本
進(jìn)行訓(xùn)練。

Label Smoothing可以看作是一種正則化方法,對(duì)于ground truth(也就是標(biāo)注數(shù)據(jù))的分布進(jìn)行混合。原始的ground truth 分布記為
,經(jīng)過(guò)label Smoothing處理后的分布為:

其中
是一個(gè)小常量,而
是分類類別。這樣處理可以減少模型對(duì)于標(biāo)簽的過(guò)度信賴,對(duì)于標(biāo)簽不夠精確的情況有較好的效果。
Step lr decay在每次切換學(xué)習(xí)率的時(shí)候容易引起震蕩,cosine lr decay會(huì)更加平滑。具體做法是,假設(shè)batch的總迭代次數(shù)是T(忽略學(xué)習(xí)率熱身階段),初始學(xué)習(xí)率為
,那么在每次 t, 將學(xué)習(xí)率設(shè)為:

這個(gè)lr decay tensorflow和pytorch都是有現(xiàn)成的可用~一行可以搞定(下面列舉的是pytorch版本):
scheduler = CosineAnnealingLR(optimizer, T_max=epoch_num)
訓(xùn)練初期由于離目標(biāo)較遠(yuǎn),一般需要選擇大的學(xué)習(xí)率,但是使用過(guò)大的學(xué)習(xí)率容易導(dǎo)致不穩(wěn)定性。所以可以做一個(gè)學(xué)習(xí)率熱身階段,在開(kāi)始的時(shí)候先使用一個(gè)較小的學(xué)習(xí)率,然后當(dāng)訓(xùn)練過(guò)程穩(wěn)定的時(shí)候再把學(xué)習(xí)率調(diào)回去。比如說(shuō)在熱身階段,將學(xué)習(xí)率從0調(diào)到初始學(xué)習(xí)率。舉個(gè)例子,如果我們準(zhǔn)備用m個(gè)batches來(lái)熱身,準(zhǔn)備的初始學(xué)習(xí)率是
,然后在每個(gè)batch
,將每次的學(xué)習(xí)率設(shè)為 
最近在跑pytorch版本的mask rcnn,warm up雖然在官方pytorch版本中沒(méi)有實(shí)現(xiàn),但是在mask rcnn中已經(jīng)提供實(shí)現(xiàn)啦,可以參見(jiàn):https://github.com/facebookresearch/maskrcnn-benchmark/blob/master/maskrcnn_benchmark/solver/lr_scheduler.py
下面是單獨(dú)對(duì)檢測(cè)任務(wù)可以考慮的一些點(diǎn):
主流的數(shù)據(jù)增量方法包括幾何變化(剪切翻轉(zhuǎn)等)和色彩抖動(dòng)(色彩對(duì)比度等)。對(duì)于目標(biāo)檢測(cè)來(lái)說(shuō),基于faster rcnn這種基于ROI的檢測(cè)方法,因?yàn)楸旧頇z測(cè)的第一階段已經(jīng)生成了許多重復(fù)的候選區(qū)域,所以在數(shù)據(jù)增量時(shí)并不需要再去做幾何變換。(本文末最后的實(shí)驗(yàn)表格也顯示,data augmentation對(duì)于YOLO等單階段檢測(cè)很重要,對(duì)于Faster-RCNN影響不大)
現(xiàn)有的標(biāo)準(zhǔn)BN是基于單GPU的,也就是說(shuō)每個(gè)GPU上的樣本進(jìn)行了歸一化,實(shí)際上的bathc-size變小了。對(duì)于分類任務(wù)而言,影響不大,但對(duì)于檢測(cè)任務(wù)而言會(huì)對(duì)表現(xiàn)造成一定影響。使用Synchroinzed Batch Normalization(也就是垮卡BN)可以解決這個(gè)問(wèn)題。這一點(diǎn)李沐老師在跨卡同步 Batch Normalization 中解釋的很詳細(xì)了。
對(duì)于像YOLO這樣的單階段檢測(cè)器來(lái)說(shuō),為了減小內(nèi)存占用,一般會(huì)使用固定shape的圖片進(jìn)行訓(xùn)練。為了減小過(guò)擬合,可以使用Random shapes training。比如說(shuō),以YOLO例在訓(xùn)練過(guò)程中每隔多少個(gè)epoch就隨機(jī)的{320, 352, 384, 416, 448, 480, 512, 544, 576, 608}中選擇一個(gè)新的圖片分辨率。這個(gè)技術(shù)在YOLO v3中就用過(guò)了。
最后論文中附上了上述tricks的效果~:

好消息,小白學(xué)視覺(jué)團(tuán)隊(duì)的知識(shí)星球開(kāi)通啦,為了感謝大家的支持與厚愛(ài),團(tuán)隊(duì)決定將價(jià)值149元的知識(shí)星球現(xiàn)時(shí)免費(fèi)加入。各位小伙伴們要抓住機(jī)會(huì)哦!

交流群
歡迎加入公眾號(hào)讀者群一起和同行交流,目前有SLAM、三維視覺(jué)、傳感器、自動(dòng)駕駛、計(jì)算攝影、檢測(cè)、分割、識(shí)別、醫(yī)學(xué)影像、GAN、算法競(jìng)賽等微信群(以后會(huì)逐漸細(xì)分),請(qǐng)掃描下面微信號(hào)加群,備注:”昵稱+學(xué)校/公司+研究方向“,例如:”張三 + 上海交大 + 視覺(jué)SLAM“。請(qǐng)按照格式備注,否則不予通過(guò)。添加成功后會(huì)根據(jù)研究方向邀請(qǐng)進(jìn)入相關(guān)微信群。請(qǐng)勿在群內(nèi)發(fā)送廣告,否則會(huì)請(qǐng)出群,謝謝理解~

