目標檢測最少訓(xùn)練數(shù)據(jù)量及類別不平衡的實戰(zhàn)研究
點擊下方“AI算法與圖像處理”,一起進步!
重磅干貨,第一時間送達
作者:Changsin Lee
編輯:Happy
鏈接:Changsin Lee@Medium
導(dǎo)讀
?本文采用Yolov5進行測試,從實驗中得出訓(xùn)練時所需圖像數(shù)據(jù)的最少數(shù)據(jù)量,數(shù)據(jù)不平衡問題的解決方式,以及模型更新的最優(yōu)方法。
達成最大性能增益的最小數(shù)據(jù)集是多大? 如何處理類別不平衡問題? 采用新數(shù)據(jù)更新預(yù)訓(xùn)練模型的最佳姿勢是哪個?

1YOLOv5

2Korean Sidewalk

類別不平衡:該數(shù)據(jù)集存在嚴重類別不平衡問題,top5占據(jù)了70%左右,top15占據(jù)了90+%,最常見的類別car在整個數(shù)據(jù)集中的比例高達24%(可參考上圖)。 同一圖像存在多實例:在每個圖像中,存在多個同類別目標。比如,每個圖像中包含3-4個car目標(這個很容易理解,因為數(shù)據(jù)就是人行道拍攝圖像)。 De-identified:人行道圖像包含一些私人信息,如人臉、車牌。為保護信息,這個帶有私人信息的圖像在標注與發(fā)布之前進行了特殊處理,可參考下圖的車牌。

3Minimum Dataset Size
Top5:car、person、tree、pole、bollard Top10:traffic_sign、traffic_light、truck、moveable_ginage、potted_plant Top15:motor_cycle、bicycle、bus、chair、bench

Top5的性能拐點在300左右,這是因為每個圖像中有多個實例; 150-500看起來是影響檢測性能的一個比較可靠的拐點; Top15的性能同樣服從類似的趨勢,但因為存在低頻目標導(dǎo)致拐點更出現(xiàn)的更晚。
4Countering the Class Imbalance



5How to Update the Model
僅使用新數(shù)據(jù); 采用新+舊數(shù)據(jù)組合。


6Conclusion
用于訓(xùn)練的最少圖像數(shù)據(jù)量在150-500; 采用過采樣與欠采樣補償類別不平衡問題,但需要對重平衡的數(shù)據(jù)分布非常謹慎; 模型的更新建議在新+舊組合數(shù)據(jù)集上進行遷移學(xué)習(xí)。
交流群
歡迎加入公眾號讀者群一起和同行交流,目前有美顏、三維視覺、計算攝影、檢測、分割、識別、NeRF、GAN、算法競賽等微信群
個人微信(如果沒有備注不拉群!) 請注明:地區(qū)+學(xué)校/企業(yè)+研究方向+昵稱
下載1:何愷明頂會分享
在「AI算法與圖像處理」公眾號后臺回復(fù):何愷明,即可下載。總共有6份PDF,涉及 ResNet、Mask RCNN等經(jīng)典工作的總結(jié)分析
下載2:終身受益的編程指南:Google編程風(fēng)格指南
在「AI算法與圖像處理」公眾號后臺回復(fù):c++,即可下載。歷經(jīng)十年考驗,最權(quán)威的編程規(guī)范!
下載3 CVPR2021 在「AI算法與圖像處理」公眾號后臺回復(fù):CVPR,即可下載1467篇CVPR?2020論文 和 CVPR 2021 最新論文

評論
圖片
表情
