利用yolov5實現(xiàn)口罩佩戴檢測算法
首先申明,這篇博客是用于記錄我第一次完全從頭到尾跑通一個算法,我會在此博客詳細寫出我的具體過程,以供大家參考,可能會和炮哥博客有些重合,沒辦法畢竟我就是用他的博客來訓練模型的。但這篇博客我會結合炮哥的博客和我自己訓練過程中的一些問題和心得來寫,所以還是會有所不的?。?!博主其實也是個深度學習的小菜鳥hhh。在此感謝。
一、必要的環(huán)境依賴和項目克隆
1.1環(huán)境的安裝
這塊主要是深度學習的環(huán)境安裝,說實話我覺得這塊也挺麻煩,我有時候一弄就是兩三天,總會出現(xiàn)奇奇怪怪的問題,在這我推薦一篇,個人覺得已經(jīng)寫的非常詳細了。不過里面的paddlepaddle我并沒有安裝,我沒有用到,大家可以自己選擇是否安裝。這里我重新創(chuàng)建了一個yolov5的環(huán)境用來跑算法。
這里博主感嘆下,不同環(huán)境可以裝不同版本cuda,之前博主反反復復在自己系統(tǒng)安裝不同版本的cuda,搞了我三四天都不行,真的暈了。最后發(fā)現(xiàn)原來可以這樣,這么方便?。?!
1.2項目的克隆
首先去github的官網(wǎng)(這是國外的網(wǎng)站,有時候進的去有時候進不去,多試幾次)界面如下
點擊code,將整個代碼下載下來
1.3項目整體介紹
將下載的壓縮包解壓,用pycharm打開
注:這塊我是參考炮哥的,畢竟我對yolov5的結構和原理并不是非常清楚,只是有所了解。 現(xiàn)在來對代碼的整體目錄做一個介紹:
├── data:主要是存放一些超參數(shù)的配置文件(這些文件(yaml文件)是用來配置訓練集和測試集還有驗證集的路徑的,其中還包括目標檢測的種類數(shù)和種類的名稱);還有一些官方提供測試的圖片。如果是訓練自己的數(shù)據(jù)集的話,那么就需要修改其中的yaml文件。但是自己的數(shù)據(jù)集不建議放在這個路徑下面,而是建議把數(shù)據(jù)集放到y(tǒng)olov5項目的同級目錄下面。
├── models:里面主要是一些網(wǎng)絡構建的配置文件和函數(shù),其中包含了該項目的四個不同的版本,分別為是s、m、l、x。從名字就可以看出,這幾個版本的大小。他們的檢測測度分別都是從快到慢,但是精確度分別是從低到高。這就是所謂的魚和熊掌不可兼得。如果訓練自己的數(shù)據(jù)集的話,就需要修改這里面相對應的yaml文件來訓練自己模型。
├── utils:存放的是工具類的函數(shù),里面有l(wèi)oss函數(shù),metrics函數(shù),plots函數(shù)等等。
├── weights:放置訓練好的權重參數(shù)。
├── detect.py:利用訓練好的權重參數(shù)進行目標檢測,可以進行圖像、視頻和攝像頭的檢測。
├── train.py:訓練自己的數(shù)據(jù)集的函數(shù)。
├── test.py:測試訓練的結果的函數(shù)。
├──requirements.txt:這是一個文本文件,里面寫著使用yolov5項目的環(huán)境依賴包的一些版本,可以利用該文本導入相應版本的包。
以上就是yolov5項目代碼的整體介紹。我們訓練和測試自己的數(shù)據(jù)集基本就是利用到如上的代碼。
1.4依賴包的下載
打開requirements.txt 可以看到里面有很多需要包的版本,而這你只需在終端運行pip install -r requirements.txt命令即可
而這大概大多包都沒問題,有些人可能會在裝pycocotools>=2.0這個包有問題,這里博主采用的是安裝visual studio C++ build tools (這好像也能解決Microsoft Visual C++ 14.0 is required的報錯問題),再在(項目的環(huán)境下,我這里是yolov5)終端pip install pycocotools 就安裝成功了。附上一位大好人給的安裝包,多虧了他讓我把這個包拿下!鏈接:https://pan.baidu.com/s/1GKjbxs9_y-Z4nkGGWsKqPA 提取碼:1ors 安裝很簡單,解壓后是一個iso文件雙擊,進去后點exe安裝就ok了
注:這是我的方法,我不保證大家都能利用這個解決
到這,深度學習所需的環(huán)境和依賴包就準備好了。
二、數(shù)據(jù)集和預訓練權重的準備
2.1數(shù)據(jù)集的準備
如果你有圖片準備自己打標簽的話可以利用labelimg來制作自己的數(shù)據(jù)集,這里推薦炮哥又一篇博客,
在這附上博主用的口罩數(shù)據(jù)集鏈接:https://pan.baidu.com/s/1Gud8jemSCdjG00TYA74WpQ 提取碼:sv74 這里的lables是已經(jīng)是txt(yolo的訓練標簽就是txt),而一般的標簽都是xml格式。標簽:0:no-mask,1:mask 注:這里大概8000張圖片,包含戴口罩和不戴口罩的,我從里面抽了2000張,不抽多的原因是博主的顯卡不行(GTX1050),所以就只用了1/4的數(shù)據(jù)。
2.2將數(shù)據(jù)集劃分為訓練集和驗證集
這呢,推薦大家去看炮哥的這篇博客, 這里因為博主用的數(shù)據(jù)集因為標簽已經(jīng)是txt格式了,但我先將txt轉(zhuǎn)xml格式,再用代碼直接將xml格式轉(zhuǎn)為yolo(txt)格式并劃分訓練集和測試集。(這里不直接用txt的格式直接劃分,炮哥是這樣解釋的,txt劃分后放入訓練會出錯) 簡單的說就是先用炮哥博客里的2代碼將txt轉(zhuǎn)為xml,如下圖:
再利用1的代碼
其實炮哥的博客講的已經(jīng)非常詳細了,只要格式放的沒問題就能得到這樣的劃分結果如下圖所示:
其中多的兩個文件(train.cache,val.cache)是因為博主已經(jīng)訓練完畢多的。劃分結束后將VOCdevkit整個文件夾放到y(tǒng)olov5的代碼中
注意: 這里如果在轉(zhuǎn)換yolo格式(txt)到VOC格式(xml)時出現(xiàn) KeyError: 'None’的報錯,但一部分的txt文件已經(jīng)轉(zhuǎn)換成xml,這時候只需將下一個待轉(zhuǎn)換圖片和txt(對應的標簽)刪除即可。(估計是文件有問題,刪除后就可以將后面的全部轉(zhuǎn)換了)
2.3獲得預訓練權重
為什么要用預訓練權重呢,一般是為了縮短網(wǎng)絡的訓練時間,達到更好的精度。而yolov5的5.0版本給我們提供了幾個預訓練權重,我們可以對應我們不同的需求選擇不同的版本的預訓練權重。通過如下的圖可以獲得權重的名字和大小信息,可以預料的到,預訓練權重越大,訓練出來的精度就會相對來說越高,但是其檢測的速度就會越慢。預訓練權重可以通過github進行下載,,點進去后往下拉就能找到。本次訓練自己的口罩數(shù)據(jù)集用的預訓練權重為yolov5s.pt。
將下載的權重放到文件夾weights下
到此數(shù)據(jù)集和權重就已經(jīng)準備好了接下來就可以準備開始訓練自己的yolov5口罩檢測模型了。
三、訓練口罩檢測模型
3.1相關文件的配置
在開始訓練前還需要對項目里的相關文件進行修改,一個是數(shù)據(jù)配置文件,另一個是模型配置文件 首先是數(shù)據(jù)配置文件,在data下找到voc.yaml,將其復制一份再重命名為mask.yaml
將mask.yaml文件里的4個箭頭出進行修改,對第一個箭頭指向的代碼加注釋(這里已經(jīng)注釋),按炮哥說的,不注釋的話訓練時候會報錯。箭頭2中需要將之前劃分好的訓練集和測試集的路徑填上。第三個箭頭填寫需要檢測的類別數(shù),因為數(shù)據(jù)集的標簽是no-mask和mask。所以這里填兩類。第四個箭頭中填寫類別的名稱,就用標簽的名稱(no-mask和mask)。這樣這個yaml文件就改好了。
接下來改模型的配置文件,因為該項目使用的yolov5s.pt這個權重,所以使用models下的yolov5s.yaml(不同的預訓練權重對應不同的網(wǎng)絡層數(shù),用錯會報錯)。同理復制yolov5.yaml為mask.yaml,打開文件進行參數(shù)修改
這里只要修改識別的類別數(shù)即可,為兩類
到這里文件的配置就已經(jīng)好了
3.2準備訓練模型
找到train.py文件
找到main函數(shù)入口,修改幾個參數(shù),模型的主要參數(shù)解析參考炮哥。
if __name__ == '__main__':
"""
opt模型主要參數(shù)解析:
--weights:初始化的權重文件的路徑地址
--cfg:模型yaml文件的路徑地址
--data:數(shù)據(jù)yaml文件的路徑地址
--hyp:超參數(shù)文件路徑地址
--epochs:訓練輪次
--batch-size:喂入批次文件的多少
--img-size:輸入圖片尺寸
--rect:是否采用矩形訓練,默認False
--resume:接著打斷訓練上次的結果接著訓練
--nosave:不保存模型,默認False
--notest:不進行test,默認False
--noautoanchor:不自動調(diào)整anchor,默認False
--evolve:是否進行超參數(shù)進化,默認False
--bucket:谷歌云盤bucket,一般不會用到
--cache-images:是否提前緩存圖片到內(nèi)存,以加快訓練速度,默認False
--image-weights:使用加權圖像選擇進行訓練
--device:訓練的設備,cpu;0(表示一個gpu設備cuda:0);0,1,2,3(多個gpu設備)
--multi-scale:是否進行多尺度訓練,默認False
--single-cls:數(shù)據(jù)集是否只有一個類別,默認False
--adam:是否使用adam優(yōu)化器
--sync-bn:是否使用跨卡同步BN,在DDP模式使用
--local_rank:DDP參數(shù),請勿修改
--workers:最大工作核心數(shù)
--project:訓練模型的保存位置
--name:模型保存的目錄名稱
--exist-ok:模型目錄是否存在,不存在就創(chuàng)建
"""
parser = argparse.ArgumentParser()
parser.add_argument('--weights', type=str, default='yolov5s.pt', help='initial weights path')
parser.add_argument('--cfg', type=str, default='', help='model.yaml path')
parser.add_argument('--data', type=str, default='data/coco128.yaml', help='data.yaml path')
parser.add_argument('--hyp', type=str, default='data/hyp.scratch.yaml', help='hyperparameters path')
parser.add_argument('--epochs', type=int, default=300)
parser.add_argument('--batch-size', type=int, default=16, help='total batch size for all GPUs')
parser.add_argument('--img-size', nargs='+', type=int, default=[640, 640], help='[train, test] image sizes')
parser.add_argument('--rect', action='store_true', help='rectangular training')
parser.add_argument('--resume', nargs='?', const=True, default=False, help='resume most recent training')
parser.add_argument('--nosave', action='store_true', help='only save final checkpoint')
parser.add_argument('--notest', action='store_true', help='only test final epoch')
parser.add_argument('--noautoanchor', action='store_true', help='disable autoanchor check')
parser.add_argument('--evolve', action='store_true', help='evolve hyperparameters')
parser.add_argument('--bucket', type=str, default='', help='gsutil bucket')
parser.add_argument('--cache-images', action='store_true', help='cache images for faster training')
parser.add_argument('--image-weights', action='store_true', help='use weighted image selection for training')
parser.add_argument('--device', default='', help='cuda device, i.e. 0 or 0,1,2,3 or cpu')
parser.add_argument('--multi-scale', action='store_true', help='vary img-size +/- 50%%')
parser.add_argument('--single-cls', action='store_true', help='train multi-class data as single-class')
parser.add_argument('--adam', action='store_true', help='use torch.optim.Adam() optimizer')
parser.add_argument('--sync-bn', action='store_true', help='use SyncBatchNorm, only available in DDP mode')
parser.add_argument('--local_rank', type=int, default=-1, help='DDP parameter, do not modify')
parser.add_argument('--workers', type=int, default=8, help='maximum number of dataloader workers')
parser.add_argument('--project', default='runs/train', help='save to project/name')
parser.add_argument('--entity', default=None, help='W&B entity')
parser.add_argument('--name', default='exp', help='save to project/name')
parser.add_argument('--exist-ok', action='store_true', help='existing project/name ok, do not increment')
parser.add_argument('--quad', action='store_true', help='quad dataloader')
parser.add_argument('--linear-lr', action='store_true', help='linear LR')
parser.add_argument('--label-smoothing', type=float, default=0.0, help='Label smoothing epsilon')
parser.add_argument('--upload_dataset', action='store_true', help='Upload dataset as W&B artifact table')
parser.add_argument('--bbox_interval', type=int, default=-1, help='Set bounding-box image logging interval for W&B')
parser.add_argument('--save_period', type=int, default=-1, help='Log model after every "save_period" epoch')
parser.add_argument('--artifact_alias', type=str, default="latest", help='version of dataset artifact to be used')
opt = parser.parse_args()
將yolov5s.pt的權重的相對路徑放在這
這里路徑只需選中文件右擊,再點擊復制路徑即可
點擊圖中藍色復制得到相對路徑
這里將之前改的models下的mask.yaml路徑放入
這里放data下的mask.yaml
這兩個參數(shù)大家根據(jù)自己電腦的配置修改,第一個epochs是訓練次數(shù),我這只訓練200次,第二個batch-size是每次輸入圖片的數(shù)量,我這只能選4,多了就會報CUDA out of memory的錯誤。
還有就是CPU的工作核心,我的cpu是4核所以這里改為4
上面都設置好后就可以訓練了,但根據(jù)炮哥博客,pycharm的用戶會出現(xiàn)下面的報錯。這里給上炮哥的解決方法
在utils路徑下找到datasets.py這個文件,將里面的81行里面的參數(shù)num_workers改成0
這里運行train.py文件估計還會報一個錯
這里少了SPPF類,需要到github下載yolov5-6.0,打開文件找到models文件下的common.py,到里面復制SPPF類,并將這段代碼(這里我已經(jīng)放在下面了)復制到自己項目文件的models/common.py里去,具體位置應該沒要求,我放在了149的SPP類之后。
class SPPF(nn.Module):
# Spatial Pyramid Pooling - Fast (SPPF) layer for YOLOv5 by Glenn Jocher
def __init__(self, c1, c2, k=5): # equivalent to SPP(k=(5, 9, 13))
super().__init__()
c_ = c1 // 2 # hidden channels
self.cv1 = Conv(c1, c_, 1, 1)
self.cv2 = Conv(c_ * 4, c2, 1, 1)
self.m = nn.MaxPool2d(kernel_size=k, stride=1, padding=k // 2)
def forward(self, x):
x = self.cv1(x)
with warnings.catch_warnings():
warnings.simplefilter('ignore') # suppress torch 1.9.0 max_pool2d() warning
y1 = self.m(x)
y2 = self.m(y1)
return self.cv2(torch.cat([x, y1, y2, self.m(y2)], 1))
到這里,就可以運行train.py文件開始訓練自己的模型了。博主當時改到這,生怕報別的錯,最后開始訓練了,深深呼出了一口氣!開始訓練后是這樣的
訓練結束,2000張圖片,200輪共耗時12h!
3.3啟用tensorbord查看訓練結果
訓練結束后在終端輸入如下命令
tensorboard --logdir=runs
復制網(wǎng)址在瀏覽器打開就可以看到了,可以看到博主的口罩檢測模型訓練結果還行
四、推理測試
訓練結束后,會產(chǎn)生一個runs的文件夾,在runs/train/exp3/weights會產(chǎn)生兩個權重文件,這里exp3的原因是因為博主前面兩次訓練失敗了,如果大家一次就訓練成功應該是exp的文件夾下。其中best.pt(最好的權重),last.pt(是最后一輪的權重),我們推理利用最好的權重(best.pt)。
找到目錄下的detect.py文件并打開
同樣的找到main函數(shù),這里有模型的主要參數(shù)。模型的主要參數(shù)解析同樣參考的炮哥hh
f __name__ == '__main__':
"""
--weights:權重的路徑地址
--source:測試數(shù)據(jù),可以是圖片/視頻路徑,也可以是'0'(電腦自帶攝像頭),也可以是rtsp等視頻流
--output:網(wǎng)絡預測之后的圖片/視頻的保存路徑
--img-size:網(wǎng)絡輸入圖片大小
--conf-thres:置信度閾值
--iou-thres:做nms的iou閾值
--device:是用GPU還是CPU做推理
--view-img:是否展示預測之后的圖片/視頻,默認False
--save-txt:是否將預測的框坐標以txt文件形式保存,默認False
--classes:設置只保留某一部分類別,形如0或者0 2 3
--agnostic-nms:進行nms是否也去除不同類別之間的框,默認False
--augment:推理的時候進行多尺度,翻轉(zhuǎn)等操作(TTA)推理
--update:如果為True,則對所有模型進行strip_optimizer操作,去除pt文件中的優(yōu)化器等信息,默認為False
--project:推理的結果保存在runs/detect目錄下
--name:結果保存的文件夾名稱
"""
parser = argparse.ArgumentParser()
parser.add_argument('--weights', nargs='+', type=str, default='yolov5s.pt', help='model.pt path(s)')
parser.add_argument('--source', type=str, default='data/images', help='source') # file/folder, 0 for webcam
parser.add_argument('--img-size', type=int, default=640, help='inference size (pixels)')
parser.add_argument('--conf-thres', type=float, default=0.25, help='object confidence threshold')
parser.add_argument('--iou-thres', type=float, default=0.45, help='IOU threshold for NMS')
parser.add_argument('--device', default='', help='cuda device, i.e. 0 or 0,1,2,3 or cpu')
parser.add_argument('--view-img', action='store_true', help='display results')
parser.add_argument('--save-txt', action='store_true', help='save results to *.txt')
parser.add_argument('--save-conf', action='store_true', help='save confidences in --save-txt labels')
parser.add_argument('--nosave', action='store_true', help='do not save images/videos')
parser.add_argument('--classes', nargs='+', type=int, help='filter by class: --class 0, or --class 0 2 3')
parser.add_argument('--agnostic-nms', action='store_true', help='class-agnostic NMS')
parser.add_argument('--augment', action='store_true', help='augmented inference')
parser.add_argument('--update', action='store_true', help='update all models')
parser.add_argument('--project', default='runs/detect', help='save results to project/name')
parser.add_argument('--name', default='exp', help='save results to project/name')
parser.add_argument('--exist-ok', action='store_true', help='existing project/name ok, do not increment')
opt = parser.parse_args()
在這里將best.pt(最好的權重)的路徑輸入
4.1對圖片視頻測試
在這里輸入對所需測試的圖片的路徑,然后運行detect.py
就會在runs/detect/exp下顯示結果
這是原圖
這是結果圖,可以看到效果還是不錯的
這里是沒戴口罩的,可以看到檢測時間很快0.238s
對視頻的測試就是將圖片的路徑換成視頻的路徑而已。
4.2用攝像頭測試
要利用攝像頭測試只需將路徑改寫成0即可。
這里根據(jù)炮哥的博客會報錯還需要對utils下的datasets.py文件進行修改
找到第279行,將兩個url加上str()
攝像頭的效果圖就是這樣,摘下口罩會顯示no-mask
最后
這篇博客大概寫了4,5天吧,差不多把基本的細節(jié)都寫了,說實話如果大家能掌握這一套流程,基本以后想要訓練其他關于分類的模型,其實都差不多,像炮哥給的安全帽,或者其他一些更多的類別之類。都能上手操作。
鏈接:https://pan.baidu.com/s/1r0IoJLtMZIodQoRcIxmNwA 提取碼:zuu2


Python“寶藏級”公眾號【Python之王】專注于Python領域,會爬蟲,數(shù)分,C++,tensorflow和Pytorch等等。
近 2年共原創(chuàng) 100+ 篇技術文章。創(chuàng)作的精品文章系列有:
日常收集整理了一批不錯的 Python 學習資料,有需要的小伙可以自行免費領取。
獲取方式如下:公眾號回復資料。領取Python等系列筆記,項目,書籍,直接套上模板就可以用了。資料包含算法、python、算法小抄、力扣刷題手冊和 C++ 等學習資料!
