【文獻(xiàn)閱讀筆記】圖像識(shí)別與分類(lèi)
圖像識(shí)別是利用計(jì)算機(jī)對(duì)圖像進(jìn)行處理、分析和理解,以識(shí)別各種不同模式的目標(biāo)和對(duì)象的技術(shù),是應(yīng)用深度學(xué)習(xí)算法的一種實(shí)踐應(yīng)用。圖像分類(lèi)是根據(jù)圖像的語(yǔ)義信息對(duì)不同類(lèi)別圖像進(jìn)行區(qū)分,是計(jì)算機(jī)視覺(jué)的核心,是物體檢測(cè)、圖像分割、物體跟蹤、行為分析、人臉識(shí)別等其他高層次視覺(jué)任務(wù)的基礎(chǔ)。圖像識(shí)別與分類(lèi)在許多領(lǐng)域都有著廣泛的應(yīng)用。
一、垃圾圖像識(shí)別及分類(lèi)
研究背景:垃圾分類(lèi)可以實(shí)現(xiàn)資源的回收利用,是解決垃圾處理問(wèn)題的有效方式。傳統(tǒng)的手工垃圾分揀的效率低、成本高,因此,如何將垃圾自動(dòng)按類(lèi)處理具有重要的研究意義。
[1].Engineering; Study Results from Ho Chi Minh City University of Technology Hutech Update Understanding of Engineering (A Novel Framework for Trash Classification Using Deep Transfer Learning)[J].Journal of Engineering,2020.
數(shù)據(jù)來(lái)源:TrashNet數(shù)據(jù)集和自制越南垃圾數(shù)據(jù)集(VN-trash dataset),該數(shù)據(jù)集由來(lái)自越南的有機(jī)、無(wú)機(jī)和醫(yī)療廢物三個(gè)不同類(lèi)別的5904幅圖像組成。
數(shù)據(jù)處理方法:選擇ResNext架構(gòu)作為應(yīng)用遷移學(xué)習(xí)的基礎(chǔ)模型,修改了原始ResNext-101模型,在全局平均池層之后添加了兩個(gè)完全連接的層。輸入圖像的被歸一化為0和1之間的值。在訓(xùn)練和測(cè)試階段,通過(guò)水平翻轉(zhuǎn)和隨機(jī)裁剪方式,進(jìn)行數(shù)據(jù)增強(qiáng)處理生成更多的圖像。在訓(xùn)練階段,為每個(gè)特定的廢物類(lèi)別呈現(xiàn)的輸入圖像被輸入到我們建議的體系結(jié)構(gòu)中。在最后一層,選用softmax函數(shù)的對(duì)數(shù)作為分類(lèi)器,Adam作為優(yōu)化器。在TrashNet數(shù)據(jù)集和VN-trash數(shù)據(jù)集60%的圖像作為訓(xùn)練集,20%作為驗(yàn)證集,20%作為測(cè)試集。選擇Desenet121_Aral、RecycleNet和ResNet_Ruiz模型作為對(duì)比試驗(yàn),驗(yàn)證所設(shè)計(jì)模型的有效性。
研究結(jié)論:DNN垃圾分類(lèi)器在垃圾網(wǎng)和虛擬垃圾數(shù)據(jù)集上的準(zhǔn)確率分別為94%和98%,在這兩個(gè)實(shí)驗(yàn)數(shù)據(jù)集上均優(yōu)于現(xiàn)有的垃圾分類(lèi)方法。
與同類(lèi)研究相比優(yōu)缺點(diǎn):提供了兩個(gè)實(shí)驗(yàn)數(shù)據(jù)集,一個(gè)基于公開(kāi)數(shù)據(jù)集,一個(gè)自制數(shù)據(jù)集,使模型訓(xùn)練更具泛化性。但是對(duì)圖像的分割并沒(méi)有針對(duì)性,圖像背景比較平衡,未考慮不平衡背景下的圖像分類(lèi)。
文獻(xiàn)閱讀價(jià)值:開(kāi)發(fā)了用于垃圾分類(lèi)的深度神經(jīng)網(wǎng)絡(luò)模型DNN-TC,對(duì)ResNext模型的改進(jìn),提高了預(yù)測(cè)性能。
[2]Bobulski Janusz, Kubanek Mariusz, Yang Miin-Shen. Deep Learning for Plastic Waste Classification System[J].Applied Computational Intelligence and Soft Computing,2021,2021.
數(shù)據(jù)來(lái)源:WaDaBa數(shù)據(jù)集,包括聚酯(PET)、聚乙烯(PE-HD)、聚苯乙烯(PS)、聚丙烯(PP)四類(lèi)垃圾圖像。
數(shù)據(jù)處理方法:對(duì)PET圖像旋轉(zhuǎn)24°、PE-HD圖像旋轉(zhuǎn)6°、PS圖像旋轉(zhuǎn)5°、PP圖像旋轉(zhuǎn)7°對(duì)圖像進(jìn)行增強(qiáng),獲得33000張PET圖像,36000張PE-HD圖像、37440張PS圖像,3380張PP圖像。對(duì)圖像進(jìn)行分割,得到尺寸為120×120和227×227像素的輸入圖像。構(gòu)建兩個(gè)卷積神經(jīng)網(wǎng)絡(luò),第一個(gè)基于AlexNet網(wǎng)絡(luò)構(gòu)建,包含23層,第一個(gè)卷積層大小為11×11,輸入圖像大小為227×227;第二個(gè)神經(jīng)網(wǎng)絡(luò)為自己構(gòu)建的網(wǎng)絡(luò)結(jié)構(gòu),包括15層,第一個(gè)卷積層由64個(gè)大小為9×9的卷積核構(gòu)成,輸入圖像大小為120×120。學(xué)習(xí)率初始值設(shè)為0.001,每4次迭代減少一次,借助Matlab實(shí)現(xiàn)模型訓(xùn)練與測(cè)試。90%數(shù)據(jù)用來(lái)訓(xùn)練,10%數(shù)據(jù)用來(lái)測(cè)試模型。對(duì)比文章所設(shè)計(jì)模型與AlexNet模型以及MobileNet v.1、MobileNet v.2模型的效率。
研究結(jié)論:15層網(wǎng)絡(luò)對(duì)于120×120像素的圖像比23層網(wǎng)絡(luò)對(duì)于227×227像素的圖像具有更好的性能,而且時(shí)間短,但效率低于其他神經(jīng)網(wǎng)絡(luò)模型。
與同類(lèi)研究相比優(yōu)缺點(diǎn):所設(shè)計(jì)的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)與其他模型相比規(guī)模小得多,但同時(shí)也損失了一部分效率。
文獻(xiàn)閱讀價(jià)值:提出了一種可應(yīng)用于便攜式設(shè)備的廢物識(shí)別技術(shù),有助于解決城市塑料廢物問(wèn)題。
[3]Hanxiang Wang,Yanfen Li,L. Minh Dang,Jaesung Ko,Dongil Han,Hyeonjoon Moon. Smartphone-based bulky waste classification using convolutional neural networks[J]. Multimedia Tools and Applications,2020,79(prepublish).
數(shù)據(jù)來(lái)源:從Yahoo,Bing,Google, Baidu, andNaver網(wǎng)站采集到95類(lèi)圖像數(shù)據(jù)69737張。
數(shù)據(jù)處理方法:所有圖像數(shù)據(jù)儲(chǔ)存為224 × 224的彩色圖像。90%圖像作為訓(xùn)練集,10%作為測(cè)試集。在訓(xùn)練階段選擇VGG-19、ResNet50和Inception-V3網(wǎng)絡(luò)進(jìn)行參數(shù)訓(xùn)練,對(duì)比三個(gè)網(wǎng)絡(luò)的性能,選擇最優(yōu)性能的網(wǎng)絡(luò)VGG-19。對(duì)VGG-19進(jìn)行微調(diào):預(yù)訓(xùn)練模型的所有卷積層都被初始化,并且前幾個(gè)卷積層的參數(shù)被凍結(jié)。在匯集層和最后一個(gè)卷積塊的卷積層之間增加兩個(gè)卷積核大小為3×3的卷積層。第五個(gè)卷積塊中的卷積層數(shù)從4變?yōu)?,在兩個(gè)全連接層之間添加批量標(biāo)準(zhǔn)化層。采用基于低價(jià)敏感直接學(xué)習(xí)法和集成學(xué)習(xí)法的三種方法處理圖像數(shù)據(jù)不平衡問(wèn)題:通過(guò)設(shè)置權(quán)重參數(shù)來(lái)減少不平衡數(shù)據(jù)的影響,被稱(chēng)為CW_VGG19;從VGG-19模型中提取的特征分別被饋送到XGBoost分類(lèi)器(XGB_VGG19)和LightGBM分類(lèi)器(LGB_VGG19)來(lái)處理不平衡數(shù)據(jù),對(duì)比三種方法的性能,選擇LGB_VGG19方法。進(jìn)一步測(cè)試原始VGG-19、微調(diào)后的VGG-19和LGB-VGG19的性能,并在垃圾網(wǎng)數(shù)據(jù)集上與DNN-TC模型進(jìn)行比較。最后基于Kaggle數(shù)據(jù)集將不同CNN架構(gòu),包括VGG-16、ResNet、Mobile-Net、Inception-Net和Dense-Net進(jìn)行對(duì)比。
研究結(jié)論:微調(diào)VGG-19是收集數(shù)據(jù)集的最佳模型,精度為86.19%;LGB_VGG19模型和XGB_VGG19模型比CW_VGG19模型相對(duì)穩(wěn)定,隨著不平衡率的增加,LGB_VGG19模型的AUC值高于XGB_VGG19模型。至于運(yùn)行時(shí)間,LGB_VGG19型號(hào)比其他型號(hào)快得多。
與同類(lèi)研究相比優(yōu)缺點(diǎn):數(shù)據(jù)集圖像種類(lèi)豐富,但最終的VGG-19模型由于參數(shù)多,對(duì)計(jì)算機(jī)內(nèi)存的要求更高。而且在訓(xùn)練采集的數(shù)據(jù)集之前,由于采集的數(shù)據(jù)集較大,對(duì)背景復(fù)雜的圖像沒(méi)有進(jìn)行圖像預(yù)處理操作,對(duì)識(shí)別結(jié)果有影響。
文獻(xiàn)閱讀價(jià)值:選用多種方法解決圖像數(shù)據(jù)不平衡問(wèn)題,為數(shù)據(jù)不平衡的處理提供了思路。
[4]王莉,何牧天,徐碩,袁天,趙天翊,劉建飛.基于YOLOv5s網(wǎng)絡(luò)的垃圾分類(lèi)和檢測(cè)[J].包裝工程,2021,42(08):50-56.
數(shù)據(jù)來(lái)源:實(shí)驗(yàn)自制了一個(gè)垃圾數(shù)據(jù)集,包括紙盒、塑料瓶、易拉罐、玻璃瓶、藥瓶、電池、塑料袋、廢紙、衣服、磚頭、水果和蔬菜12類(lèi)垃圾。
數(shù)據(jù)處理方法:采用數(shù)據(jù)增廣的方式將樣本個(gè)數(shù)增至原來(lái)的4倍,用labelimg工具對(duì)圖片中垃圾物體進(jìn)行了標(biāo)注,按照8∶2 的比例將數(shù)據(jù)集劃分為訓(xùn)練集和測(cè)試集。實(shí)驗(yàn)的運(yùn)行環(huán)境為CPU為Intel i77800X,GPU為GeForceGTX 1080ti,內(nèi)存為16G,操作系統(tǒng)為ubuntu16.04,安裝CUDA9.0庫(kù)文件,開(kāi)發(fā)語(yǔ)言為Python,Pytorch框架。Coco和Voc數(shù)據(jù)集上的訓(xùn)練結(jié)果初始化Yolov5s的網(wǎng)絡(luò)參數(shù),參數(shù)訓(xùn)練采用SGD優(yōu)化算法,參數(shù)設(shè)置Batch為32;最大迭代次數(shù)為400;動(dòng)量因子為0.9;權(quán)重衰減系數(shù)為0.0005。采用余弦退火策略動(dòng)態(tài)調(diào)整學(xué)習(xí)率,初始學(xué)習(xí)率為0.01。采用GIOU Loss作為損失函數(shù)。繪制損失函數(shù)圖,將Yolov5s和Yolov3在自制垃圾數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)對(duì)比,驗(yàn)證實(shí)驗(yàn)方法的有效性。
研究結(jié)論:基于 YOLOv5s 網(wǎng)絡(luò)的垃圾分類(lèi)檢測(cè)模型在不同光照、視角等條件下,檢測(cè)準(zhǔn)確率高,魯棒性好、計(jì)算速度快,有助于促進(jìn)垃圾處理公司實(shí)現(xiàn)智能分揀,提高工作效率。
與同類(lèi)研究相比優(yōu)缺點(diǎn):自制的垃圾分類(lèi)數(shù)據(jù)集考慮了不同光照、角度、距離和遮擋情況,使模型更具普適性。
文獻(xiàn)閱讀價(jià)值:通過(guò)研究基于視覺(jué)的垃圾檢測(cè)與分類(lèi)模型,實(shí)現(xiàn)對(duì)垃圾的自動(dòng)識(shí)別和檢測(cè)。
[5]康莊,楊杰,郭濠奇.基于機(jī)器視覺(jué)的垃圾自動(dòng)分類(lèi)系統(tǒng)設(shè)計(jì)[J].浙江大學(xué)學(xué)報(bào)(工學(xué)版),2020,54(07):1272-1280+1307.
數(shù)據(jù)來(lái)源:數(shù)據(jù)集來(lái)源于網(wǎng)上和現(xiàn)實(shí)生活拍照,共14種物體4168張圖片。
數(shù)據(jù)處理方法:利用設(shè)計(jì)好的垃圾分類(lèi)硬件系統(tǒng)將所有垃圾分為可回收和不可回收兩大類(lèi),其中訓(xùn)練樣本占60%,即2500張;驗(yàn)證樣本數(shù)量占20%,即834張;測(cè)試樣本占20%,即834張。以Inception v3為特征提取網(wǎng)絡(luò),優(yōu)化算法使用RMSprop替代SGD,使用LSR方法降低過(guò)擬合,采用獨(dú)熱編碼的形式進(jìn)行模型訓(xùn)練。使用2個(gè)1×n和n×1的卷積核取代n×n的卷積核,在模型的全連接層進(jìn)行批標(biāo)準(zhǔn)化操作。采用遷移學(xué)習(xí)方法對(duì) Inceptionv3模型進(jìn)行重訓(xùn)練。基于Image Net數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練,訓(xùn)練批次大小為32,激活函數(shù)選擇ReLU函數(shù),學(xué)習(xí)率為0.001得到預(yù)訓(xùn)練模型;將Inception v3全連接層前的所有卷積層參數(shù)保留不變,將最后的全連接層的輸出由原來(lái)1000變?yōu)?4(14中垃圾種類(lèi)),在自制垃圾數(shù)據(jù)集上繼續(xù)訓(xùn)練,得到垃圾識(shí)別分類(lèi)模型。在公共數(shù)據(jù)集cifar-10上進(jìn)行驗(yàn)證,將Inception v3模型與當(dāng)下較流行的LeNet、Alex Net、Vgg和ResNet模型進(jìn)行對(duì)比,進(jìn)行105次迭代訓(xùn)練。訓(xùn)練完成后比較各模型的準(zhǔn)確率和損失值。
研究結(jié)論:系統(tǒng)能夠有效地進(jìn)行垃圾種類(lèi)的識(shí)別和完成垃圾的分類(lèi)回收。
與同類(lèi)研究相比優(yōu)缺點(diǎn):以研究設(shè)計(jì)多箱體垃圾桶或者其他結(jié)構(gòu)的垃圾回收裝置,滿(mǎn)足更多目標(biāo)類(lèi)別的分揀需求。
文獻(xiàn)閱讀價(jià)值:提出基于機(jī)器視覺(jué)的垃圾自動(dòng)分類(lèi)系統(tǒng),設(shè)計(jì)垃圾分類(lèi)的硬件系統(tǒng),該系統(tǒng)可以滿(mǎn)足可回收和不可回收垃圾分類(lèi)的要求。
[6]和澤.基于遷移學(xué)習(xí)的垃圾分類(lèi)研究[D].寧夏大學(xué),2020.
數(shù)據(jù)來(lái)源:數(shù)據(jù)集使用華為云的公開(kāi)數(shù)據(jù)集,該數(shù)據(jù)集包括可回收物、廚余垃圾、有害垃圾和其他垃圾四個(gè)大類(lèi),每類(lèi)分為若干小類(lèi),共40個(gè)類(lèi)別14802張圖片。
數(shù)據(jù)處理方法:首先通過(guò)標(biāo)注新數(shù)據(jù)的方法增加4100張圖片,增加了少類(lèi)別樣本數(shù)量。使用Keras提供的ImageDataGenerator方法對(duì)樣本數(shù)量在300張以下的類(lèi)別數(shù)據(jù)進(jìn)行隨機(jī)幾何變換進(jìn)行數(shù)據(jù)增強(qiáng)。使每個(gè)類(lèi)別的樣本數(shù)均在300張以上,數(shù)據(jù)集的各類(lèi)別樣本數(shù)據(jù)趨于平衡。將數(shù)據(jù)集進(jìn)行9:1拆分,90%的樣本當(dāng)作訓(xùn)練集,10%的樣本當(dāng)作測(cè)試集進(jìn)行訓(xùn)練。采用MobileNetV2模型,設(shè)置相同的數(shù)據(jù)集和參數(shù),進(jìn)行三組預(yù)訓(xùn)練對(duì)比實(shí)驗(yàn):隨機(jī)權(quán)重分類(lèi)器對(duì)權(quán)重隨機(jī)初始化,并進(jìn)行訓(xùn)練;訓(xùn)練全連接層分類(lèi)器對(duì)模型卷積層凍結(jié),訓(xùn)練全連接層;微調(diào)分類(lèi)器凍結(jié)模型的前128層,訓(xùn)練其余的卷積層和全連接層。每個(gè)實(shí)驗(yàn)訓(xùn)練過(guò)程中都迭代200次,采用AdamOptimizer優(yōu)化函數(shù),學(xué)習(xí)率設(shè)置0.0001,在分類(lèi)層使用softmax層作為分類(lèi)器,損失函數(shù)使用多分類(lèi)交叉熵?fù)p失函數(shù)。使用微調(diào)模型的遷移學(xué)習(xí)方法,采用VGG16、ResNET50與MobileNetV2進(jìn)行模型對(duì)比實(shí)驗(yàn),采用100張圖片進(jìn)行推理實(shí)驗(yàn),并用平均值計(jì)算單張圖片推理時(shí)間。
研究結(jié)論:三個(gè)分類(lèi)器分類(lèi)效果最好的是微調(diào)分類(lèi)器,最差的是隨機(jī)權(quán)重分類(lèi)器,訓(xùn)練全連接層分類(lèi)器是處于中間的性能,MobileNetV2模型相對(duì)于VGG16、ResNET50模型在移動(dòng)和嵌入式等便攜式設(shè)備上做了明顯的優(yōu)化,提升了模型精度且降低了存儲(chǔ)空間的要求。最后使用訓(xùn)練好的MobileNetV2模型對(duì)垃圾進(jìn)行分類(lèi)。
與同類(lèi)研究相比優(yōu)缺點(diǎn):分別從預(yù)訓(xùn)練模型三種策略和不同模型之間進(jìn)行對(duì)比,基于微調(diào)分類(lèi)器的MobileNetV2模型更具說(shuō)服力。但是研究所獲取的數(shù)據(jù)集偏少且類(lèi)別不平衡。
文獻(xiàn)閱讀價(jià)值:以遷移學(xué)習(xí)為基礎(chǔ)提出了基于輕量型網(wǎng)絡(luò)MobileNetV2的垃圾分類(lèi)算法和基于遷移學(xué)習(xí)的移動(dòng)端垃圾分類(lèi)方案,解決了垃圾類(lèi)別龐雜和垃圾分類(lèi)難的問(wèn)題。
[7]袁建野,南新元,蔡鑫,李成榮.基于輕量級(jí)殘差網(wǎng)路的垃圾圖片分類(lèi)方法[J].環(huán)境工程,2021,39(02):110-115.
數(shù)據(jù)來(lái)源:數(shù)據(jù)集由中國(guó)科學(xué)院自動(dòng)化研究所智能服務(wù)機(jī)器人實(shí)驗(yàn)室所提供,共收集了2400張垃圾圖片信息。訓(xùn)練集共1920張,每類(lèi)分別為320張,測(cè)試集共510張,每類(lèi)分別為85張,訓(xùn)練集和測(cè)試集總共分為6類(lèi)。
數(shù)據(jù)處理方法:以ResNet50為基礎(chǔ)進(jìn)行優(yōu)化構(gòu)建輕量級(jí)網(wǎng)絡(luò),提出最大平均組合池化替換ResNet50的池化層,用深度可分離卷積代替ResNet50中Bottleneck的3×3標(biāo)準(zhǔn)卷積。Mode數(shù)量一共4個(gè),Mode數(shù)設(shè)置為[1,1,1,1],每個(gè)Mode的結(jié)構(gòu)都是1×1、3×3、1×1的結(jié)構(gòu),其中3×3的卷積核用深度可分離卷積替換。實(shí)驗(yàn)batch size設(shè)置為32,學(xué)習(xí)率設(shè)置為0.01,每經(jīng)過(guò)一次步長(zhǎng)為5時(shí),學(xué)習(xí)率變?yōu)橹暗?5%,訓(xùn)練完成迭代100次。對(duì)不同的池化層以及不同模型進(jìn)行對(duì)比。
研究結(jié)論:提出的最大平均池化輕量級(jí)網(wǎng)絡(luò)使得網(wǎng)路達(dá)到參數(shù)量小、計(jì)算量小、內(nèi)存消耗小,運(yùn)行時(shí)間短的目的。
與同類(lèi)研究相比優(yōu)缺點(diǎn):提出的輕量級(jí)殘差網(wǎng)路參數(shù)更加簡(jiǎn)化,但是測(cè)試集510張,實(shí)際操作測(cè)試集只利用了1張,測(cè)試集應(yīng)用數(shù)據(jù)較少。
文獻(xiàn)閱讀價(jià)值:提出的輕量級(jí)網(wǎng)絡(luò)適用于移動(dòng)端嵌入式設(shè)備的垃圾分類(lèi)系統(tǒng)應(yīng)用。
[8]董子源.基于深度學(xué)習(xí)的垃圾分類(lèi)系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D].中國(guó)科學(xué)院大學(xué)(中國(guó)科學(xué)院沈陽(yáng)計(jì)算技術(shù)研究所),2020.
數(shù)據(jù)來(lái)源:?jiǎn)螏瑘D像垃圾檢測(cè):華為公開(kāi)數(shù)據(jù)集(國(guó)內(nèi)唯一公開(kāi)數(shù)據(jù)集),共14683張垃圾圖像和對(duì)應(yīng)的分類(lèi)標(biāo)簽,加上實(shí)地拍攝一些垃圾場(chǎng)景中的圖片。
數(shù)據(jù)處理方法:?jiǎn)螏瑘D像垃圾檢測(cè):將華為數(shù)據(jù)集按照不同的大類(lèi)別和小類(lèi)別進(jìn)行組合,保存在相應(yīng)的文件夾下。通過(guò)python手動(dòng)標(biāo)注圖像中垃圾的位置信息,利用記錄鼠標(biāo)位置的相應(yīng)函數(shù),記錄鼠標(biāo)畫(huà)取的垃圾外接矩形,并將矩形的四個(gè)頂點(diǎn)坐標(biāo)記錄在文本文件中。對(duì)數(shù)據(jù)集中不同小類(lèi)的垃圾數(shù)據(jù)進(jìn)行采樣并標(biāo)注,得到2000張不同種類(lèi)的垃圾圖像的數(shù)據(jù)標(biāo)注,作為初始的檢測(cè)網(wǎng)絡(luò)訓(xùn)練數(shù)據(jù)集。通過(guò)第一輪的訓(xùn)練,得到了垃圾檢測(cè)模型初始結(jié)果。使用初始模型對(duì)未經(jīng)訓(xùn)練的數(shù)據(jù)集中其他圖像進(jìn)行檢測(cè),得到垃圾的初始預(yù)測(cè)位置,并修正檢測(cè)錯(cuò)誤圖像的檢測(cè)框作為圖像中目標(biāo)位置的標(biāo)簽,得到初始訓(xùn)練后的擴(kuò)充數(shù)據(jù)集。用華為數(shù)據(jù)集對(duì)ResNet101、Inception v3和VGG16主干網(wǎng)絡(luò)進(jìn)行評(píng)估,選定ResNet101網(wǎng)絡(luò)作為垃圾檢測(cè)的基線(xiàn)網(wǎng)絡(luò)。在分類(lèi)階段,將數(shù)據(jù)增強(qiáng)后的圖像按4:1的比例分為訓(xùn)練集和測(cè)試集,選用ADAM優(yōu)化算法訓(xùn)練模型動(dòng)量系數(shù)為0.9,共設(shè)50個(gè)迭代周期,初始學(xué)習(xí)率設(shè)為0.01,每隔10個(gè)迭代周期學(xué)習(xí)率衰減0.1倍,一階矩估計(jì)的指數(shù)衰減率為0.99,二階矩估計(jì)的指數(shù)衰減率為0.999。在ResNet101網(wǎng)絡(luò)的不同的Bottle Neck位置僅插入空間注意力模塊、僅插入通道注意力模塊、插入特征融合模塊分別進(jìn)行對(duì)比試驗(yàn),對(duì)模型的注意力模塊、通道注意力模塊、特征融合模塊分別進(jìn)行評(píng)估。以GCNet作為主干提取網(wǎng)絡(luò)并入到SSD作為垃圾檢測(cè)網(wǎng)絡(luò)的基礎(chǔ),與加入特征融合與注意力機(jī)制的ResNet101網(wǎng)絡(luò)相結(jié)合。實(shí)地拍攝了一些垃圾場(chǎng)景中的圖片(手動(dòng)繪制檢測(cè)框)與華為數(shù)據(jù)集作為檢測(cè)任務(wù)的訓(xùn)練集和測(cè)試集。使用批量32來(lái)訓(xùn)練模型,使用0.0001的權(quán)重衰減和0.9的動(dòng)量,SGD優(yōu)化器,設(shè)置Dropout為0.8,在每個(gè)conv模塊激活函數(shù)后添加BatchNormalization層以防止過(guò)擬合以及加快網(wǎng)絡(luò)收斂。在相同測(cè)試集上對(duì)DSSD算法進(jìn)行評(píng)估與改進(jìn)的SSD算法進(jìn)行對(duì)比。
研究結(jié)論:加入了注意力機(jī)制、特征融合機(jī)制以及殘差預(yù)測(cè)模塊的SSD在小目標(biāo)方面,效果明顯好于SSD與DSSD算法,檢測(cè)速度方面也明顯好于DSSD,稍微低于SSD。
與同類(lèi)研究相比優(yōu)缺點(diǎn):針對(duì)樣本集中類(lèi)內(nèi)垃圾形態(tài)差異大,背景變化大,不利于分類(lèi)的情況,本文在分類(lèi)網(wǎng)絡(luò)中加入了空間注意力與通道注意力機(jī)制,有效地提升了分類(lèi)準(zhǔn)確率。
文獻(xiàn)閱讀價(jià)值:提出了對(duì)ResNet101 加入注意力機(jī)制和特征融合機(jī)制的改進(jìn)方法,更好地提取到了垃圾圖像中的有用信息,成功地解決了圖片中類(lèi)內(nèi)差異大不利于分類(lèi)的問(wèn)題。
[9]陳非予,楊婷婷,蔣銘陽(yáng).基于深度學(xué)習(xí)技術(shù)的生活垃圾分類(lèi)模型設(shè)計(jì)[J].電子元器件與信息技術(shù),2020,4(07):94-96.
數(shù)據(jù)來(lái)源:垃圾圖像數(shù)據(jù)是在TrashNet數(shù)據(jù)集的基礎(chǔ)上增加手機(jī)拍照以及網(wǎng)絡(luò)搜索所得,共確定3727張。
數(shù)據(jù)處理方法:采用Inception-v3模型在大型圖像分類(lèi)數(shù)據(jù)集ImageNet訓(xùn)練的參數(shù)模型。特征提取模型采用預(yù)訓(xùn)練模型的網(wǎng)絡(luò)結(jié)構(gòu)和參數(shù),通過(guò)輸入并處理一張垃圾圖像,提取圖像2048維向量特征,經(jīng)softmax回歸完成垃圾圖像分類(lèi)。訓(xùn)練數(shù)據(jù)為數(shù)據(jù)集中的80%,另20%數(shù)據(jù)作為測(cè)試驗(yàn)證數(shù)據(jù)集。在訓(xùn)練中,設(shè)置超參ECHO為50,即迭代訓(xùn)練訓(xùn)練數(shù)據(jù)集50次,每次選取其中16張圖像進(jìn)行訓(xùn)練,在每次訓(xùn)練的圖像輸入階段,將所選圖像進(jìn)行數(shù)據(jù)增強(qiáng)處理,初始化學(xué)習(xí)率為0.001。
研究結(jié)論:分類(lèi)正確率可以達(dá)到95.3%,證明了該模型對(duì)于實(shí)現(xiàn)垃圾分類(lèi)的有效性。
與同類(lèi)研究相比優(yōu)缺點(diǎn):垃圾圖像涉及種類(lèi)只包含塑料、金屬、紙板、廢報(bào)紙、玻璃、以及廢料六類(lèi)垃圾圖像,數(shù)據(jù)類(lèi)別較少。
文獻(xiàn)閱讀價(jià)值:模型通過(guò)數(shù)據(jù)增強(qiáng)方法降低了圖像成像要求,對(duì)光照、距離、大小不敏感,具有相當(dāng)高的魯棒性和泛化能力。
[10]呂程熙.基于深度學(xué)習(xí)實(shí)現(xiàn)自動(dòng)垃圾分類(lèi)[J].電子制作,2019(24):36-38.
數(shù)據(jù)來(lái)源:數(shù)據(jù)集共包含10類(lèi)物品的圖片共2000張,每一類(lèi)200張。
數(shù)據(jù)處理方法:1800張為訓(xùn)練集,200張為測(cè)試集。每一類(lèi)共180張為訓(xùn)練集,20張為測(cè)試集。將訓(xùn)練集與測(cè)試集的輸入圖片隨機(jī)裁減成32×32×3大小的圖片,將圖片信息歸一化。建立基于卷積神經(jīng)網(wǎng)絡(luò)的垃圾分類(lèi)分類(lèi)器,學(xué)習(xí)率為0.01,batch_size為5,對(duì)比深度神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)的測(cè)試結(jié)果分類(lèi)準(zhǔn)確度。進(jìn)一步對(duì)數(shù)據(jù)集進(jìn)行二分類(lèi),劃分為可回收利用和不可回收利用,由十分類(lèi)變?yōu)槎诸?lèi)再次進(jìn)行實(shí)驗(yàn)。
研究結(jié)論:CNN模型的效果要比DNN 模型的效果好。從十分類(lèi)變?yōu)槎诸?lèi),模型選擇正確的概率大大加大,使得準(zhǔn)確率升高。
與同類(lèi)研究相比優(yōu)缺點(diǎn):對(duì)比DNN與CNN分類(lèi)識(shí)別效果,證明CNN對(duì)垃圾分類(lèi)識(shí)別應(yīng)用效果更好。但是針對(duì)物品的不同部位屬于不同類(lèi)型的垃圾,還需要增加預(yù)識(shí)別功能。
文獻(xiàn)閱讀價(jià)值:利用算法對(duì)圖像識(shí)別可以大大提高垃圾分類(lèi)的效率,為人們的生活帶來(lái)便利。
[11]高明,陳玉涵,張澤慧,馮雨,樊衛(wèi)國(guó).基于新型空間注意力機(jī)制和遷移學(xué)習(xí)的垃圾圖像分類(lèi)算法[J].系統(tǒng)工程理論與實(shí)踐,2021,41(02):498-512.
數(shù)據(jù)來(lái)源:“華為云人工智能大賽垃圾分類(lèi)挑戰(zhàn)杯”競(jìng)賽提供的數(shù)據(jù)集,共包括14000余張垃圾圖片。
數(shù)據(jù)處理方法:將圖片尺寸統(tǒng)一處理為224×224像素。將數(shù)據(jù)集隨機(jī)劃分為訓(xùn)練集、驗(yàn)證集與測(cè)試集,訓(xùn)練集中劃分為包含14372張圖片,驗(yàn)證集與測(cè)試集各包含215張圖片。選擇EfficientNet-B5、ResNet50、DenseNet-169網(wǎng)絡(luò)架構(gòu)分別對(duì)華為垃圾分類(lèi)數(shù)據(jù)集和ImageNet數(shù)據(jù)集進(jìn)行無(wú)遷移學(xué)習(xí)與有遷移學(xué)習(xí)的訓(xùn)練,其中預(yù)訓(xùn)練權(quán)重均由Keras庫(kù)提供,最后選擇EfficientNet-B5作為GANet中的主干網(wǎng)絡(luò)結(jié)構(gòu)。運(yùn)用以EfficientNet-B5為主干的GANet構(gòu)架,嘗試對(duì)提出的新型的像素級(jí)空間注意力機(jī)制PSATT的基礎(chǔ)結(jié)構(gòu)微調(diào)后的模型進(jìn)行有效性驗(yàn)證,選擇出性能最好的PSATT結(jié)構(gòu)。將GANet結(jié)構(gòu)的注意力模塊分別換成PSATT、Squeeze-and-Excitation block、Non-Local block與注意增強(qiáng)卷積在ImageNet數(shù)據(jù)集上進(jìn)行多次訓(xùn)練對(duì)比。通過(guò)訓(xùn)練策略消融實(shí)驗(yàn)、迭代延長(zhǎng)實(shí)驗(yàn)和交叉驗(yàn)證實(shí)驗(yàn)來(lái)檢驗(yàn)GANet架構(gòu)在訓(xùn)練過(guò)程中是否出現(xiàn)過(guò)擬合情況。依次用ResNet50和DenseNet-169架構(gòu)替換GANet主干結(jié)構(gòu)中的EfficientNet-B5進(jìn)行遷移學(xué)習(xí),驗(yàn)證PSATT在不同網(wǎng)絡(luò)架構(gòu)上的適用性。將輸入圖片尺寸設(shè)為456×456,借助該比賽的自動(dòng)化測(cè)試系統(tǒng)對(duì)GANet進(jìn)行云端評(píng)估,測(cè)試集為賽方未公開(kāi)的4000張盲測(cè)圖片。對(duì)于GANet模型的訓(xùn)練中選用RAdam優(yōu)化,損失函數(shù)選擇標(biāo)簽平滑正則化+Focal loss,用在OCL基礎(chǔ)上提出的階梯形OneCycle控制學(xué)習(xí)率,在訓(xùn)練的最后幾個(gè)輪次,對(duì)于權(quán)重平滑選擇進(jìn)行SWA處理。
研究結(jié)論:基于PSATT機(jī)制的GANet在細(xì)粒度垃圾圖像分類(lèi)問(wèn)題中,整體準(zhǔn)確率相較對(duì)比方法得到了顯著提升。
與同類(lèi)研究相比優(yōu)缺點(diǎn):改進(jìn)的階梯形OneCycle學(xué)習(xí)率控制方法和RAdam優(yōu)化方法的結(jié)合使用加快收斂速度,縮短實(shí)驗(yàn)周期;運(yùn)用標(biāo)簽平滑和Focalloss緩解樣本不平衡問(wèn)題;優(yōu)化方法與階梯形OneCycle學(xué)習(xí)策略的結(jié)合使用緩解了模型收斂階段的不穩(wěn)定性。但是圖像數(shù)據(jù)集在不同光照條件、不同終端采集的圖像存在格式、噪音、分辨率等差異。
文獻(xiàn)閱讀價(jià)值:針對(duì)問(wèn)題特點(diǎn),提出了一種新型的像素級(jí)空間注意力機(jī)制,建立了一套端到端的面向細(xì)粒度垃圾圖像分類(lèi)的遷移學(xué)習(xí)架構(gòu)GANet。
[12]王洋.垃圾分類(lèi)數(shù)據(jù)的機(jī)器學(xué)習(xí)方法研究[D].黑龍江大學(xué),2020.
數(shù)據(jù)來(lái)源:選擇了來(lái)自Kaggle網(wǎng)站上提供的包括濕垃圾、可回收物兩類(lèi)垃圾的圖像數(shù)據(jù),包含訓(xùn)練集22564張,測(cè)試集2513張,練集中包含12565張濕垃圾圖像,9999張可回收垃圾圖像;而測(cè)試集中包含1401張濕垃圾圖像,1112張可回收垃圾圖像。
數(shù)據(jù)處理方法:預(yù)處理:對(duì)圖像進(jìn)行灰度化處理,選擇將所有圖像尺寸設(shè)為64×64將圖像尺寸歸一化。運(yùn)用python從兩類(lèi)垃圾圖像中分別提取顏色特征和紋理特征作為分類(lèi)依據(jù)。選用灰度直方圖作為圖像的顏色特征,將灰度直方圖和圖像標(biāo)簽作為KNN和SVM算法的輸入。對(duì)圖像的LBP和HOG特征向量進(jìn)行PCA降維以提高計(jì)算機(jī)運(yùn)行速度,保留原數(shù)據(jù)95%的信息提取出降維后的LBP特征和HOG特征。傳統(tǒng)機(jī)器學(xué)習(xí)算法:使用sklearn庫(kù)中的KNeighborsClassifier函數(shù)搭建KNN模型,距離定義為歐式距離,分別以GH,HOG,LBP特征向量導(dǎo)入模型并分別建模,參數(shù)??分別設(shè)置為5,10,15,...,50,運(yùn)行10次KNN模型,將模型的5折交叉驗(yàn)證最高準(zhǔn)確度定最終準(zhǔn)確度。SVM模型核函數(shù)選RBF徑向基函數(shù),將GH,HOG,LBP三種圖像特征算子分別導(dǎo)入模型并分別建模,SVM函數(shù)的初始參數(shù)設(shè)置為懲罰項(xiàng)??=1,2,…,10,松弛變量??=0.1,0.2,…,1.0,將模型的5折交叉驗(yàn)證最高準(zhǔn)確度定最終準(zhǔn)確度。對(duì)比KNN與SVM分類(lèi)結(jié)果。卷積神經(jīng)網(wǎng)絡(luò):使用基于Python的tensorflow框架搭建設(shè)定的簡(jiǎn)化版輕量型VGGNet(mini-VGG)。將輸入卷積神經(jīng)網(wǎng)絡(luò)的圖像尺寸設(shè)定為64×64的三通道圖像,Batchsize設(shè)為64,設(shè)置epoch次數(shù)為50,損失函數(shù)定義為交叉熵,驗(yàn)證集占測(cè)試集比重為30%。
研究結(jié)論:mini-VGG模型的分類(lèi)準(zhǔn)確度明顯地高于其他兩個(gè)傳統(tǒng)機(jī)器學(xué)習(xí)算法,但模型如果特征選取合適,傳統(tǒng)機(jī)器學(xué)習(xí)算法在圖像分類(lèi)領(lǐng)域中的分類(lèi)準(zhǔn)確度不弱于深度學(xué)習(xí)。
與同類(lèi)研究相比優(yōu)缺點(diǎn):垃圾圖像中不同種類(lèi)垃圾圖像數(shù)量分布較均勻,避免了圖像數(shù)據(jù)不平衡所帶來(lái)的問(wèn)題。
文獻(xiàn)閱讀價(jià)值:創(chuàng)造性地使用了一個(gè)精簡(jiǎn)版的Mini-VGG結(jié)構(gòu),大幅度減少了模型訓(xùn)練的參數(shù),極大提高了模型運(yùn)行的效率。
[13]齊鑫宇,龔劬,李佳航,何建龍.基于深度學(xué)習(xí)的垃圾圖片處理與識(shí)別[J].電腦知識(shí)與技術(shù),2021,17(09):20-24.
數(shù)據(jù)來(lái)源:含果皮,紙箱,電池,廚余垃圾,燈泡,書(shū)本,鞋子,廢衣服等25類(lèi)的自定義數(shù)據(jù)集。
數(shù)據(jù)處理方法:數(shù)據(jù)集在每個(gè)分類(lèi)含10000張照片,選取其中5000張作為訓(xùn)練集,其余的作為測(cè)試集。更改數(shù)據(jù)集中圖像格式為jpg格式,將圖片尺寸裁剪為300×300格式。將圖片通過(guò)裁剪,反轉(zhuǎn),鏡像增加數(shù)據(jù)集的數(shù)量。采用均值濾波對(duì)圖像去噪。在ResNet101主干網(wǎng)絡(luò)中,改變其原有的Relu激活函數(shù),采用改進(jìn)的Elu函數(shù)。在測(cè)試模型訓(xùn)練性能之前,首先選取兩張圖片對(duì)卷積神經(jīng)網(wǎng)絡(luò)模型對(duì)圖片特征提取的性能進(jìn)行測(cè)試,對(duì)比新模型與原模型的準(zhǔn)確率與損失函數(shù)。對(duì)十類(lèi)垃圾分別各選取100張隨機(jī)圖片作為識(shí)別對(duì)象應(yīng)用于模型中進(jìn)行模型的識(shí)別測(cè)試。
研究結(jié)論:新模型在訓(xùn)練精度與速度相比于原ResNet101模型有明顯的提高。訓(xùn)練結(jié)果相比原模型提前1500步達(dá)到100%識(shí)別以及提前5分鐘;識(shí)別準(zhǔn)確率提高10%。
與同類(lèi)研究相比優(yōu)缺點(diǎn):在ResNet101基礎(chǔ)上提出了一種新型模型,極大提高了模型的訓(xùn)練速度以及識(shí)別精確度。
文獻(xiàn)閱讀價(jià)值:為未來(lái)實(shí)現(xiàn)人工智能垃圾分類(lèi)提供圖像識(shí)別模型基礎(chǔ)。
[14]Sha Meng,Meng Sha,Zhang Ning,Ren Yunwen. X-DenseNet: Deep Learning for Garbage Classification Based on Visual Images[J]. Journal of Physics: Conference Series,2020,1575(1).
數(shù)據(jù)來(lái)源:GitHub的trashnet數(shù)據(jù)集,共有2527幅彩色圖像,分為6類(lèi)垃圾。
數(shù)據(jù)處理方法:圖片尺寸調(diào)整為512×384。首先通過(guò)剪切旋轉(zhuǎn)、翻轉(zhuǎn)等方法對(duì)數(shù)據(jù)集中的原始圖像進(jìn)行數(shù)據(jù)增強(qiáng)操作。將數(shù)據(jù)集中90%和10%的圖片相對(duì)作為訓(xùn)練集和測(cè)試集。在Xcepion的基礎(chǔ)上使用Dense模塊來(lái)實(shí)現(xiàn)功能重用和融合。將150×150×3的垃圾圖像作為輸入,通過(guò)Xception提取圖像特征,通過(guò)32個(gè)卷積核(3×3)和64個(gè)卷積核(5×5)轉(zhuǎn)置卷積以增加特征的大小和數(shù)量作為下層輸入的特征圖x0。在Dense模塊采用ReLU激活函數(shù),32個(gè)1×1卷積核和32個(gè)3×3卷積核,獲得特征圖x1,裁剪x0、x1,作為Dense模塊的下一層輸入,以此類(lèi)推,Dense模塊之間用1×1卷積層和一個(gè)2×2最大池化層連接。第三個(gè)Dense模塊的輸出與3×3和5×5卷積核交替進(jìn)行轉(zhuǎn)置和卷積擴(kuò)展特征的數(shù)量。最終輸出經(jīng)過(guò)全連通層映射到6個(gè)神經(jīng)元,對(duì)應(yīng)垃圾的6個(gè)分類(lèi)。訓(xùn)練過(guò)程中每批32個(gè),優(yōu)化器為SGD,動(dòng)量為0.9,初始學(xué)習(xí)率為0.001,損失函數(shù)為交叉熵函數(shù)。數(shù)據(jù)集中的248張圖片被用作測(cè)試集。經(jīng)過(guò)數(shù)據(jù)增強(qiáng)處理,測(cè)試中每批數(shù)據(jù)40張彩色垃圾圖片。在數(shù)據(jù)集上進(jìn)行X-DenseNet和AlexNet、ResNet50、InceptionV3、Vg16以及Vg19的對(duì)比實(shí)驗(yàn)。
研究結(jié)論:設(shè)計(jì)的基于深度卷積神經(jīng)網(wǎng)絡(luò)的垃圾分類(lèi)模型識(shí)別準(zhǔn)確率高于其他先進(jìn)的圖像分類(lèi)網(wǎng)絡(luò)。
與同類(lèi)研究相比優(yōu)缺點(diǎn):通過(guò)“獲取數(shù)據(jù)集-預(yù)處理數(shù)據(jù)-建立X-DenseNet模型-訓(xùn)練和測(cè)試模型”的過(guò)程進(jìn)行實(shí)驗(yàn),模型在測(cè)試集上的準(zhǔn)確率高達(dá)94.1%,超過(guò)了一些經(jīng)典的分類(lèi)網(wǎng)絡(luò)。
文獻(xiàn)閱讀價(jià)值:提出的基于視覺(jué)圖像的X-densente垃圾自動(dòng)分類(lèi)模型能夠有效減少人工投入,提高垃圾回收率。
二、醫(yī)學(xué)圖像識(shí)別
來(lái)源:統(tǒng)計(jì)家園
End
聲明:部分內(nèi)容來(lái)源于網(wǎng)絡(luò),僅供讀者學(xué)術(shù)交流之目的。文章版權(quán)歸原作者所有。如有不妥,請(qǐng)聯(lián)系刪除。

