多毛视频,久久人妻无码,波多野结衣av一区二区全免费观看,久久婷婷六月综合,妹子干综合,青青草原视频精品在线免费观看 ,日本青青草在线观看,国产视频999

圖像識(shí)別是利用計(jì)算機(jī)對(duì)圖像進(jìn)行處理、分析和理解，以識(shí)別各種不同模式的目標(biāo)和對(duì)象的技術(shù)，是應(yīng)用深度學(xué)習(xí)算法的一種實(shí)踐應(yīng)用。圖像分類(lèi)是根據(jù)圖像的語(yǔ)義信息對(duì)不同類(lèi)別圖像進(jìn)行區(qū)分，是計(jì)算機(jī)視覺(jué)的核心，是物體檢測(cè)、圖像分割、物體跟蹤、行為分析、人臉識(shí)別等其他高層次視覺(jué)任務(wù)的基礎(chǔ)。圖像識(shí)別與分類(lèi)在許多領(lǐng)域都有著廣泛的應(yīng)用。

一、垃圾圖像識(shí)別及分類(lèi)

研究背景：垃圾分類(lèi)可以實(shí)現(xiàn)資源的回收利用，是解決垃圾處理問(wèn)題的有效方式。傳統(tǒng)的手工垃圾分揀的效率低、成本高，因此，如何將垃圾自動(dòng)按類(lèi)處理具有重要的研究意義。

[1].Engineering; Study Results from Ho Chi Minh City University of Technology Hutech Update Understanding of Engineering (A Novel Framework for Trash Classification Using Deep Transfer Learning)[J].Journal of Engineering,2020.

數(shù)據(jù)來(lái)源：TrashNet數(shù)據(jù)集和自制越南垃圾數(shù)據(jù)集（VN-trash dataset），該數(shù)據(jù)集由來(lái)自越南的有機(jī)、無(wú)機(jī)和醫(yī)療廢物三個(gè)不同類(lèi)別的5904幅圖像組成。

數(shù)據(jù)處理方法：選擇ResNext架構(gòu)作為應(yīng)用遷移學(xué)習(xí)的基礎(chǔ)模型，修改了原始ResNext-101模型，在全局平均池層之后添加了兩個(gè)完全連接的層。輸入圖像的被歸一化為0和1之間的值。在訓(xùn)練和測(cè)試階段，通過(guò)水平翻轉(zhuǎn)和隨機(jī)裁剪方式，進(jìn)行數(shù)據(jù)增強(qiáng)處理生成更多的圖像。在訓(xùn)練階段，為每個(gè)特定的廢物類(lèi)別呈現(xiàn)的輸入圖像被輸入到我們建議的體系結(jié)構(gòu)中。在最后一層，選用softmax函數(shù)的對(duì)數(shù)作為分類(lèi)器，Adam作為優(yōu)化器。在TrashNet數(shù)據(jù)集和VN-trash數(shù)據(jù)集60%的圖像作為訓(xùn)練集，20%作為驗(yàn)證集，20%作為測(cè)試集。選擇Desenet121_Aral、RecycleNet和ResNet_Ruiz模型作為對(duì)比試驗(yàn)，驗(yàn)證所設(shè)計(jì)模型的有效性。

研究結(jié)論：DNN垃圾分類(lèi)器在垃圾網(wǎng)和虛擬垃圾數(shù)據(jù)集上的準(zhǔn)確率分別為94%和98%，在這兩個(gè)實(shí)驗(yàn)數(shù)據(jù)集上均優(yōu)于現(xiàn)有的垃圾分類(lèi)方法。

與同類(lèi)研究相比優(yōu)缺點(diǎn)：提供了兩個(gè)實(shí)驗(yàn)數(shù)據(jù)集，一個(gè)基于公開(kāi)數(shù)據(jù)集，一個(gè)自制數(shù)據(jù)集，使模型訓(xùn)練更具泛化性。但是對(duì)圖像的分割并沒(méi)有針對(duì)性，圖像背景比較平衡，未考慮不平衡背景下的圖像分類(lèi)。

文獻(xiàn)閱讀價(jià)值：開(kāi)發(fā)了用于垃圾分類(lèi)的深度神經(jīng)網(wǎng)絡(luò)模型DNN-TC，對(duì)ResNext模型的改進(jìn)，提高了預(yù)測(cè)性能。

[2]Bobulski Janusz, Kubanek Mariusz, Yang Miin-Shen. Deep Learning for Plastic Waste Classification System[J].Applied Computational Intelligence and Soft Computing,2021,2021.

數(shù)據(jù)來(lái)源：WaDaBa數(shù)據(jù)集，包括聚酯（PET）、聚乙烯（PE-HD）、聚苯乙烯（PS）、聚丙烯（PP）四類(lèi)垃圾圖像。

數(shù)據(jù)處理方法：對(duì)PET圖像旋轉(zhuǎn)24°、PE-HD圖像旋轉(zhuǎn)6°、PS圖像旋轉(zhuǎn)5°、PP圖像旋轉(zhuǎn)7°對(duì)圖像進(jìn)行增強(qiáng)，獲得33000張PET圖像，36000張PE-HD圖像、37440張PS圖像，3380張PP圖像。對(duì)圖像進(jìn)行分割，得到尺寸為120×120和227×227像素的輸入圖像。構(gòu)建兩個(gè)卷積神經(jīng)網(wǎng)絡(luò)，第一個(gè)基于AlexNet網(wǎng)絡(luò)構(gòu)建，包含23層，第一個(gè)卷積層大小為11×11，輸入圖像大小為227×227；第二個(gè)神經(jīng)網(wǎng)絡(luò)為自己構(gòu)建的網(wǎng)絡(luò)結(jié)構(gòu)，包括15層，第一個(gè)卷積層由64個(gè)大小為9×9的卷積核構(gòu)成，輸入圖像大小為120×120。學(xué)習(xí)率初始值設(shè)為0.001，每4次迭代減少一次，借助Matlab實(shí)現(xiàn)模型訓(xùn)練與測(cè)試。90%數(shù)據(jù)用來(lái)訓(xùn)練，10%數(shù)據(jù)用來(lái)測(cè)試模型。對(duì)比文章所設(shè)計(jì)模型與AlexNet模型以及MobileNet v.1、MobileNet v.2模型的效率。

研究結(jié)論：15層網(wǎng)絡(luò)對(duì)于120×120像素的圖像比23層網(wǎng)絡(luò)對(duì)于227×227像素的圖像具有更好的性能，而且時(shí)間短，但效率低于其他神經(jīng)網(wǎng)絡(luò)模型。

與同類(lèi)研究相比優(yōu)缺點(diǎn)：所設(shè)計(jì)的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)與其他模型相比規(guī)模小得多，但同時(shí)也損失了一部分效率。

文獻(xiàn)閱讀價(jià)值：提出了一種可應(yīng)用于便攜式設(shè)備的廢物識(shí)別技術(shù)，有助于解決城市塑料廢物問(wèn)題。

[3]Hanxiang Wang,Yanfen Li,L. Minh Dang,Jaesung Ko,Dongil Han,Hyeonjoon Moon. Smartphone-based bulky waste classification using convolutional neural networks[J]. Multimedia Tools and Applications,2020,79(prepublish).

數(shù)據(jù)來(lái)源：從Yahoo，Bing，Google， Baidu， andNaver網(wǎng)站采集到95類(lèi)圖像數(shù)據(jù)69737張。

數(shù)據(jù)處理方法：所有圖像數(shù)據(jù)儲(chǔ)存為224 × 224的彩色圖像。90%圖像作為訓(xùn)練集，10%作為測(cè)試集。在訓(xùn)練階段選擇VGG-19、ResNet50和Inception-V3網(wǎng)絡(luò)進(jìn)行參數(shù)訓(xùn)練，對(duì)比三個(gè)網(wǎng)絡(luò)的性能，選擇最優(yōu)性能的網(wǎng)絡(luò)VGG-19。對(duì)VGG-19進(jìn)行微調(diào)：預(yù)訓(xùn)練模型的所有卷積層都被初始化，并且前幾個(gè)卷積層的參數(shù)被凍結(jié)。在匯集層和最后一個(gè)卷積塊的卷積層之間增加兩個(gè)卷積核大小為3×3的卷積層。第五個(gè)卷積塊中的卷積層數(shù)從4變?yōu)?，在兩個(gè)全連接層之間添加批量標(biāo)準(zhǔn)化層。采用基于低價(jià)敏感直接學(xué)習(xí)法和集成學(xué)習(xí)法的三種方法處理圖像數(shù)據(jù)不平衡問(wèn)題：通過(guò)設(shè)置權(quán)重參數(shù)來(lái)減少不平衡數(shù)據(jù)的影響，被稱(chēng)為CW_VGG19；從VGG-19模型中提取的特征分別被饋送到XGBoost分類(lèi)器(XGB_VGG19)和LightGBM分類(lèi)器(LGB_VGG19)來(lái)處理不平衡數(shù)據(jù)，對(duì)比三種方法的性能，選擇LGB_VGG19方法。進(jìn)一步測(cè)試原始VGG-19、微調(diào)后的VGG-19和LGB-VGG19的性能，并在垃圾網(wǎng)數(shù)據(jù)集上與DNN-TC模型進(jìn)行比較。最后基于Kaggle數(shù)據(jù)集將不同CNN架構(gòu)，包括VGG-16、ResNet、Mobile-Net、Inception-Net和Dense-Net進(jìn)行對(duì)比。

研究結(jié)論：微調(diào)VGG-19是收集數(shù)據(jù)集的最佳模型，精度為86.19%；LGB_VGG19模型和XGB_VGG19模型比CW_VGG19模型相對(duì)穩(wěn)定，隨著不平衡率的增加，LGB_VGG19模型的AUC值高于XGB_VGG19模型。至于運(yùn)行時(shí)間，LGB_VGG19型號(hào)比其他型號(hào)快得多。

與同類(lèi)研究相比優(yōu)缺點(diǎn)：數(shù)據(jù)集圖像種類(lèi)豐富，但最終的VGG-19模型由于參數(shù)多，對(duì)計(jì)算機(jī)內(nèi)存的要求更高。而且在訓(xùn)練采集的數(shù)據(jù)集之前，由于采集的數(shù)據(jù)集較大，對(duì)背景復(fù)雜的圖像沒(méi)有進(jìn)行圖像預(yù)處理操作，對(duì)識(shí)別結(jié)果有影響。

文獻(xiàn)閱讀價(jià)值：選用多種方法解決圖像數(shù)據(jù)不平衡問(wèn)題，為數(shù)據(jù)不平衡的處理提供了思路。

[4]王莉,何牧天,徐碩,袁天,趙天翊,劉建飛.基于YOLOv5s網(wǎng)絡(luò)的垃圾分類(lèi)和檢測(cè)[J].包裝工程,2021,42(08):50-56.

數(shù)據(jù)來(lái)源：實(shí)驗(yàn)自制了一個(gè)垃圾數(shù)據(jù)集，包括紙盒、塑料瓶、易拉罐、玻璃瓶、藥瓶、電池、塑料袋、廢紙、衣服、磚頭、水果和蔬菜12類(lèi)垃圾。

數(shù)據(jù)處理方法：采用數(shù)據(jù)增廣的方式將樣本個(gè)數(shù)增至原來(lái)的4倍，用labelimg工具對(duì)圖片中垃圾物體進(jìn)行了標(biāo)注，按照8∶2 的比例將數(shù)據(jù)集劃分為訓(xùn)練集和測(cè)試集。實(shí)驗(yàn)的運(yùn)行環(huán)境為CPU為Intel i77800X，GPU為GeForceGTX 1080ti，內(nèi)存為16G，操作系統(tǒng)為ubuntu16.04，安裝CUDA9.0庫(kù)文件，開(kāi)發(fā)語(yǔ)言為Python，Pytorch框架。Coco和Voc數(shù)據(jù)集上的訓(xùn)練結(jié)果初始化Yolov5s的網(wǎng)絡(luò)參數(shù)，參數(shù)訓(xùn)練采用SGD優(yōu)化算法，參數(shù)設(shè)置Batch為32；最大迭代次數(shù)為400；動(dòng)量因子為0.9；權(quán)重衰減系數(shù)為0.0005。采用余弦退火策略動(dòng)態(tài)調(diào)整學(xué)習(xí)率，初始學(xué)習(xí)率為0.01。采用GIOU Loss作為損失函數(shù)。繪制損失函數(shù)圖，將Yolov5s和Yolov3在自制垃圾數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)對(duì)比，驗(yàn)證實(shí)驗(yàn)方法的有效性。

研究結(jié)論：基于 YOLOv5s 網(wǎng)絡(luò)的垃圾分類(lèi)檢測(cè)模型在不同光照、視角等條件下，檢測(cè)準(zhǔn)確率高，魯棒性好、計(jì)算速度快，有助于促進(jìn)垃圾處理公司實(shí)現(xiàn)智能分揀，提高工作效率。

與同類(lèi)研究相比優(yōu)缺點(diǎn)：自制的垃圾分類(lèi)數(shù)據(jù)集考慮了不同光照、角度、距離和遮擋情況，使模型更具普適性。

文獻(xiàn)閱讀價(jià)值：通過(guò)研究基于視覺(jué)的垃圾檢測(cè)與分類(lèi)模型，實(shí)現(xiàn)對(duì)垃圾的自動(dòng)識(shí)別和檢測(cè)。

[5]康莊,楊杰,郭濠奇.基于機(jī)器視覺(jué)的垃圾自動(dòng)分類(lèi)系統(tǒng)設(shè)計(jì)[J].浙江大學(xué)學(xué)報(bào)(工學(xué)版),2020,54(07):1272-1280+1307.

數(shù)據(jù)來(lái)源：數(shù)據(jù)集來(lái)源于網(wǎng)上和現(xiàn)實(shí)生活拍照，共14種物體4168張圖片。

數(shù)據(jù)處理方法：利用設(shè)計(jì)好的垃圾分類(lèi)硬件系統(tǒng)將所有垃圾分為可回收和不可回收兩大類(lèi)，其中訓(xùn)練樣本占60%，即2500張；驗(yàn)證樣本數(shù)量占20%，即834張；測(cè)試樣本占20%，即834張。以Inception v3為特征提取網(wǎng)絡(luò)，優(yōu)化算法使用RMSprop替代SGD，使用LSR方法降低過(guò)擬合，采用獨(dú)熱編碼的形式進(jìn)行模型訓(xùn)練。使用2個(gè)1×n和n×1的卷積核取代n×n的卷積核，在模型的全連接層進(jìn)行批標(biāo)準(zhǔn)化操作。采用遷移學(xué)習(xí)方法對(duì) Inceptionv3模型進(jìn)行重訓(xùn)練。基于Image Net數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練，訓(xùn)練批次大小為32，激活函數(shù)選擇ReLU函數(shù)，學(xué)習(xí)率為0.001得到預(yù)訓(xùn)練模型；將Inception v3全連接層前的所有卷積層參數(shù)保留不變，將最后的全連接層的輸出由原來(lái)1000變?yōu)?4（14中垃圾種類(lèi)），在自制垃圾數(shù)據(jù)集上繼續(xù)訓(xùn)練，得到垃圾識(shí)別分類(lèi)模型。在公共數(shù)據(jù)集cifar-10上進(jìn)行驗(yàn)證，將Inception v3模型與當(dāng)下較流行的LeNet、Alex Net、Vgg和ResNet模型進(jìn)行對(duì)比，進(jìn)行105次迭代訓(xùn)練。訓(xùn)練完成后比較各模型的準(zhǔn)確率和損失值。

研究結(jié)論：系統(tǒng)能夠有效地進(jìn)行垃圾種類(lèi)的識(shí)別和完成垃圾的分類(lèi)回收。

與同類(lèi)研究相比優(yōu)缺點(diǎn)：以研究設(shè)計(jì)多箱體垃圾桶或者其他結(jié)構(gòu)的垃圾回收裝置，滿(mǎn)足更多目標(biāo)類(lèi)別的分揀需求。

文獻(xiàn)閱讀價(jià)值：提出基于機(jī)器視覺(jué)的垃圾自動(dòng)分類(lèi)系統(tǒng)，設(shè)計(jì)垃圾分類(lèi)的硬件系統(tǒng)，該系統(tǒng)可以滿(mǎn)足可回收和不可回收垃圾分類(lèi)的要求。

[6]和澤.基于遷移學(xué)習(xí)的垃圾分類(lèi)研究[D].寧夏大學(xué),2020.

數(shù)據(jù)來(lái)源：數(shù)據(jù)集使用華為云的公開(kāi)數(shù)據(jù)集，該數(shù)據(jù)集包括可回收物、廚余垃圾、有害垃圾和其他垃圾四個(gè)大類(lèi)，每類(lèi)分為若干小類(lèi)，共40個(gè)類(lèi)別14802張圖片。

數(shù)據(jù)處理方法：首先通過(guò)標(biāo)注新數(shù)據(jù)的方法增加4100張圖片，增加了少類(lèi)別樣本數(shù)量。使用Keras提供的ImageDataGenerator方法對(duì)樣本數(shù)量在300張以下的類(lèi)別數(shù)據(jù)進(jìn)行隨機(jī)幾何變換進(jìn)行數(shù)據(jù)增強(qiáng)。使每個(gè)類(lèi)別的樣本數(shù)均在300張以上，數(shù)據(jù)集的各類(lèi)別樣本數(shù)據(jù)趨于平衡。將數(shù)據(jù)集進(jìn)行9：1拆分，90%的樣本當(dāng)作訓(xùn)練集，10%的樣本當(dāng)作測(cè)試集進(jìn)行訓(xùn)練。采用MobileNetV2模型，設(shè)置相同的數(shù)據(jù)集和參數(shù)，進(jìn)行三組預(yù)訓(xùn)練對(duì)比實(shí)驗(yàn)：隨機(jī)權(quán)重分類(lèi)器對(duì)權(quán)重隨機(jī)初始化，并進(jìn)行訓(xùn)練；訓(xùn)練全連接層分類(lèi)器對(duì)模型卷積層凍結(jié)，訓(xùn)練全連接層；微調(diào)分類(lèi)器凍結(jié)模型的前128層，訓(xùn)練其余的卷積層和全連接層。每個(gè)實(shí)驗(yàn)訓(xùn)練過(guò)程中都迭代200次，采用AdamOptimizer優(yōu)化函數(shù)，學(xué)習(xí)率設(shè)置0.0001，在分類(lèi)層使用softmax層作為分類(lèi)器，損失函數(shù)使用多分類(lèi)交叉熵?fù)p失函數(shù)。使用微調(diào)模型的遷移學(xué)習(xí)方法，采用VGG16、ResNET50與MobileNetV2進(jìn)行模型對(duì)比實(shí)驗(yàn)，采用100張圖片進(jìn)行推理實(shí)驗(yàn)，并用平均值計(jì)算單張圖片推理時(shí)間。

研究結(jié)論：三個(gè)分類(lèi)器分類(lèi)效果最好的是微調(diào)分類(lèi)器，最差的是隨機(jī)權(quán)重分類(lèi)器，訓(xùn)練全連接層分類(lèi)器是處于中間的性能，MobileNetV2模型相對(duì)于VGG16、ResNET50模型在移動(dòng)和嵌入式等便攜式設(shè)備上做了明顯的優(yōu)化，提升了模型精度且降低了存儲(chǔ)空間的要求。最后使用訓(xùn)練好的MobileNetV2模型對(duì)垃圾進(jìn)行分類(lèi)。

與同類(lèi)研究相比優(yōu)缺點(diǎn)：分別從預(yù)訓(xùn)練模型三種策略和不同模型之間進(jìn)行對(duì)比，基于微調(diào)分類(lèi)器的MobileNetV2模型更具說(shuō)服力。但是研究所獲取的數(shù)據(jù)集偏少且類(lèi)別不平衡。

文獻(xiàn)閱讀價(jià)值：以遷移學(xué)習(xí)為基礎(chǔ)提出了基于輕量型網(wǎng)絡(luò)MobileNetV2的垃圾分類(lèi)算法和基于遷移學(xué)習(xí)的移動(dòng)端垃圾分類(lèi)方案，解決了垃圾類(lèi)別龐雜和垃圾分類(lèi)難的問(wèn)題。

[7]袁建野,南新元,蔡鑫,李成榮.基于輕量級(jí)殘差網(wǎng)路的垃圾圖片分類(lèi)方法[J].環(huán)境工程,2021,39(02):110-115.

數(shù)據(jù)來(lái)源：數(shù)據(jù)集由中國(guó)科學(xué)院自動(dòng)化研究所智能服務(wù)機(jī)器人實(shí)驗(yàn)室所提供，共收集了2400張垃圾圖片信息。訓(xùn)練集共1920張，每類(lèi)分別為320張，測(cè)試集共510張，每類(lèi)分別為85張，訓(xùn)練集和測(cè)試集總共分為6類(lèi)。

數(shù)據(jù)處理方法：以ResNet50為基礎(chǔ)進(jìn)行優(yōu)化構(gòu)建輕量級(jí)網(wǎng)絡(luò)，提出最大平均組合池化替換ResNet50的池化層，用深度可分離卷積代替ResNet50中Bottleneck的3×3標(biāo)準(zhǔn)卷積。Mode數(shù)量一共4個(gè)，Mode數(shù)設(shè)置為［1，1，1，1］，每個(gè)Mode的結(jié)構(gòu)都是1×1、3×3、1×1的結(jié)構(gòu)，其中3×3的卷積核用深度可分離卷積替換。實(shí)驗(yàn)batch size設(shè)置為32，學(xué)習(xí)率設(shè)置為0.01，每經(jīng)過(guò)一次步長(zhǎng)為5時(shí)，學(xué)習(xí)率變?yōu)橹暗?5%，訓(xùn)練完成迭代100次。對(duì)不同的池化層以及不同模型進(jìn)行對(duì)比。

研究結(jié)論：提出的最大平均池化輕量級(jí)網(wǎng)絡(luò)使得網(wǎng)路達(dá)到參數(shù)量小、計(jì)算量小、內(nèi)存消耗小，運(yùn)行時(shí)間短的目的。

與同類(lèi)研究相比優(yōu)缺點(diǎn)：提出的輕量級(jí)殘差網(wǎng)路參數(shù)更加簡(jiǎn)化，但是測(cè)試集510張，實(shí)際操作測(cè)試集只利用了1張，測(cè)試集應(yīng)用數(shù)據(jù)較少。

文獻(xiàn)閱讀價(jià)值：提出的輕量級(jí)網(wǎng)絡(luò)適用于移動(dòng)端嵌入式設(shè)備的垃圾分類(lèi)系統(tǒng)應(yīng)用。

[8]董子源.基于深度學(xué)習(xí)的垃圾分類(lèi)系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D].中國(guó)科學(xué)院大學(xué)(中國(guó)科學(xué)院沈陽(yáng)計(jì)算技術(shù)研究所),2020.

數(shù)據(jù)來(lái)源：?jiǎn)螏瑘D像垃圾檢測(cè)：華為公開(kāi)數(shù)據(jù)集（國(guó)內(nèi)唯一公開(kāi)數(shù)據(jù)集），共14683張垃圾圖像和對(duì)應(yīng)的分類(lèi)標(biāo)簽，加上實(shí)地拍攝一些垃圾場(chǎng)景中的圖片。

數(shù)據(jù)處理方法：?jiǎn)螏瑘D像垃圾檢測(cè)：將華為數(shù)據(jù)集按照不同的大類(lèi)別和小類(lèi)別進(jìn)行組合，保存在相應(yīng)的文件夾下。通過(guò)python手動(dòng)標(biāo)注圖像中垃圾的位置信息，利用記錄鼠標(biāo)位置的相應(yīng)函數(shù)，記錄鼠標(biāo)畫(huà)取的垃圾外接矩形，并將矩形的四個(gè)頂點(diǎn)坐標(biāo)記錄在文本文件中。對(duì)數(shù)據(jù)集中不同小類(lèi)的垃圾數(shù)據(jù)進(jìn)行采樣并標(biāo)注，得到2000張不同種類(lèi)的垃圾圖像的數(shù)據(jù)標(biāo)注，作為初始的檢測(cè)網(wǎng)絡(luò)訓(xùn)練數(shù)據(jù)集。通過(guò)第一輪的訓(xùn)練，得到了垃圾檢測(cè)模型初始結(jié)果。使用初始模型對(duì)未經(jīng)訓(xùn)練的數(shù)據(jù)集中其他圖像進(jìn)行檢測(cè)，得到垃圾的初始預(yù)測(cè)位置，并修正檢測(cè)錯(cuò)誤圖像的檢測(cè)框作為圖像中目標(biāo)位置的標(biāo)簽，得到初始訓(xùn)練后的擴(kuò)充數(shù)據(jù)集。用華為數(shù)據(jù)集對(duì)ResNet101、Inception v3和VGG16主干網(wǎng)絡(luò)進(jìn)行評(píng)估，選定ResNet101網(wǎng)絡(luò)作為垃圾檢測(cè)的基線(xiàn)網(wǎng)絡(luò)。在分類(lèi)階段，將數(shù)據(jù)增強(qiáng)后的圖像按4：1的比例分為訓(xùn)練集和測(cè)試集，選用ADAM優(yōu)化算法訓(xùn)練模型動(dòng)量系數(shù)為0.9，共設(shè)50個(gè)迭代周期，初始學(xué)習(xí)率設(shè)為0.01，每隔10個(gè)迭代周期學(xué)習(xí)率衰減0.1倍，一階矩估計(jì)的指數(shù)衰減率為0.99，二階矩估計(jì)的指數(shù)衰減率為0.999。在ResNet101網(wǎng)絡(luò)的不同的Bottle Neck位置僅插入空間注意力模塊、僅插入通道注意力模塊、插入特征融合模塊分別進(jìn)行對(duì)比試驗(yàn)，對(duì)模型的注意力模塊、通道注意力模塊、特征融合模塊分別進(jìn)行評(píng)估。以GCNet作為主干提取網(wǎng)絡(luò)并入到SSD作為垃圾檢測(cè)網(wǎng)絡(luò)的基礎(chǔ)，與加入特征融合與注意力機(jī)制的ResNet101網(wǎng)絡(luò)相結(jié)合。實(shí)地拍攝了一些垃圾場(chǎng)景中的圖片（手動(dòng)繪制檢測(cè)框）與華為數(shù)據(jù)集作為檢測(cè)任務(wù)的訓(xùn)練集和測(cè)試集。使用批量32來(lái)訓(xùn)練模型，使用0.0001的權(quán)重衰減和0.9的動(dòng)量，SGD優(yōu)化器，設(shè)置Dropout為0.8，在每個(gè)conv模塊激活函數(shù)后添加BatchNormalization層以防止過(guò)擬合以及加快網(wǎng)絡(luò)收斂。在相同測(cè)試集上對(duì)DSSD算法進(jìn)行評(píng)估與改進(jìn)的SSD算法進(jìn)行對(duì)比。

研究結(jié)論：加入了注意力機(jī)制、特征融合機(jī)制以及殘差預(yù)測(cè)模塊的SSD在小目標(biāo)方面，效果明顯好于SSD與DSSD算法，檢測(cè)速度方面也明顯好于DSSD，稍微低于SSD。

與同類(lèi)研究相比優(yōu)缺點(diǎn)：針對(duì)樣本集中類(lèi)內(nèi)垃圾形態(tài)差異大，背景變化大，不利于分類(lèi)的情況，本文在分類(lèi)網(wǎng)絡(luò)中加入了空間注意力與通道注意力機(jī)制，有效地提升了分類(lèi)準(zhǔn)確率。

文獻(xiàn)閱讀價(jià)值：提出了對(duì)ResNet101 加入注意力機(jī)制和特征融合機(jī)制的改進(jìn)方法，更好地提取到了垃圾圖像中的有用信息，成功地解決了圖片中類(lèi)內(nèi)差異大不利于分類(lèi)的問(wèn)題。

[9]陳非予,楊婷婷,蔣銘陽(yáng).基于深度學(xué)習(xí)技術(shù)的生活垃圾分類(lèi)模型設(shè)計(jì)[J].電子元器件與信息技術(shù),2020,4(07):94-96.

數(shù)據(jù)來(lái)源：垃圾圖像數(shù)據(jù)是在TrashNet數(shù)據(jù)集的基礎(chǔ)上增加手機(jī)拍照以及網(wǎng)絡(luò)搜索所得，共確定3727張。

數(shù)據(jù)處理方法：采用Inception-v3模型在大型圖像分類(lèi)數(shù)據(jù)集ImageNet訓(xùn)練的參數(shù)模型。特征提取模型采用預(yù)訓(xùn)練模型的網(wǎng)絡(luò)結(jié)構(gòu)和參數(shù)，通過(guò)輸入并處理一張垃圾圖像，提取圖像2048維向量特征，經(jīng)softmax回歸完成垃圾圖像分類(lèi)。訓(xùn)練數(shù)據(jù)為數(shù)據(jù)集中的80%，另20%數(shù)據(jù)作為測(cè)試驗(yàn)證數(shù)據(jù)集。在訓(xùn)練中，設(shè)置超參ECHO為50，即迭代訓(xùn)練訓(xùn)練數(shù)據(jù)集50次，每次選取其中16張圖像進(jìn)行訓(xùn)練，在每次訓(xùn)練的圖像輸入階段，將所選圖像進(jìn)行數(shù)據(jù)增強(qiáng)處理，初始化學(xué)習(xí)率為0.001。

研究結(jié)論：分類(lèi)正確率可以達(dá)到95.3%，證明了該模型對(duì)于實(shí)現(xiàn)垃圾分類(lèi)的有效性。

與同類(lèi)研究相比優(yōu)缺點(diǎn)：垃圾圖像涉及種類(lèi)只包含塑料、金屬、紙板、廢報(bào)紙、玻璃、以及廢料六類(lèi)垃圾圖像，數(shù)據(jù)類(lèi)別較少。

文獻(xiàn)閱讀價(jià)值：模型通過(guò)數(shù)據(jù)增強(qiáng)方法降低了圖像成像要求，對(duì)光照、距離、大小不敏感，具有相當(dāng)高的魯棒性和泛化能力。

[10]呂程熙.基于深度學(xué)習(xí)實(shí)現(xiàn)自動(dòng)垃圾分類(lèi)[J].電子制作,2019(24):36-38.

數(shù)據(jù)來(lái)源：數(shù)據(jù)集共包含10類(lèi)物品的圖片共2000張，每一類(lèi)200張。

數(shù)據(jù)處理方法：1800張為訓(xùn)練集，200張為測(cè)試集。每一類(lèi)共180張為訓(xùn)練集，20張為測(cè)試集。將訓(xùn)練集與測(cè)試集的輸入圖片隨機(jī)裁減成32×32×3大小的圖片，將圖片信息歸一化。建立基于卷積神經(jīng)網(wǎng)絡(luò)的垃圾分類(lèi)分類(lèi)器，學(xué)習(xí)率為0.01，batch_size為5，對(duì)比深度神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)的測(cè)試結(jié)果分類(lèi)準(zhǔn)確度。進(jìn)一步對(duì)數(shù)據(jù)集進(jìn)行二分類(lèi)，劃分為可回收利用和不可回收利用，由十分類(lèi)變?yōu)槎诸?lèi)再次進(jìn)行實(shí)驗(yàn)。

研究結(jié)論：CNN模型的效果要比DNN 模型的效果好。從十分類(lèi)變?yōu)槎诸?lèi)，模型選擇正確的概率大大加大，使得準(zhǔn)確率升高。

與同類(lèi)研究相比優(yōu)缺點(diǎn)：對(duì)比DNN與CNN分類(lèi)識(shí)別效果，證明CNN對(duì)垃圾分類(lèi)識(shí)別應(yīng)用效果更好。但是針對(duì)物品的不同部位屬于不同類(lèi)型的垃圾，還需要增加預(yù)識(shí)別功能。

文獻(xiàn)閱讀價(jià)值：利用算法對(duì)圖像識(shí)別可以大大提高垃圾分類(lèi)的效率，為人們的生活帶來(lái)便利。

[11]高明,陳玉涵,張澤慧,馮雨,樊衛(wèi)國(guó).基于新型空間注意力機(jī)制和遷移學(xué)習(xí)的垃圾圖像分類(lèi)算法[J].系統(tǒng)工程理論與實(shí)踐,2021,41(02):498-512.

數(shù)據(jù)來(lái)源：“華為云人工智能大賽垃圾分類(lèi)挑戰(zhàn)杯”競(jìng)賽提供的數(shù)據(jù)集，共包括14000余張垃圾圖片。

數(shù)據(jù)處理方法：將圖片尺寸統(tǒng)一處理為224×224像素。將數(shù)據(jù)集隨機(jī)劃分為訓(xùn)練集、驗(yàn)證集與測(cè)試集，訓(xùn)練集中劃分為包含14372張圖片，驗(yàn)證集與測(cè)試集各包含215張圖片。選擇EfficientNet-B5、ResNet50、DenseNet-169網(wǎng)絡(luò)架構(gòu)分別對(duì)華為垃圾分類(lèi)數(shù)據(jù)集和ImageNet數(shù)據(jù)集進(jìn)行無(wú)遷移學(xué)習(xí)與有遷移學(xué)習(xí)的訓(xùn)練，其中預(yù)訓(xùn)練權(quán)重均由Keras庫(kù)提供，最后選擇EfficientNet-B5作為GANet中的主干網(wǎng)絡(luò)結(jié)構(gòu)。運(yùn)用以EfficientNet-B5為主干的GANet構(gòu)架，嘗試對(duì)提出的新型的像素級(jí)空間注意力機(jī)制PSATT的基礎(chǔ)結(jié)構(gòu)微調(diào)后的模型進(jìn)行有效性驗(yàn)證，選擇出性能最好的PSATT結(jié)構(gòu)。將GANet結(jié)構(gòu)的注意力模塊分別換成PSATT、Squeeze-and-Excitation block、Non-Local block與注意增強(qiáng)卷積在ImageNet數(shù)據(jù)集上進(jìn)行多次訓(xùn)練對(duì)比。通過(guò)訓(xùn)練策略消融實(shí)驗(yàn)、迭代延長(zhǎng)實(shí)驗(yàn)和交叉驗(yàn)證實(shí)驗(yàn)來(lái)檢驗(yàn)GANet架構(gòu)在訓(xùn)練過(guò)程中是否出現(xiàn)過(guò)擬合情況。依次用ResNet50和DenseNet-169架構(gòu)替換GANet主干結(jié)構(gòu)中的EfficientNet-B5進(jìn)行遷移學(xué)習(xí)，驗(yàn)證PSATT在不同網(wǎng)絡(luò)架構(gòu)上的適用性。將輸入圖片尺寸設(shè)為456×456，借助該比賽的自動(dòng)化測(cè)試系統(tǒng)對(duì)GANet進(jìn)行云端評(píng)估，測(cè)試集為賽方未公開(kāi)的4000張盲測(cè)圖片。對(duì)于GANet模型的訓(xùn)練中選用RAdam優(yōu)化，損失函數(shù)選擇標(biāo)簽平滑正則化+Focal loss，用在OCL基礎(chǔ)上提出的階梯形OneCycle控制學(xué)習(xí)率，在訓(xùn)練的最后幾個(gè)輪次，對(duì)于權(quán)重平滑選擇進(jìn)行SWA處理。

研究結(jié)論：基于PSATT機(jī)制的GANet在細(xì)粒度垃圾圖像分類(lèi)問(wèn)題中，整體準(zhǔn)確率相較對(duì)比方法得到了顯著提升。

與同類(lèi)研究相比優(yōu)缺點(diǎn)：改進(jìn)的階梯形OneCycle學(xué)習(xí)率控制方法和RAdam優(yōu)化方法的結(jié)合使用加快收斂速度，縮短實(shí)驗(yàn)周期；運(yùn)用標(biāo)簽平滑和Focalloss緩解樣本不平衡問(wèn)題；優(yōu)化方法與階梯形OneCycle學(xué)習(xí)策略的結(jié)合使用緩解了模型收斂階段的不穩(wěn)定性。但是圖像數(shù)據(jù)集在不同光照條件、不同終端采集的圖像存在格式、噪音、分辨率等差異。

文獻(xiàn)閱讀價(jià)值：針對(duì)問(wèn)題特點(diǎn)，提出了一種新型的像素級(jí)空間注意力機(jī)制，建立了一套端到端的面向細(xì)粒度垃圾圖像分類(lèi)的遷移學(xué)習(xí)架構(gòu)GANet。

[12]王洋.垃圾分類(lèi)數(shù)據(jù)的機(jī)器學(xué)習(xí)方法研究[D].黑龍江大學(xué),2020.

數(shù)據(jù)來(lái)源：選擇了來(lái)自Kaggle網(wǎng)站上提供的包括濕垃圾、可回收物兩類(lèi)垃圾的圖像數(shù)據(jù)，包含訓(xùn)練集22564張，測(cè)試集2513張，練集中包含12565張濕垃圾圖像，9999張可回收垃圾圖像；而測(cè)試集中包含1401張濕垃圾圖像，1112張可回收垃圾圖像。

數(shù)據(jù)處理方法：預(yù)處理：對(duì)圖像進(jìn)行灰度化處理，選擇將所有圖像尺寸設(shè)為64×64將圖像尺寸歸一化。運(yùn)用python從兩類(lèi)垃圾圖像中分別提取顏色特征和紋理特征作為分類(lèi)依據(jù)。選用灰度直方圖作為圖像的顏色特征，將灰度直方圖和圖像標(biāo)簽作為KNN和SVM算法的輸入。對(duì)圖像的LBP和HOG特征向量進(jìn)行PCA降維以提高計(jì)算機(jī)運(yùn)行速度，保留原數(shù)據(jù)95%的信息提取出降維后的LBP特征和HOG特征。傳統(tǒng)機(jī)器學(xué)習(xí)算法：使用sklearn庫(kù)中的KNeighborsClassifier函數(shù)搭建KNN模型，距離定義為歐式距離，分別以GH，HOG，LBP特征向量導(dǎo)入模型并分別建模，參數(shù)??分別設(shè)置為5，10，15，...，50，運(yùn)行10次KNN模型，將模型的5折交叉驗(yàn)證最高準(zhǔn)確度定最終準(zhǔn)確度。SVM模型核函數(shù)選RBF徑向基函數(shù)，將GH，HOG，LBP三種圖像特征算子分別導(dǎo)入模型并分別建模，SVM函數(shù)的初始參數(shù)設(shè)置為懲罰項(xiàng)??=1，2，…，10，松弛變量??=0.1，0.2，…，1.0，將模型的5折交叉驗(yàn)證最高準(zhǔn)確度定最終準(zhǔn)確度。對(duì)比KNN與SVM分類(lèi)結(jié)果。卷積神經(jīng)網(wǎng)絡(luò)：使用基于Python的tensorflow框架搭建設(shè)定的簡(jiǎn)化版輕量型VGGNet（mini-VGG）。將輸入卷積神經(jīng)網(wǎng)絡(luò)的圖像尺寸設(shè)定為64×64的三通道圖像，Batchsize設(shè)為64，設(shè)置epoch次數(shù)為50，損失函數(shù)定義為交叉熵，驗(yàn)證集占測(cè)試集比重為30%。

研究結(jié)論：mini-VGG模型的分類(lèi)準(zhǔn)確度明顯地高于其他兩個(gè)傳統(tǒng)機(jī)器學(xué)習(xí)算法，但模型如果特征選取合適，傳統(tǒng)機(jī)器學(xué)習(xí)算法在圖像分類(lèi)領(lǐng)域中的分類(lèi)準(zhǔn)確度不弱于深度學(xué)習(xí)。

與同類(lèi)研究相比優(yōu)缺點(diǎn)：垃圾圖像中不同種類(lèi)垃圾圖像數(shù)量分布較均勻，避免了圖像數(shù)據(jù)不平衡所帶來(lái)的問(wèn)題。

文獻(xiàn)閱讀價(jià)值：創(chuàng)造性地使用了一個(gè)精簡(jiǎn)版的Mini-VGG結(jié)構(gòu)，大幅度減少了模型訓(xùn)練的參數(shù)，極大提高了模型運(yùn)行的效率。

[13]齊鑫宇,龔劬,李佳航,何建龍.基于深度學(xué)習(xí)的垃圾圖片處理與識(shí)別[J].電腦知識(shí)與技術(shù),2021,17(09):20-24.

數(shù)據(jù)來(lái)源：含果皮，紙箱，電池，廚余垃圾，燈泡，書(shū)本，鞋子，廢衣服等25類(lèi)的自定義數(shù)據(jù)集。

數(shù)據(jù)處理方法：數(shù)據(jù)集在每個(gè)分類(lèi)含10000張照片，選取其中5000張作為訓(xùn)練集，其余的作為測(cè)試集。更改數(shù)據(jù)集中圖像格式為jpg格式，將圖片尺寸裁剪為300×300格式。將圖片通過(guò)裁剪，反轉(zhuǎn)，鏡像增加數(shù)據(jù)集的數(shù)量。采用均值濾波對(duì)圖像去噪。在ResNet101主干網(wǎng)絡(luò)中，改變其原有的Relu激活函數(shù)，采用改進(jìn)的Elu函數(shù)。在測(cè)試模型訓(xùn)練性能之前，首先選取兩張圖片對(duì)卷積神經(jīng)網(wǎng)絡(luò)模型對(duì)圖片特征提取的性能進(jìn)行測(cè)試，對(duì)比新模型與原模型的準(zhǔn)確率與損失函數(shù)。對(duì)十類(lèi)垃圾分別各選取100張隨機(jī)圖片作為識(shí)別對(duì)象應(yīng)用于模型中進(jìn)行模型的識(shí)別測(cè)試。

研究結(jié)論：新模型在訓(xùn)練精度與速度相比于原ResNet101模型有明顯的提高。訓(xùn)練結(jié)果相比原模型提前1500步達(dá)到100%識(shí)別以及提前5分鐘；識(shí)別準(zhǔn)確率提高10%。

與同類(lèi)研究相比優(yōu)缺點(diǎn)：在ResNet101基礎(chǔ)上提出了一種新型模型，極大提高了模型的訓(xùn)練速度以及識(shí)別精確度。

文獻(xiàn)閱讀價(jià)值：為未來(lái)實(shí)現(xiàn)人工智能垃圾分類(lèi)提供圖像識(shí)別模型基礎(chǔ)。

[14]Sha Meng,Meng Sha,Zhang Ning,Ren Yunwen. X-DenseNet: Deep Learning for Garbage Classification Based on Visual Images[J]. Journal of Physics: Conference Series,2020,1575(1).

數(shù)據(jù)來(lái)源：GitHub的trashnet數(shù)據(jù)集，共有2527幅彩色圖像，分為6類(lèi)垃圾。

數(shù)據(jù)處理方法：圖片尺寸調(diào)整為512×384。首先通過(guò)剪切旋轉(zhuǎn)、翻轉(zhuǎn)等方法對(duì)數(shù)據(jù)集中的原始圖像進(jìn)行數(shù)據(jù)增強(qiáng)操作。將數(shù)據(jù)集中90%和10%的圖片相對(duì)作為訓(xùn)練集和測(cè)試集。在Xcepion的基礎(chǔ)上使用Dense模塊來(lái)實(shí)現(xiàn)功能重用和融合。將150×150×3的垃圾圖像作為輸入，通過(guò)Xception提取圖像特征，通過(guò)32個(gè)卷積核（3×3）和64個(gè)卷積核（5×5）轉(zhuǎn)置卷積以增加特征的大小和數(shù)量作為下層輸入的特征圖x₀。在Dense模塊采用ReLU激活函數(shù)，32個(gè)1×1卷積核和32個(gè)3×3卷積核，獲得特征圖x₁，裁剪x₀、x₁，作為Dense模塊的下一層輸入，以此類(lèi)推，Dense模塊之間用1×1卷積層和一個(gè)2×2最大池化層連接。第三個(gè)Dense模塊的輸出與3×3和5×5卷積核交替進(jìn)行轉(zhuǎn)置和卷積擴(kuò)展特征的數(shù)量。最終輸出經(jīng)過(guò)全連通層映射到6個(gè)神經(jīng)元，對(duì)應(yīng)垃圾的6個(gè)分類(lèi)。訓(xùn)練過(guò)程中每批32個(gè)，優(yōu)化器為SGD，動(dòng)量為0.9，初始學(xué)習(xí)率為0.001，損失函數(shù)為交叉熵函數(shù)。數(shù)據(jù)集中的248張圖片被用作測(cè)試集。經(jīng)過(guò)數(shù)據(jù)增強(qiáng)處理，測(cè)試中每批數(shù)據(jù)40張彩色垃圾圖片。在數(shù)據(jù)集上進(jìn)行X-DenseNet和AlexNet、ResNet50、InceptionV3、Vg16以及Vg19的對(duì)比實(shí)驗(yàn)。

研究結(jié)論：設(shè)計(jì)的基于深度卷積神經(jīng)網(wǎng)絡(luò)的垃圾分類(lèi)模型識(shí)別準(zhǔn)確率高于其他先進(jìn)的圖像分類(lèi)網(wǎng)絡(luò)。

與同類(lèi)研究相比優(yōu)缺點(diǎn)：通過(guò)“獲取數(shù)據(jù)集-預(yù)處理數(shù)據(jù)-建立X-DenseNet模型-訓(xùn)練和測(cè)試模型”的過(guò)程進(jìn)行實(shí)驗(yàn)，模型在測(cè)試集上的準(zhǔn)確率高達(dá)94.1%，超過(guò)了一些經(jīng)典的分類(lèi)網(wǎng)絡(luò)。

文獻(xiàn)閱讀價(jià)值：提出的基于視覺(jué)圖像的X-densente垃圾自動(dòng)分類(lèi)模型能夠有效減少人工投入，提高垃圾回收率。

二、醫(yī)學(xué)圖像識(shí)別

[15]韓龍飛,李婉,曾曙光,何慧靈. Bank Card Number Intelligent Identification Based on Digital Image Processing Technology[J]. Journal of Image and Signal Processing,2016,5(3).

研究背景：現(xiàn)有較為成熟的卡號(hào)識(shí)別系統(tǒng)僅限于磁條讀取，磁條的壽命有限，刷取一定的次數(shù)后會(huì)出現(xiàn)不同程度的磨損。采用圖像處理光學(xué)方法非接觸式測(cè)量，對(duì)卡面幾乎沒(méi)有任何損耗，可以無(wú)限次、大批量的對(duì)卡號(hào)進(jìn)行提取統(tǒng)計(jì)，同時(shí)解決了現(xiàn)有的銀行卡號(hào)信息傳輸手動(dòng)輸入工作量大的問(wèn)題。

數(shù)據(jù)來(lái)源：樣本圖片來(lái)源分為網(wǎng)上隨機(jī)搜索和人工手動(dòng)拍攝兩種。

數(shù)據(jù)處理方法：借助matlab圖像預(yù)處理：對(duì)三維彩色圖像灰度化處理，將灰度化的圖像中包含卡號(hào)信息的區(qū)域反相，使卡號(hào)信息變?yōu)榘咨Ｎ牟捎肅anny算子將卡的外邊框提取出來(lái)，進(jìn)行膨脹防止斷線(xiàn)，然后對(duì)封閉線(xiàn)進(jìn)行填充。填充后的圖片與反相后圖片相乘，將背景變?yōu)槿冢懦尘案蓴_。對(duì)去除背景的圖像進(jìn)行二值化處理并去除噪點(diǎn)。字符定位與提?。和ㄟ^(guò)膨脹圖像，將靠得較近的字符連通成一個(gè)區(qū)域，將每個(gè)連通區(qū)域的原始圖片進(jìn)行識(shí)別預(yù)處理。字符分割：采用邊緣提取圖像與原圖像相加的方法來(lái)增強(qiáng)圖像效果，利用旋轉(zhuǎn)函數(shù)對(duì)增強(qiáng)后的圖像進(jìn)行水平矯正。對(duì)圖像區(qū)域化標(biāo)記，設(shè)定圖像所有小區(qū)域中最大高度high_max 的二分之一為閾值，大于閾值則分割提取，即可完整保留目標(biāo)數(shù)字，去除干擾部分的小區(qū)域，實(shí)現(xiàn)字符分割。字符識(shí)別：對(duì)分割后的圖像進(jìn)行歸一化處理，將切割后的第一幅字符圖像與模板0—9的圖片取異或后1的數(shù)量即為圖片與數(shù)字模板的誤差值。采用sort函數(shù)排序后找出其中值最小的，取它對(duì)應(yīng)的模板圖像為其目標(biāo)圖像匹配圖，輸出匹配圖像所對(duì)應(yīng)的0—9之間序號(hào)數(shù)保存。在所有的數(shù)字區(qū)域中篩選出銀行卡號(hào)碼，按照順序保存的銀行卡數(shù)字信息，轉(zhuǎn)成txt格式輸出。

研究結(jié)論：對(duì)中國(guó)農(nóng)業(yè)銀行、中國(guó)銀行、中國(guó)工商銀行等幾大銀行的銀行卡進(jìn)行了測(cè)試，發(fā)現(xiàn)中國(guó)農(nóng)業(yè)銀行的卡號(hào)識(shí)別率最高，達(dá)到了97.5%；各類(lèi)銀行卡的綜合識(shí)別率達(dá)了85.6%。影響銀行卡卡號(hào)識(shí)別率和識(shí)別速度的主要因素有卡面背景的復(fù)雜度、照片質(zhì)量、卡號(hào)數(shù)字本身的質(zhì)量等。

與同類(lèi)研究相比優(yōu)缺點(diǎn)：在進(jìn)行數(shù)字圖像識(shí)別同時(shí)還分析了影響識(shí)別準(zhǔn)確率的因素，為識(shí)別系統(tǒng)優(yōu)化提供思路。但是研究收集數(shù)據(jù)較少。

文獻(xiàn)閱讀價(jià)值：該技術(shù)有望取代傳統(tǒng)的磁條讀取卡號(hào)的方式，形成一種新的無(wú)接觸的卡號(hào)讀取方式。

[16]高雷鳴,肖滿(mǎn)生,向華政.基于深度學(xué)習(xí)的肺部腫瘤圖像識(shí)別方法[J].計(jì)算機(jī)測(cè)量與控制,2020,28(10):160-164.

研究背景：鑒于淺層卷積神經(jīng)網(wǎng)絡(luò)難以獲取圖像深層特征、易過(guò)度擬合導(dǎo)致分類(lèi)效率和精度低的問(wèn)題，設(shè)計(jì)一種肺部腫瘤圖像的深度學(xué)習(xí)識(shí)別模型。

數(shù)據(jù)來(lái)源：肺結(jié)節(jié)數(shù)據(jù)集LIDC，每個(gè)病例都包含50—250張肺部CT圖像和一個(gè)注釋文件。

數(shù)據(jù)處理方法：將肺部圖像進(jìn)行歸一化預(yù)處理操作，壓縮為227×227，將樣本進(jìn)行排序并按照一定的數(shù)量將肺部CT圖像劃分為訓(xùn)練樣本70％和測(cè)試樣本30％。將肺部腫瘤圖像水平、垂直翻轉(zhuǎn)、轉(zhuǎn)動(dòng)135°／270°、縮放比例、加入高斯噪聲、裁剪、移位等操作，將已有的訓(xùn)練樣本集擴(kuò)充為新的樣本集。使用準(zhǔn)確率ACC、敏感性SNR、特異度SPR、AUC面積和訓(xùn)練時(shí)間來(lái)判定該分類(lèi)系統(tǒng)的性能。在每個(gè)卷積層和神經(jīng)元激活函數(shù)之間引入批量歸一化層，對(duì)輸入數(shù)據(jù)首先進(jìn)行預(yù)歸一化處理，代替原網(wǎng)絡(luò)中的局部歸一化操作，選擇最大池化操作，在全連接層中加入Dropout并采用ReLU作為激活函數(shù)，通過(guò)三層全連接層和Softmax分類(lèi)器實(shí)現(xiàn)肺部腫瘤圖像的分類(lèi)。在整個(gè)網(wǎng)絡(luò)訓(xùn)練之前，首先利用ImageNet數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練，損失函數(shù)變化速率設(shè)置為0.01，迭代次數(shù)設(shè)為5000，用訓(xùn)練好的參數(shù)作為模型訓(xùn)練的輸入值。將所設(shè)計(jì)的模型與LeNet-5、ResNet、AlexNet、VGGNet、GooLeNet模型進(jìn)行比較。

研究結(jié)論：所設(shè)計(jì)的方法在網(wǎng)絡(luò)收斂速率和分類(lèi)精度方面取得更優(yōu)性能，比基于AlexNet卷積神經(jīng)網(wǎng)絡(luò)分類(lèi)精度提高5.66％以上，且具備良好的健壯性。

與同類(lèi)研究相比優(yōu)缺點(diǎn)：在利用遷移學(xué)習(xí)和樣本擴(kuò)充基礎(chǔ)上，并在網(wǎng)絡(luò)每層數(shù)據(jù)輸入前預(yù)先歸一化處理，防止傳統(tǒng)特征提取和分類(lèi)的限制性，減少了高頻特征對(duì)網(wǎng)絡(luò)模型的影響。

文獻(xiàn)閱讀價(jià)值：為醫(yī)生判斷提供良好的協(xié)助作用。

[17]孟子堯,陳斯佳,呂天予,張志剛,王筱霞,盛斌,毛麗娟.基于深度學(xué)習(xí)的腎小球病理圖像識(shí)別與分類(lèi)[J/OL].計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào):1-10[2021-06-01].

研究背景：病理切片中腎小球的識(shí)別和分類(lèi)是診斷腎臟病變程度和病變類(lèi)型的關(guān)鍵，為解決腎小球的識(shí)別和分類(lèi)問(wèn)題，設(shè)計(jì)了一個(gè)基于深度學(xué)習(xí)的完整的腎小球檢測(cè)及分類(lèi)框架。

數(shù)據(jù)來(lái)源：共制作了4個(gè)數(shù)據(jù)集，分別是單一腎小球數(shù)據(jù)集、腎小球九宮格數(shù)據(jù)集、目標(biāo)檢測(cè)數(shù)據(jù)集和WSI數(shù)據(jù)集，共11幅原始切片，根據(jù)11幅原始切片制作出數(shù)據(jù)集圖像數(shù)量分別為8，33，73，85，106，124，181，275，404，610，828。

數(shù)據(jù)處理方法：將單幅切片劃分為左右2個(gè)區(qū)域，左側(cè)區(qū)域中裁取出的圖像作為訓(xùn)練集，右側(cè)區(qū)域裁取出的圖像作為測(cè)試集，共2747幅圖像及其對(duì)應(yīng)的標(biāo)注文件。采用旋轉(zhuǎn)、色彩抖動(dòng)和mixup結(jié)合水平翻轉(zhuǎn)、垂直翻轉(zhuǎn)和逆時(shí)針旋轉(zhuǎn)90°對(duì)原始圖像進(jìn)行數(shù)據(jù)增強(qiáng)，擴(kuò)充數(shù)據(jù)集。在YOLO的檢測(cè)方法，提出了名為區(qū)域網(wǎng)格網(wǎng)絡(luò)RGNet的檢測(cè)窗生成方法，檢測(cè)窗生成應(yīng)用WSI數(shù)據(jù)集。采用Faster R-CNN對(duì)腎小球定位，實(shí)現(xiàn)腎小球檢測(cè)。腎小球檢測(cè)數(shù)據(jù)集隨機(jī)劃分為訓(xùn)練集2247幅圖像和驗(yàn)證集500幅圖像。訓(xùn)練和測(cè)試時(shí)都不使用只出現(xiàn)30%面積的腎小球。將NMS算法改進(jìn)為NMS-Lite算法在腎小球檢測(cè)后進(jìn)行腎小球合并。將腎小球粗分類(lèi)為3類(lèi). 正常腎小球和輕度、中度系膜增生的腎小球，使用CNN進(jìn)行粗分類(lèi)，然后將重點(diǎn)放在特殊的類(lèi)別和區(qū)分度小以致難以分類(lèi)的類(lèi)別上進(jìn)行細(xì)分類(lèi)。

研究結(jié)論：腎小球分類(lèi)在驗(yàn)證集上的準(zhǔn)確率分別為粗分類(lèi)為97.6%，正常、輕度和中度細(xì)分類(lèi)為66.7%，硬化和新月體分類(lèi)為88.3%。

與同類(lèi)研究相比優(yōu)缺點(diǎn)：優(yōu)化了傳統(tǒng)的NMS算法，優(yōu)化后的NMS-Lite算法對(duì)于合并腎小球檢測(cè)結(jié)果速度更快，準(zhǔn)確度更高。但是原始數(shù)據(jù)量較少。

文獻(xiàn)閱讀價(jià)值：腎小球檢測(cè)方法在測(cè)試集上取得了與同類(lèi)方法可比的精度，且在一定程度上解決了相似類(lèi)別的腎小球難以區(qū)分的問(wèn)題。

[18]馬少龍.基于深度學(xué)習(xí)技術(shù)-Faster R-CNN對(duì)頸脊髓損傷及頸間盤(pán)疾病核磁圖像的識(shí)別檢測(cè)[D].吉林大學(xué),2020.

研究背景：頸椎間盤(pán)突出主要引起脊髓的形態(tài)變化為主，脊髓損傷則一般引起脊髓內(nèi)信號(hào)的改變。醫(yī)院具有海量的影像學(xué)數(shù)據(jù)的優(yōu)勢(shì)，隨著人工智能的研究火熱，各個(gè)科室也都進(jìn)行了大數(shù)據(jù)+人工智能模式嘗試應(yīng)用，并取得了滿(mǎn)意的效果。

數(shù)據(jù)來(lái)源：在2013年1月至2018年12月期間，在吉林大學(xué)中日聯(lián)誼醫(yī)院收治的頸脊髓損傷、頸椎間盤(pán)退變性疾病，以及門(mén)診患者的頸椎核磁作為這次實(shí)驗(yàn)的數(shù)據(jù)集。

數(shù)據(jù)處理方法：根據(jù)納入排除標(biāo)準(zhǔn)篩選數(shù)據(jù)集，包含1510位患者，1210名作為訓(xùn)練集，300名作為交叉驗(yàn)證集。對(duì)原始圖片進(jìn)行批量處理，讀取圖片存放目錄、圖片命名；將所分類(lèi)的MRI圖片進(jìn)行標(biāo)簽分類(lèi)，其中，間盤(pán)突出組、損傷信號(hào)異常組需要標(biāo)記，正常的不用標(biāo)簽；將圖片尺寸統(tǒng)一為600*800，最后標(biāo)簽提取，形成數(shù)據(jù)庫(kù)。預(yù)測(cè)階段時(shí)，采用水平翻轉(zhuǎn)對(duì)測(cè)試集做數(shù)據(jù)增強(qiáng)，將數(shù)據(jù)擴(kuò)大為10倍，圖片規(guī)格為600*800*3，取原始圖像和翻轉(zhuǎn)圖像的分類(lèi)概率（Softmax）作為最終得分。采用Faster R-CNN以及VGG-16和Resnet50對(duì)頸脊髓損傷以及頸椎間盤(pán)突出的上的核磁損傷區(qū)域進(jìn)行識(shí)別預(yù)測(cè)，經(jīng)過(guò)300名驗(yàn)證集合的模型驗(yàn)證和通過(guò)迭代更新最優(yōu)參數(shù)后，并通過(guò)測(cè)試集來(lái)對(duì)訓(xùn)練好的模型進(jìn)行檢測(cè)并得到相應(yīng)的預(yù)測(cè)準(zhǔn)確率。選擇mAP對(duì)模型效率進(jìn)行評(píng)價(jià)。預(yù)測(cè)階段選用500張圖片作為測(cè)試集來(lái)驗(yàn)證并比較以VGG-16、Resnet50為骨架的網(wǎng)絡(luò)模型效果。

研究結(jié)論：應(yīng)用Faster-RCNN算法并以VGG-16以及ResNet50為骨架的神經(jīng)網(wǎng)絡(luò)模型是能夠識(shí)別檢測(cè)頸椎核磁間盤(pán)突出以及脊髓信號(hào)改變的常見(jiàn)疾病。以ResNet50為骨架的網(wǎng)絡(luò)架構(gòu)模型較以VGG-16為骨架的網(wǎng)絡(luò)架構(gòu)模型而言預(yù)測(cè)效果更佳，檢測(cè)速度更快。

與同類(lèi)研究相比優(yōu)缺點(diǎn)：采用了深度學(xué)習(xí)中識(shí)別檢測(cè)任務(wù)的方法對(duì)常見(jiàn)的頸椎疾病進(jìn)行判定預(yù)測(cè)，其結(jié)果也達(dá)到了同期學(xué)術(shù)期刊報(bào)道的效果。

文獻(xiàn)閱讀價(jià)值：利用深度學(xué)習(xí)技術(shù)對(duì)頸椎常見(jiàn)的疾病進(jìn)行識(shí)別檢測(cè)的成功，為頸椎疾病核磁+深度學(xué)習(xí)模式奠定了理論性基礎(chǔ)。

[19]連先峰,劉志勇,張琳,韓雨晨,史國(guó)梅.一種基于深度學(xué)習(xí)的視網(wǎng)膜病變圖像識(shí)別方法[J].計(jì)算機(jī)應(yīng)用與軟件,2021,38(01):179-185.

研究背景：解決醫(yī)學(xué)上糖尿病性視網(wǎng)膜病變圖像人工識(shí)別困難、精度差等問(wèn)題，提出一種基于多特征融合的卷積神經(jīng)網(wǎng)絡(luò)識(shí)別方法。

數(shù)據(jù)來(lái)源：初始數(shù)據(jù)來(lái)自一些大學(xué)以及競(jìng)賽平臺(tái)，主要包含5 個(gè)數(shù)據(jù)集，共計(jì)眼底圖像 30571 幅，其中正常圖像13615 幅，病變圖像16956幅。

數(shù)據(jù)處理方法：使用Open CV對(duì)眼底圖像作統(tǒng)一化和增強(qiáng)化處理。以VGG-16為基礎(chǔ)模型，采用add方式的特征融合對(duì)各卷積層上提取的特征進(jìn)行融合。各層激活函數(shù)采用ReLU函數(shù)，輸出層采用Softmax函數(shù)，模型中有5個(gè)Convolution層、5個(gè)Maxpool層、1個(gè)FeatureFusion層、2個(gè)FullConnection層和1個(gè)Softmax層，輸入圖像大小為64×64×3。其中Cov1、Cov2、Cov3、Cov4、Cov5中的Filter個(gè)數(shù)分別為64、128、256、512、512。Filter尺寸為3×3×3，F(xiàn)ilter stride為1。Maxpool層中Filter尺寸為2×2×3，F(xiàn)ilter stride為2。2個(gè)Full connection層的維度分別為8192和4096。Softmax層的輸出分為2類(lèi)，分別代表正常眼底圖像和病變眼底圖像。在模型訓(xùn)練過(guò)程中使用Dropout技術(shù)防止過(guò)擬合。最后與Alex-Net、Google-Net、ＲesNet-101等常規(guī)算法及Compact-Net算法進(jìn)行對(duì)比試驗(yàn)。

研究結(jié)論：基于多特征融合的深度學(xué)習(xí)框架圖像識(shí)別系統(tǒng)在數(shù)據(jù)集上的平均識(shí)別精度達(dá)到94.23%，相較于Alex-Net、Google-Net、Compact-Net、ＲesNet-101等模型分別提高了10.56%、7.80%、6.01%、0.02%。

與同類(lèi)研究相比優(yōu)缺點(diǎn)：在VGG-16網(wǎng)絡(luò)結(jié)構(gòu)的基礎(chǔ)上，通過(guò)融合各卷積層上的特征，使模型對(duì)病變眼底圖像的細(xì)微特征更加敏感。但是由于實(shí)驗(yàn)數(shù)據(jù)集使用的是RGB格式的圖像，以致色彩對(duì)圖像識(shí)別造成了一定的影響。

文獻(xiàn)閱讀價(jià)值：初始數(shù)據(jù)集經(jīng)擴(kuò)充、統(tǒng)一化處理成為新的數(shù)據(jù)集。在新數(shù)據(jù)集上訓(xùn)練模型，使模型獲得良好的魯棒性和泛化能力。

[20]焦龍,楊翊,何羽,劉珂,成斌杰.基于深度學(xué)習(xí)的口腔癌圖像識(shí)別研究[J].電腦與信息技術(shù),2021,29(02):60-64.

研究背景：口腔癌是湖南省發(fā)病率最高的惡性腫瘤之一，基于圖像的口腔癌識(shí)別能夠?yàn)獒t(yī)生盡早診斷提供有效醫(yī)療輔助手段。

數(shù)據(jù)來(lái)源：Github。

數(shù)據(jù)處理方法：首先對(duì)數(shù)據(jù)樣本進(jìn)行數(shù)據(jù)增強(qiáng)，使用了在Image Net數(shù)據(jù)集上預(yù)訓(xùn)練好的著名網(wǎng)絡(luò)進(jìn)行遷移學(xué)習(xí)，在其后接若干層的全連接層。在全連接層中使用的激活函數(shù)為RELU，最后分類(lèi)層神經(jīng)元數(shù)為2，使用softmax激活函數(shù)。本實(shí)驗(yàn)已經(jīng)將在Image Net上預(yù)訓(xùn)練過(guò)的權(quán)重進(jìn)行凍結(jié)，不再參與后續(xù)訓(xùn)練造成的神經(jīng)元數(shù)值變動(dòng)，只訓(xùn)練新增的全連接層。設(shè)置Learning Rate Scheduler用來(lái)動(dòng)態(tài)調(diào)整學(xué)習(xí)率，設(shè)置ReduceLROnPlateau用來(lái)在訓(xùn)練停滯不前的時(shí)候動(dòng)態(tài)降低學(xué)習(xí)率。選用優(yōu)化器adam，損失函數(shù)categorical_crossentropy。輪次100。

研究結(jié)論：基于卷積神經(jīng)網(wǎng)絡(luò)的遷移學(xué)習(xí)模型可以很好地承擔(dān)口腔癌分類(lèi)任務(wù)。

與同類(lèi)研究相比優(yōu)缺點(diǎn)：模型設(shè)有大量神經(jīng)元與已經(jīng)訓(xùn)練完成的預(yù)訓(xùn)練網(wǎng)絡(luò)來(lái)彌補(bǔ)數(shù)據(jù)集過(guò)少帶來(lái)的過(guò)擬合問(wèn)題，使模型更快速地收斂。但是所采用的原始圖像數(shù)據(jù)量比較少，正負(fù)樣本不均衡，存在一些干擾項(xiàng)。

文獻(xiàn)閱讀價(jià)值：利用大量神經(jīng)元和已經(jīng)訓(xùn)練完成的預(yù)訓(xùn)練網(wǎng)絡(luò)來(lái)彌補(bǔ)數(shù)據(jù)集過(guò)少帶來(lái)的過(guò)擬合問(wèn)題，使模型更快速地收斂。

來(lái)源：統(tǒng)計(jì)家園

 End 

聲明：部分內(nèi)容來(lái)源于網(wǎng)絡(luò)，僅供讀者學(xué)術(shù)交流之目的。文章版權(quán)歸原作者所有。如有不妥，請(qǐng)聯(lián)系刪除。

【文獻(xiàn)閱讀筆記】圖像識(shí)別與分類(lèi)