<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          【文獻(xiàn)閱讀筆記】圖像識(shí)別與分類(lèi)

          共 16913字,需瀏覽 34分鐘

           ·

          2021-06-17 15:00

          圖像識(shí)別是利用計(jì)算機(jī)對(duì)圖像進(jìn)行處理、分析和理解,以識(shí)別各種不同模式的目標(biāo)和對(duì)象的技術(shù),是應(yīng)用深度學(xué)習(xí)算法的一種實(shí)踐應(yīng)用。圖像分類(lèi)是根據(jù)圖像的語(yǔ)義信息對(duì)不同類(lèi)別圖像進(jìn)行區(qū)分,是計(jì)算機(jī)視覺(jué)的核心,是物體檢測(cè)、圖像分割、物體跟蹤、行為分析、人臉識(shí)別等其他高層次視覺(jué)任務(wù)的基礎(chǔ)。圖像識(shí)別與分類(lèi)在許多領(lǐng)域都有著廣泛的應(yīng)用。

          一、垃圾圖像識(shí)別及分類(lèi)

          研究背景:垃圾分類(lèi)可以實(shí)現(xiàn)資源的回收利用,是解決垃圾處理問(wèn)題的有效方式。傳統(tǒng)的手工垃圾分揀的效率低、成本高,因此,如何將垃圾自動(dòng)按類(lèi)處理具有重要的研究意義。

          [1].Engineering; Study Results from Ho Chi Minh City University of Technology Hutech Update Understanding of Engineering (A Novel Framework for Trash Classification Using Deep Transfer Learning)[J].Journal of Engineering,2020.

          數(shù)據(jù)來(lái)源:TrashNet數(shù)據(jù)集和自制越南垃圾數(shù)據(jù)集(VN-trash dataset),該數(shù)據(jù)集由來(lái)自越南的有機(jī)、無(wú)機(jī)和醫(yī)療廢物三個(gè)不同類(lèi)別的5904幅圖像組成。

          數(shù)據(jù)處理方法:選擇ResNext架構(gòu)作為應(yīng)用遷移學(xué)習(xí)的基礎(chǔ)模型,修改了原始ResNext-101模型,在全局平均池層之后添加了兩個(gè)完全連接的層。輸入圖像的被歸一化為0和1之間的值。在訓(xùn)練和測(cè)試階段,通過(guò)水平翻轉(zhuǎn)和隨機(jī)裁剪方式,進(jìn)行數(shù)據(jù)增強(qiáng)處理生成更多的圖像。在訓(xùn)練階段,為每個(gè)特定的廢物類(lèi)別呈現(xiàn)的輸入圖像被輸入到我們建議的體系結(jié)構(gòu)中。在最后一層,選用softmax函數(shù)的對(duì)數(shù)作為分類(lèi)器,Adam作為優(yōu)化器。在TrashNet數(shù)據(jù)集和VN-trash數(shù)據(jù)集60%的圖像作為訓(xùn)練集,20%作為驗(yàn)證集,20%作為測(cè)試集。選擇Desenet121_Aral、RecycleNet和ResNet_Ruiz模型作為對(duì)比試驗(yàn),驗(yàn)證所設(shè)計(jì)模型的有效性。

          研究結(jié)論:DNN垃圾分類(lèi)器在垃圾網(wǎng)和虛擬垃圾數(shù)據(jù)集上的準(zhǔn)確率分別為94%和98%,在這兩個(gè)實(shí)驗(yàn)數(shù)據(jù)集上均優(yōu)于現(xiàn)有的垃圾分類(lèi)方法。

          與同類(lèi)研究相比優(yōu)缺點(diǎn):提供了兩個(gè)實(shí)驗(yàn)數(shù)據(jù)集,一個(gè)基于公開(kāi)數(shù)據(jù)集,一個(gè)自制數(shù)據(jù)集,使模型訓(xùn)練更具泛化性。但是對(duì)圖像的分割并沒(méi)有針對(duì)性,圖像背景比較平衡,未考慮不平衡背景下的圖像分類(lèi)。

          文獻(xiàn)閱讀價(jià)值:開(kāi)發(fā)了用于垃圾分類(lèi)的深度神經(jīng)網(wǎng)絡(luò)模型DNN-TC,對(duì)ResNext模型的改進(jìn),提高了預(yù)測(cè)性能。

          [2]Bobulski Janusz, Kubanek Mariusz, Yang Miin-Shen. Deep Learning for Plastic Waste Classification System[J].Applied Computational Intelligence and Soft Computing,2021,2021.

          數(shù)據(jù)來(lái)源:WaDaBa數(shù)據(jù)集,包括聚酯(PET)、聚乙烯(PE-HD)、聚苯乙烯(PS)、聚丙烯(PP)四類(lèi)垃圾圖像。

          數(shù)據(jù)處理方法:對(duì)PET圖像旋轉(zhuǎn)24°、PE-HD圖像旋轉(zhuǎn)6°、PS圖像旋轉(zhuǎn)5°、PP圖像旋轉(zhuǎn)7°對(duì)圖像進(jìn)行增強(qiáng),獲得33000張PET圖像,36000張PE-HD圖像、37440張PS圖像,3380張PP圖像。對(duì)圖像進(jìn)行分割,得到尺寸為120×120和227×227像素的輸入圖像。構(gòu)建兩個(gè)卷積神經(jīng)網(wǎng)絡(luò),第一個(gè)基于AlexNet網(wǎng)絡(luò)構(gòu)建,包含23層,第一個(gè)卷積層大小為11×11,輸入圖像大小為227×227;第二個(gè)神經(jīng)網(wǎng)絡(luò)為自己構(gòu)建的網(wǎng)絡(luò)結(jié)構(gòu),包括15層,第一個(gè)卷積層由64個(gè)大小為9×9的卷積核構(gòu)成,輸入圖像大小為120×120。學(xué)習(xí)率初始值設(shè)為0.001,每4次迭代減少一次,借助Matlab實(shí)現(xiàn)模型訓(xùn)練與測(cè)試。90%數(shù)據(jù)用來(lái)訓(xùn)練,10%數(shù)據(jù)用來(lái)測(cè)試模型。對(duì)比文章所設(shè)計(jì)模型與AlexNet模型以及MobileNet v.1、MobileNet v.2模型的效率。

          研究結(jié)論:15層網(wǎng)絡(luò)對(duì)于120×120像素的圖像比23層網(wǎng)絡(luò)對(duì)于227×227像素的圖像具有更好的性能,而且時(shí)間短,但效率低于其他神經(jīng)網(wǎng)絡(luò)模型。

          與同類(lèi)研究相比優(yōu)缺點(diǎn):所設(shè)計(jì)的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)與其他模型相比規(guī)模小得多,但同時(shí)也損失了一部分效率。

          文獻(xiàn)閱讀價(jià)值:提出了一種可應(yīng)用于便攜式設(shè)備的廢物識(shí)別技術(shù),有助于解決城市塑料廢物問(wèn)題。

          [3]Hanxiang Wang,Yanfen Li,L. Minh Dang,Jaesung Ko,Dongil Han,Hyeonjoon Moon. Smartphone-based bulky waste classification using convolutional neural networks[J]. Multimedia Tools and Applications,2020,79(prepublish).

          數(shù)據(jù)來(lái)源:從Yahoo,Bing,Google, Baidu, andNaver網(wǎng)站采集到95類(lèi)圖像數(shù)據(jù)69737張。

          數(shù)據(jù)處理方法:所有圖像數(shù)據(jù)儲(chǔ)存為224 × 224的彩色圖像。90%圖像作為訓(xùn)練集,10%作為測(cè)試集。在訓(xùn)練階段選擇VGG-19、ResNet50和Inception-V3網(wǎng)絡(luò)進(jìn)行參數(shù)訓(xùn)練,對(duì)比三個(gè)網(wǎng)絡(luò)的性能,選擇最優(yōu)性能的網(wǎng)絡(luò)VGG-19。對(duì)VGG-19進(jìn)行微調(diào):預(yù)訓(xùn)練模型的所有卷積層都被初始化,并且前幾個(gè)卷積層的參數(shù)被凍結(jié)。在匯集層和最后一個(gè)卷積塊的卷積層之間增加兩個(gè)卷積核大小為3×3的卷積層。第五個(gè)卷積塊中的卷積層數(shù)從4變?yōu)?,在兩個(gè)全連接層之間添加批量標(biāo)準(zhǔn)化層。采用基于低價(jià)敏感直接學(xué)習(xí)法和集成學(xué)習(xí)法的三種方法處理圖像數(shù)據(jù)不平衡問(wèn)題:通過(guò)設(shè)置權(quán)重參數(shù)來(lái)減少不平衡數(shù)據(jù)的影響,被稱(chēng)為CW_VGG19;從VGG-19模型中提取的特征分別被饋送到XGBoost分類(lèi)器(XGB_VGG19)和LightGBM分類(lèi)器(LGB_VGG19)來(lái)處理不平衡數(shù)據(jù),對(duì)比三種方法的性能,選擇LGB_VGG19方法。進(jìn)一步測(cè)試原始VGG-19、微調(diào)后的VGG-19和LGB-VGG19的性能,并在垃圾網(wǎng)數(shù)據(jù)集上與DNN-TC模型進(jìn)行比較。最后基于Kaggle數(shù)據(jù)集將不同CNN架構(gòu),包括VGG-16、ResNet、Mobile-Net、Inception-Net和Dense-Net進(jìn)行對(duì)比。

          研究結(jié)論:微調(diào)VGG-19是收集數(shù)據(jù)集的最佳模型,精度為86.19%;LGB_VGG19模型和XGB_VGG19模型比CW_VGG19模型相對(duì)穩(wěn)定,隨著不平衡率的增加,LGB_VGG19模型的AUC值高于XGB_VGG19模型。至于運(yùn)行時(shí)間,LGB_VGG19型號(hào)比其他型號(hào)快得多。

          與同類(lèi)研究相比優(yōu)缺點(diǎn):數(shù)據(jù)集圖像種類(lèi)豐富,但最終的VGG-19模型由于參數(shù)多,對(duì)計(jì)算機(jī)內(nèi)存的要求更高。而且在訓(xùn)練采集的數(shù)據(jù)集之前,由于采集的數(shù)據(jù)集較大,對(duì)背景復(fù)雜的圖像沒(méi)有進(jìn)行圖像預(yù)處理操作,對(duì)識(shí)別結(jié)果有影響。

          文獻(xiàn)閱讀價(jià)值:選用多種方法解決圖像數(shù)據(jù)不平衡問(wèn)題,為數(shù)據(jù)不平衡的處理提供了思路。

          [4]王莉,何牧天,徐碩,袁天,趙天翊,劉建飛.基于YOLOv5s網(wǎng)絡(luò)的垃圾分類(lèi)和檢測(cè)[J].包裝工程,2021,42(08):50-56.

          數(shù)據(jù)來(lái)源:實(shí)驗(yàn)自制了一個(gè)垃圾數(shù)據(jù)集,包括紙盒、塑料瓶、易拉罐、玻璃瓶、藥瓶、電池、塑料袋、廢紙、衣服、磚頭、水果和蔬菜12類(lèi)垃圾。

          數(shù)據(jù)處理方法:采用數(shù)據(jù)增廣的方式將樣本個(gè)數(shù)增至原來(lái)的4倍,用labelimg工具對(duì)圖片中垃圾物體進(jìn)行了標(biāo)注,按照8∶2 的比例將數(shù)據(jù)集劃分為訓(xùn)練集和測(cè)試集。實(shí)驗(yàn)的運(yùn)行環(huán)境為CPU為Intel i77800X,GPU為GeForceGTX 1080ti,內(nèi)存為16G,操作系統(tǒng)為ubuntu16.04,安裝CUDA9.0庫(kù)文件,開(kāi)發(fā)語(yǔ)言為Python,Pytorch框架。Coco和Voc數(shù)據(jù)集上的訓(xùn)練結(jié)果初始化Yolov5s的網(wǎng)絡(luò)參數(shù),參數(shù)訓(xùn)練采用SGD優(yōu)化算法,參數(shù)設(shè)置Batch為32;最大迭代次數(shù)為400;動(dòng)量因子為0.9;權(quán)重衰減系數(shù)為0.0005。采用余弦退火策略動(dòng)態(tài)調(diào)整學(xué)習(xí)率,初始學(xué)習(xí)率為0.01。采用GIOU Loss作為損失函數(shù)。繪制損失函數(shù)圖,將Yolov5s和Yolov3在自制垃圾數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)對(duì)比,驗(yàn)證實(shí)驗(yàn)方法的有效性。

          研究結(jié)論:基于 YOLOv5s 網(wǎng)絡(luò)的垃圾分類(lèi)檢測(cè)模型在不同光照、視角等條件下,檢測(cè)準(zhǔn)確率高,魯棒性好、計(jì)算速度快,有助于促進(jìn)垃圾處理公司實(shí)現(xiàn)智能分揀,提高工作效率。

          與同類(lèi)研究相比優(yōu)缺點(diǎn):自制的垃圾分類(lèi)數(shù)據(jù)集考慮了不同光照、角度、距離和遮擋情況,使模型更具普適性。

          文獻(xiàn)閱讀價(jià)值:通過(guò)研究基于視覺(jué)的垃圾檢測(cè)與分類(lèi)模型,實(shí)現(xiàn)對(duì)垃圾的自動(dòng)識(shí)別和檢測(cè)。

          [5]康莊,楊杰,郭濠奇.基于機(jī)器視覺(jué)的垃圾自動(dòng)分類(lèi)系統(tǒng)設(shè)計(jì)[J].浙江大學(xué)學(xué)報(bào)(工學(xué)版),2020,54(07):1272-1280+1307.

          數(shù)據(jù)來(lái)源:數(shù)據(jù)集來(lái)源于網(wǎng)上和現(xiàn)實(shí)生活拍照,共14種物體4168張圖片。

          數(shù)據(jù)處理方法:利用設(shè)計(jì)好的垃圾分類(lèi)硬件系統(tǒng)將所有垃圾分為可回收和不可回收兩大類(lèi),其中訓(xùn)練樣本占60%,即2500張;驗(yàn)證樣本數(shù)量占20%,即834張;測(cè)試樣本占20%,即834張。以Inception v3為特征提取網(wǎng)絡(luò),優(yōu)化算法使用RMSprop替代SGD,使用LSR方法降低過(guò)擬合,采用獨(dú)熱編碼的形式進(jìn)行模型訓(xùn)練。使用2個(gè)1×n和n×1的卷積核取代n×n的卷積核,在模型的全連接層進(jìn)行批標(biāo)準(zhǔn)化操作。采用遷移學(xué)習(xí)方法對(duì) Inceptionv3模型進(jìn)行重訓(xùn)練。基于Image Net數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練,訓(xùn)練批次大小為32,激活函數(shù)選擇ReLU函數(shù),學(xué)習(xí)率為0.001得到預(yù)訓(xùn)練模型;將Inception v3全連接層前的所有卷積層參數(shù)保留不變,將最后的全連接層的輸出由原來(lái)1000變?yōu)?4(14中垃圾種類(lèi)),在自制垃圾數(shù)據(jù)集上繼續(xù)訓(xùn)練,得到垃圾識(shí)別分類(lèi)模型。在公共數(shù)據(jù)集cifar-10上進(jìn)行驗(yàn)證,將Inception v3模型與當(dāng)下較流行的LeNet、Alex Net、Vgg和ResNet模型進(jìn)行對(duì)比,進(jìn)行105次迭代訓(xùn)練。訓(xùn)練完成后比較各模型的準(zhǔn)確率和損失值。

          研究結(jié)論:系統(tǒng)能夠有效地進(jìn)行垃圾種類(lèi)的識(shí)別和完成垃圾的分類(lèi)回收。

          與同類(lèi)研究相比優(yōu)缺點(diǎn):以研究設(shè)計(jì)多箱體垃圾桶或者其他結(jié)構(gòu)的垃圾回收裝置,滿(mǎn)足更多目標(biāo)類(lèi)別的分揀需求。

          文獻(xiàn)閱讀價(jià)值:提出基于機(jī)器視覺(jué)的垃圾自動(dòng)分類(lèi)系統(tǒng),設(shè)計(jì)垃圾分類(lèi)的硬件系統(tǒng),該系統(tǒng)可以滿(mǎn)足可回收和不可回收垃圾分類(lèi)的要求。

          [6]和澤.基于遷移學(xué)習(xí)的垃圾分類(lèi)研究[D].寧夏大學(xué),2020.

          數(shù)據(jù)來(lái)源:數(shù)據(jù)集使用華為云的公開(kāi)數(shù)據(jù)集,該數(shù)據(jù)集包括可回收物、廚余垃圾、有害垃圾和其他垃圾四個(gè)大類(lèi),每類(lèi)分為若干小類(lèi),共40個(gè)類(lèi)別14802張圖片。

          數(shù)據(jù)處理方法:首先通過(guò)標(biāo)注新數(shù)據(jù)的方法增加4100張圖片,增加了少類(lèi)別樣本數(shù)量。使用Keras提供的ImageDataGenerator方法對(duì)樣本數(shù)量在300張以下的類(lèi)別數(shù)據(jù)進(jìn)行隨機(jī)幾何變換進(jìn)行數(shù)據(jù)增強(qiáng)。使每個(gè)類(lèi)別的樣本數(shù)均在300張以上,數(shù)據(jù)集的各類(lèi)別樣本數(shù)據(jù)趨于平衡。將數(shù)據(jù)集進(jìn)行9:1拆分,90%的樣本當(dāng)作訓(xùn)練集,10%的樣本當(dāng)作測(cè)試集進(jìn)行訓(xùn)練。采用MobileNetV2模型,設(shè)置相同的數(shù)據(jù)集和參數(shù),進(jìn)行三組預(yù)訓(xùn)練對(duì)比實(shí)驗(yàn):隨機(jī)權(quán)重分類(lèi)器對(duì)權(quán)重隨機(jī)初始化,并進(jìn)行訓(xùn)練;訓(xùn)練全連接層分類(lèi)器對(duì)模型卷積層凍結(jié),訓(xùn)練全連接層;微調(diào)分類(lèi)器凍結(jié)模型的前128層,訓(xùn)練其余的卷積層和全連接層。每個(gè)實(shí)驗(yàn)訓(xùn)練過(guò)程中都迭代200次,采用AdamOptimizer優(yōu)化函數(shù),學(xué)習(xí)率設(shè)置0.0001,在分類(lèi)層使用softmax層作為分類(lèi)器,損失函數(shù)使用多分類(lèi)交叉熵?fù)p失函數(shù)。使用微調(diào)模型的遷移學(xué)習(xí)方法,采用VGG16、ResNET50與MobileNetV2進(jìn)行模型對(duì)比實(shí)驗(yàn),采用100張圖片進(jìn)行推理實(shí)驗(yàn),并用平均值計(jì)算單張圖片推理時(shí)間。

          研究結(jié)論:三個(gè)分類(lèi)器分類(lèi)效果最好的是微調(diào)分類(lèi)器,最差的是隨機(jī)權(quán)重分類(lèi)器,訓(xùn)練全連接層分類(lèi)器是處于中間的性能,MobileNetV2模型相對(duì)于VGG16、ResNET50模型在移動(dòng)和嵌入式等便攜式設(shè)備上做了明顯的優(yōu)化,提升了模型精度且降低了存儲(chǔ)空間的要求。最后使用訓(xùn)練好的MobileNetV2模型對(duì)垃圾進(jìn)行分類(lèi)。

          與同類(lèi)研究相比優(yōu)缺點(diǎn):分別從預(yù)訓(xùn)練模型三種策略和不同模型之間進(jìn)行對(duì)比,基于微調(diào)分類(lèi)器的MobileNetV2模型更具說(shuō)服力。但是研究所獲取的數(shù)據(jù)集偏少且類(lèi)別不平衡。

          文獻(xiàn)閱讀價(jià)值:以遷移學(xué)習(xí)為基礎(chǔ)提出了基于輕量型網(wǎng)絡(luò)MobileNetV2的垃圾分類(lèi)算法和基于遷移學(xué)習(xí)的移動(dòng)端垃圾分類(lèi)方案,解決了垃圾類(lèi)別龐雜和垃圾分類(lèi)難的問(wèn)題。

          [7]袁建野,南新元,蔡鑫,李成榮.基于輕量級(jí)殘差網(wǎng)路的垃圾圖片分類(lèi)方法[J].環(huán)境工程,2021,39(02):110-115.

          數(shù)據(jù)來(lái)源:數(shù)據(jù)集由中國(guó)科學(xué)院自動(dòng)化研究所智能服務(wù)機(jī)器人實(shí)驗(yàn)室所提供,共收集了2400張垃圾圖片信息。訓(xùn)練集共1920張,每類(lèi)分別為320張,測(cè)試集共510張,每類(lèi)分別為85張,訓(xùn)練集和測(cè)試集總共分為6類(lèi)。

          數(shù)據(jù)處理方法:以ResNet50為基礎(chǔ)進(jìn)行優(yōu)化構(gòu)建輕量級(jí)網(wǎng)絡(luò),提出最大平均組合池化替換ResNet50的池化層,用深度可分離卷積代替ResNet50中Bottleneck的3×3標(biāo)準(zhǔn)卷積。Mode數(shù)量一共4個(gè),Mode數(shù)設(shè)置為[1,1,1,1],每個(gè)Mode的結(jié)構(gòu)都是1×1、3×3、1×1的結(jié)構(gòu),其中3×3的卷積核用深度可分離卷積替換。實(shí)驗(yàn)batch size設(shè)置為32,學(xué)習(xí)率設(shè)置為0.01,每經(jīng)過(guò)一次步長(zhǎng)為5時(shí),學(xué)習(xí)率變?yōu)橹暗?5%,訓(xùn)練完成迭代100次。對(duì)不同的池化層以及不同模型進(jìn)行對(duì)比。

          研究結(jié)論:提出的最大平均池化輕量級(jí)網(wǎng)絡(luò)使得網(wǎng)路達(dá)到參數(shù)量小、計(jì)算量小、內(nèi)存消耗小,運(yùn)行時(shí)間短的目的。

          與同類(lèi)研究相比優(yōu)缺點(diǎn):提出的輕量級(jí)殘差網(wǎng)路參數(shù)更加簡(jiǎn)化,但是測(cè)試集510張,實(shí)際操作測(cè)試集只利用了1張,測(cè)試集應(yīng)用數(shù)據(jù)較少。

          文獻(xiàn)閱讀價(jià)值:提出的輕量級(jí)網(wǎng)絡(luò)適用于移動(dòng)端嵌入式設(shè)備的垃圾分類(lèi)系統(tǒng)應(yīng)用。

          [8]董子源.基于深度學(xué)習(xí)的垃圾分類(lèi)系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D].中國(guó)科學(xué)院大學(xué)(中國(guó)科學(xué)院沈陽(yáng)計(jì)算技術(shù)研究所),2020.

          數(shù)據(jù)來(lái)源:?jiǎn)螏瑘D像垃圾檢測(cè):華為公開(kāi)數(shù)據(jù)集(國(guó)內(nèi)唯一公開(kāi)數(shù)據(jù)集),共14683張垃圾圖像和對(duì)應(yīng)的分類(lèi)標(biāo)簽,加上實(shí)地拍攝一些垃圾場(chǎng)景中的圖片。

          數(shù)據(jù)處理方法:?jiǎn)螏瑘D像垃圾檢測(cè):將華為數(shù)據(jù)集按照不同的大類(lèi)別和小類(lèi)別進(jìn)行組合,保存在相應(yīng)的文件夾下。通過(guò)python手動(dòng)標(biāo)注圖像中垃圾的位置信息,利用記錄鼠標(biāo)位置的相應(yīng)函數(shù),記錄鼠標(biāo)畫(huà)取的垃圾外接矩形,并將矩形的四個(gè)頂點(diǎn)坐標(biāo)記錄在文本文件中。對(duì)數(shù)據(jù)集中不同小類(lèi)的垃圾數(shù)據(jù)進(jìn)行采樣并標(biāo)注,得到2000張不同種類(lèi)的垃圾圖像的數(shù)據(jù)標(biāo)注,作為初始的檢測(cè)網(wǎng)絡(luò)訓(xùn)練數(shù)據(jù)集。通過(guò)第一輪的訓(xùn)練,得到了垃圾檢測(cè)模型初始結(jié)果。使用初始模型對(duì)未經(jīng)訓(xùn)練的數(shù)據(jù)集中其他圖像進(jìn)行檢測(cè),得到垃圾的初始預(yù)測(cè)位置,并修正檢測(cè)錯(cuò)誤圖像的檢測(cè)框作為圖像中目標(biāo)位置的標(biāo)簽,得到初始訓(xùn)練后的擴(kuò)充數(shù)據(jù)集。用華為數(shù)據(jù)集對(duì)ResNet101、Inception v3和VGG16主干網(wǎng)絡(luò)進(jìn)行評(píng)估,選定ResNet101網(wǎng)絡(luò)作為垃圾檢測(cè)的基線(xiàn)網(wǎng)絡(luò)。在分類(lèi)階段,將數(shù)據(jù)增強(qiáng)后的圖像按4:1的比例分為訓(xùn)練集和測(cè)試集,選用ADAM優(yōu)化算法訓(xùn)練模型動(dòng)量系數(shù)為0.9,共設(shè)50個(gè)迭代周期,初始學(xué)習(xí)率設(shè)為0.01,每隔10個(gè)迭代周期學(xué)習(xí)率衰減0.1倍,一階矩估計(jì)的指數(shù)衰減率為0.99,二階矩估計(jì)的指數(shù)衰減率為0.999。在ResNet101網(wǎng)絡(luò)的不同的Bottle Neck位置僅插入空間注意力模塊、僅插入通道注意力模塊、插入特征融合模塊分別進(jìn)行對(duì)比試驗(yàn),對(duì)模型的注意力模塊、通道注意力模塊、特征融合模塊分別進(jìn)行評(píng)估。以GCNet作為主干提取網(wǎng)絡(luò)并入到SSD作為垃圾檢測(cè)網(wǎng)絡(luò)的基礎(chǔ),與加入特征融合與注意力機(jī)制的ResNet101網(wǎng)絡(luò)相結(jié)合。實(shí)地拍攝了一些垃圾場(chǎng)景中的圖片(手動(dòng)繪制檢測(cè)框)與華為數(shù)據(jù)集作為檢測(cè)任務(wù)的訓(xùn)練集和測(cè)試集。使用批量32來(lái)訓(xùn)練模型,使用0.0001的權(quán)重衰減和0.9的動(dòng)量,SGD優(yōu)化器,設(shè)置Dropout為0.8,在每個(gè)conv模塊激活函數(shù)后添加BatchNormalization層以防止過(guò)擬合以及加快網(wǎng)絡(luò)收斂。在相同測(cè)試集上對(duì)DSSD算法進(jìn)行評(píng)估與改進(jìn)的SSD算法進(jìn)行對(duì)比。

          研究結(jié)論:加入了注意力機(jī)制、特征融合機(jī)制以及殘差預(yù)測(cè)模塊的SSD在小目標(biāo)方面,效果明顯好于SSD與DSSD算法,檢測(cè)速度方面也明顯好于DSSD,稍微低于SSD。

          與同類(lèi)研究相比優(yōu)缺點(diǎn):針對(duì)樣本集中類(lèi)內(nèi)垃圾形態(tài)差異大,背景變化大,不利于分類(lèi)的情況,本文在分類(lèi)網(wǎng)絡(luò)中加入了空間注意力與通道注意力機(jī)制,有效地提升了分類(lèi)準(zhǔn)確率。

          文獻(xiàn)閱讀價(jià)值:提出了對(duì)ResNet101 加入注意力機(jī)制和特征融合機(jī)制的改進(jìn)方法,更好地提取到了垃圾圖像中的有用信息,成功地解決了圖片中類(lèi)內(nèi)差異大不利于分類(lèi)的問(wèn)題。

          [9]陳非予,楊婷婷,蔣銘陽(yáng).基于深度學(xué)習(xí)技術(shù)的生活垃圾分類(lèi)模型設(shè)計(jì)[J].電子元器件與信息技術(shù),2020,4(07):94-96.

          數(shù)據(jù)來(lái)源:垃圾圖像數(shù)據(jù)是在TrashNet數(shù)據(jù)集的基礎(chǔ)上增加手機(jī)拍照以及網(wǎng)絡(luò)搜索所得,共確定3727張。

          數(shù)據(jù)處理方法:采用Inception-v3模型在大型圖像分類(lèi)數(shù)據(jù)集ImageNet訓(xùn)練的參數(shù)模型。特征提取模型采用預(yù)訓(xùn)練模型的網(wǎng)絡(luò)結(jié)構(gòu)和參數(shù),通過(guò)輸入并處理一張垃圾圖像,提取圖像2048維向量特征,經(jīng)softmax回歸完成垃圾圖像分類(lèi)。訓(xùn)練數(shù)據(jù)為數(shù)據(jù)集中的80%,另20%數(shù)據(jù)作為測(cè)試驗(yàn)證數(shù)據(jù)集。在訓(xùn)練中,設(shè)置超參ECHO為50,即迭代訓(xùn)練訓(xùn)練數(shù)據(jù)集50次,每次選取其中16張圖像進(jìn)行訓(xùn)練,在每次訓(xùn)練的圖像輸入階段,將所選圖像進(jìn)行數(shù)據(jù)增強(qiáng)處理,初始化學(xué)習(xí)率為0.001。

          研究結(jié)論:分類(lèi)正確率可以達(dá)到95.3%,證明了該模型對(duì)于實(shí)現(xiàn)垃圾分類(lèi)的有效性。

          與同類(lèi)研究相比優(yōu)缺點(diǎn):垃圾圖像涉及種類(lèi)只包含塑料、金屬、紙板、廢報(bào)紙、玻璃、以及廢料六類(lèi)垃圾圖像,數(shù)據(jù)類(lèi)別較少。

          文獻(xiàn)閱讀價(jià)值:模型通過(guò)數(shù)據(jù)增強(qiáng)方法降低了圖像成像要求,對(duì)光照、距離、大小不敏感,具有相當(dāng)高的魯棒性和泛化能力。

          [10]呂程熙.基于深度學(xué)習(xí)實(shí)現(xiàn)自動(dòng)垃圾分類(lèi)[J].電子制作,2019(24):36-38.

          數(shù)據(jù)來(lái)源:數(shù)據(jù)集共包含10類(lèi)物品的圖片共2000張,每一類(lèi)200張。

          數(shù)據(jù)處理方法:1800張為訓(xùn)練集,200張為測(cè)試集。每一類(lèi)共180張為訓(xùn)練集,20張為測(cè)試集。將訓(xùn)練集與測(cè)試集的輸入圖片隨機(jī)裁減成32×32×3大小的圖片,將圖片信息歸一化。建立基于卷積神經(jīng)網(wǎng)絡(luò)的垃圾分類(lèi)分類(lèi)器,學(xué)習(xí)率為0.01,batch_size為5,對(duì)比深度神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)的測(cè)試結(jié)果分類(lèi)準(zhǔn)確度。進(jìn)一步對(duì)數(shù)據(jù)集進(jìn)行二分類(lèi),劃分為可回收利用和不可回收利用,由十分類(lèi)變?yōu)槎诸?lèi)再次進(jìn)行實(shí)驗(yàn)。

          研究結(jié)論:CNN模型的效果要比DNN 模型的效果好。從十分類(lèi)變?yōu)槎诸?lèi),模型選擇正確的概率大大加大,使得準(zhǔn)確率升高。

          與同類(lèi)研究相比優(yōu)缺點(diǎn):對(duì)比DNN與CNN分類(lèi)識(shí)別效果,證明CNN對(duì)垃圾分類(lèi)識(shí)別應(yīng)用效果更好。但是針對(duì)物品的不同部位屬于不同類(lèi)型的垃圾,還需要增加預(yù)識(shí)別功能。

          文獻(xiàn)閱讀價(jià)值:利用算法對(duì)圖像識(shí)別可以大大提高垃圾分類(lèi)的效率,為人們的生活帶來(lái)便利。

          [11]高明,陳玉涵,張澤慧,馮雨,樊衛(wèi)國(guó).基于新型空間注意力機(jī)制和遷移學(xué)習(xí)的垃圾圖像分類(lèi)算法[J].系統(tǒng)工程理論與實(shí)踐,2021,41(02):498-512.

          數(shù)據(jù)來(lái)源:“華為云人工智能大賽垃圾分類(lèi)挑戰(zhàn)杯”競(jìng)賽提供的數(shù)據(jù)集,共包括14000余張垃圾圖片。

          數(shù)據(jù)處理方法:將圖片尺寸統(tǒng)一處理為224×224像素。將數(shù)據(jù)集隨機(jī)劃分為訓(xùn)練集、驗(yàn)證集與測(cè)試集,訓(xùn)練集中劃分為包含14372張圖片,驗(yàn)證集與測(cè)試集各包含215張圖片。選擇EfficientNet-B5、ResNet50、DenseNet-169網(wǎng)絡(luò)架構(gòu)分別對(duì)華為垃圾分類(lèi)數(shù)據(jù)集和ImageNet數(shù)據(jù)集進(jìn)行無(wú)遷移學(xué)習(xí)與有遷移學(xué)習(xí)的訓(xùn)練,其中預(yù)訓(xùn)練權(quán)重均由Keras庫(kù)提供,最后選擇EfficientNet-B5作為GANet中的主干網(wǎng)絡(luò)結(jié)構(gòu)。運(yùn)用以EfficientNet-B5為主干的GANet構(gòu)架,嘗試對(duì)提出的新型的像素級(jí)空間注意力機(jī)制PSATT的基礎(chǔ)結(jié)構(gòu)微調(diào)后的模型進(jìn)行有效性驗(yàn)證,選擇出性能最好的PSATT結(jié)構(gòu)。將GANet結(jié)構(gòu)的注意力模塊分別換成PSATT、Squeeze-and-Excitation block、Non-Local block與注意增強(qiáng)卷積在ImageNet數(shù)據(jù)集上進(jìn)行多次訓(xùn)練對(duì)比。通過(guò)訓(xùn)練策略消融實(shí)驗(yàn)、迭代延長(zhǎng)實(shí)驗(yàn)和交叉驗(yàn)證實(shí)驗(yàn)來(lái)檢驗(yàn)GANet架構(gòu)在訓(xùn)練過(guò)程中是否出現(xiàn)過(guò)擬合情況。依次用ResNet50和DenseNet-169架構(gòu)替換GANet主干結(jié)構(gòu)中的EfficientNet-B5進(jìn)行遷移學(xué)習(xí),驗(yàn)證PSATT在不同網(wǎng)絡(luò)架構(gòu)上的適用性。將輸入圖片尺寸設(shè)為456×456,借助該比賽的自動(dòng)化測(cè)試系統(tǒng)對(duì)GANet進(jìn)行云端評(píng)估,測(cè)試集為賽方未公開(kāi)的4000張盲測(cè)圖片。對(duì)于GANet模型的訓(xùn)練中選用RAdam優(yōu)化,損失函數(shù)選擇標(biāo)簽平滑正則化+Focal loss,用在OCL基礎(chǔ)上提出的階梯形OneCycle控制學(xué)習(xí)率,在訓(xùn)練的最后幾個(gè)輪次,對(duì)于權(quán)重平滑選擇進(jìn)行SWA處理。

          研究結(jié)論:基于PSATT機(jī)制的GANet在細(xì)粒度垃圾圖像分類(lèi)問(wèn)題中,整體準(zhǔn)確率相較對(duì)比方法得到了顯著提升。

          與同類(lèi)研究相比優(yōu)缺點(diǎn):改進(jìn)的階梯形OneCycle學(xué)習(xí)率控制方法和RAdam優(yōu)化方法的結(jié)合使用加快收斂速度,縮短實(shí)驗(yàn)周期;運(yùn)用標(biāo)簽平滑和Focalloss緩解樣本不平衡問(wèn)題;優(yōu)化方法與階梯形OneCycle學(xué)習(xí)策略的結(jié)合使用緩解了模型收斂階段的不穩(wěn)定性。但是圖像數(shù)據(jù)集在不同光照條件、不同終端采集的圖像存在格式、噪音、分辨率等差異。

          文獻(xiàn)閱讀價(jià)值:針對(duì)問(wèn)題特點(diǎn),提出了一種新型的像素級(jí)空間注意力機(jī)制,建立了一套端到端的面向細(xì)粒度垃圾圖像分類(lèi)的遷移學(xué)習(xí)架構(gòu)GANet。

          [12]王洋.垃圾分類(lèi)數(shù)據(jù)的機(jī)器學(xué)習(xí)方法研究[D].黑龍江大學(xué),2020.

          數(shù)據(jù)來(lái)源:選擇了來(lái)自Kaggle網(wǎng)站上提供的包括濕垃圾、可回收物兩類(lèi)垃圾的圖像數(shù)據(jù),包含訓(xùn)練集22564張,測(cè)試集2513張,練集中包含12565張濕垃圾圖像,9999張可回收垃圾圖像;而測(cè)試集中包含1401張濕垃圾圖像,1112張可回收垃圾圖像。

          數(shù)據(jù)處理方法:預(yù)處理:對(duì)圖像進(jìn)行灰度化處理,選擇將所有圖像尺寸設(shè)為64×64將圖像尺寸歸一化。運(yùn)用python從兩類(lèi)垃圾圖像中分別提取顏色特征和紋理特征作為分類(lèi)依據(jù)。選用灰度直方圖作為圖像的顏色特征,將灰度直方圖和圖像標(biāo)簽作為KNN和SVM算法的輸入。對(duì)圖像的LBP和HOG特征向量進(jìn)行PCA降維以提高計(jì)算機(jī)運(yùn)行速度,保留原數(shù)據(jù)95%的信息提取出降維后的LBP特征和HOG特征。傳統(tǒng)機(jī)器學(xué)習(xí)算法:使用sklearn庫(kù)中的KNeighborsClassifier函數(shù)搭建KNN模型,距離定義為歐式距離,分別以GH,HOG,LBP特征向量導(dǎo)入模型并分別建模,參數(shù)??分別設(shè)置為5,10,15,...,50,運(yùn)行10次KNN模型,將模型的5折交叉驗(yàn)證最高準(zhǔn)確度定最終準(zhǔn)確度。SVM模型核函數(shù)選RBF徑向基函數(shù),將GH,HOG,LBP三種圖像特征算子分別導(dǎo)入模型并分別建模,SVM函數(shù)的初始參數(shù)設(shè)置為懲罰項(xiàng)??=1,2,…,10,松弛變量??=0.1,0.2,…,1.0,將模型的5折交叉驗(yàn)證最高準(zhǔn)確度定最終準(zhǔn)確度。對(duì)比KNN與SVM分類(lèi)結(jié)果。卷積神經(jīng)網(wǎng)絡(luò):使用基于Python的tensorflow框架搭建設(shè)定的簡(jiǎn)化版輕量型VGGNet(mini-VGG)。將輸入卷積神經(jīng)網(wǎng)絡(luò)的圖像尺寸設(shè)定為64×64的三通道圖像,Batchsize設(shè)為64,設(shè)置epoch次數(shù)為50,損失函數(shù)定義為交叉熵,驗(yàn)證集占測(cè)試集比重為30%。

          研究結(jié)論:mini-VGG模型的分類(lèi)準(zhǔn)確度明顯地高于其他兩個(gè)傳統(tǒng)機(jī)器學(xué)習(xí)算法,但模型如果特征選取合適,傳統(tǒng)機(jī)器學(xué)習(xí)算法在圖像分類(lèi)領(lǐng)域中的分類(lèi)準(zhǔn)確度不弱于深度學(xué)習(xí)。

          與同類(lèi)研究相比優(yōu)缺點(diǎn):垃圾圖像中不同種類(lèi)垃圾圖像數(shù)量分布較均勻,避免了圖像數(shù)據(jù)不平衡所帶來(lái)的問(wèn)題。

          文獻(xiàn)閱讀價(jià)值:創(chuàng)造性地使用了一個(gè)精簡(jiǎn)版的Mini-VGG結(jié)構(gòu),大幅度減少了模型訓(xùn)練的參數(shù),極大提高了模型運(yùn)行的效率。

          [13]齊鑫宇,龔劬,李佳航,何建龍.基于深度學(xué)習(xí)的垃圾圖片處理與識(shí)別[J].電腦知識(shí)與技術(shù),2021,17(09):20-24.

          數(shù)據(jù)來(lái)源:含果皮,紙箱,電池,廚余垃圾,燈泡,書(shū)本,鞋子,廢衣服等25類(lèi)的自定義數(shù)據(jù)集。

          數(shù)據(jù)處理方法:數(shù)據(jù)集在每個(gè)分類(lèi)含10000張照片,選取其中5000張作為訓(xùn)練集,其余的作為測(cè)試集。更改數(shù)據(jù)集中圖像格式為jpg格式,將圖片尺寸裁剪為300×300格式。將圖片通過(guò)裁剪,反轉(zhuǎn),鏡像增加數(shù)據(jù)集的數(shù)量。采用均值濾波對(duì)圖像去噪。在ResNet101主干網(wǎng)絡(luò)中,改變其原有的Relu激活函數(shù),采用改進(jìn)的Elu函數(shù)。在測(cè)試模型訓(xùn)練性能之前,首先選取兩張圖片對(duì)卷積神經(jīng)網(wǎng)絡(luò)模型對(duì)圖片特征提取的性能進(jìn)行測(cè)試,對(duì)比新模型與原模型的準(zhǔn)確率與損失函數(shù)。對(duì)十類(lèi)垃圾分別各選取100張隨機(jī)圖片作為識(shí)別對(duì)象應(yīng)用于模型中進(jìn)行模型的識(shí)別測(cè)試。

          研究結(jié)論:新模型在訓(xùn)練精度與速度相比于原ResNet101模型有明顯的提高。訓(xùn)練結(jié)果相比原模型提前1500步達(dá)到100%識(shí)別以及提前5分鐘;識(shí)別準(zhǔn)確率提高10%。

          與同類(lèi)研究相比優(yōu)缺點(diǎn):在ResNet101基礎(chǔ)上提出了一種新型模型,極大提高了模型的訓(xùn)練速度以及識(shí)別精確度。

          文獻(xiàn)閱讀價(jià)值:為未來(lái)實(shí)現(xiàn)人工智能垃圾分類(lèi)提供圖像識(shí)別模型基礎(chǔ)。

          [14]Sha Meng,Meng Sha,Zhang Ning,Ren Yunwen. X-DenseNet: Deep Learning for Garbage Classification Based on Visual Images[J]. Journal of Physics: Conference Series,2020,1575(1).

          數(shù)據(jù)來(lái)源:GitHub的trashnet數(shù)據(jù)集,共有2527幅彩色圖像,分為6類(lèi)垃圾。

          數(shù)據(jù)處理方法:圖片尺寸調(diào)整為512×384。首先通過(guò)剪切旋轉(zhuǎn)、翻轉(zhuǎn)等方法對(duì)數(shù)據(jù)集中的原始圖像進(jìn)行數(shù)據(jù)增強(qiáng)操作。將數(shù)據(jù)集中90%和10%的圖片相對(duì)作為訓(xùn)練集和測(cè)試集。在Xcepion的基礎(chǔ)上使用Dense模塊來(lái)實(shí)現(xiàn)功能重用和融合。將150×150×3的垃圾圖像作為輸入,通過(guò)Xception提取圖像特征,通過(guò)32個(gè)卷積核(3×3)和64個(gè)卷積核(5×5)轉(zhuǎn)置卷積以增加特征的大小和數(shù)量作為下層輸入的特征圖x0。在Dense模塊采用ReLU激活函數(shù),32個(gè)1×1卷積核和32個(gè)3×3卷積核,獲得特征圖x1,裁剪x0、x1,作為Dense模塊的下一層輸入,以此類(lèi)推,Dense模塊之間用1×1卷積層和一個(gè)2×2最大池化層連接。第三個(gè)Dense模塊的輸出與3×3和5×5卷積核交替進(jìn)行轉(zhuǎn)置和卷積擴(kuò)展特征的數(shù)量。最終輸出經(jīng)過(guò)全連通層映射到6個(gè)神經(jīng)元,對(duì)應(yīng)垃圾的6個(gè)分類(lèi)。訓(xùn)練過(guò)程中每批32個(gè),優(yōu)化器為SGD,動(dòng)量為0.9,初始學(xué)習(xí)率為0.001,損失函數(shù)為交叉熵函數(shù)。數(shù)據(jù)集中的248張圖片被用作測(cè)試集。經(jīng)過(guò)數(shù)據(jù)增強(qiáng)處理,測(cè)試中每批數(shù)據(jù)40張彩色垃圾圖片。在數(shù)據(jù)集上進(jìn)行X-DenseNet和AlexNet、ResNet50、InceptionV3、Vg16以及Vg19的對(duì)比實(shí)驗(yàn)。

          研究結(jié)論:設(shè)計(jì)的基于深度卷積神經(jīng)網(wǎng)絡(luò)的垃圾分類(lèi)模型識(shí)別準(zhǔn)確率高于其他先進(jìn)的圖像分類(lèi)網(wǎng)絡(luò)。

          與同類(lèi)研究相比優(yōu)缺點(diǎn):通過(guò)“獲取數(shù)據(jù)集-預(yù)處理數(shù)據(jù)-建立X-DenseNet模型-訓(xùn)練和測(cè)試模型”的過(guò)程進(jìn)行實(shí)驗(yàn),模型在測(cè)試集上的準(zhǔn)確率高達(dá)94.1%,超過(guò)了一些經(jīng)典的分類(lèi)網(wǎng)絡(luò)。

          文獻(xiàn)閱讀價(jià)值:提出的基于視覺(jué)圖像的X-densente垃圾自動(dòng)分類(lèi)模型能夠有效減少人工投入,提高垃圾回收率。

          二、醫(yī)學(xué)圖像識(shí)別

          [15]韓龍飛,李婉,曾曙光,何慧靈. Bank Card Number Intelligent Identification Based on Digital Image Processing Technology[J]. Journal of Image and Signal Processing,2016,5(3).
          研究背景:現(xiàn)有較為成熟的卡號(hào)識(shí)別系統(tǒng)僅限于磁條讀取,磁條的壽命有限,刷取一定的次數(shù)后會(huì)出現(xiàn)不同程度的磨損。采用圖像處理光學(xué)方法非接觸式測(cè)量,對(duì)卡面幾乎沒(méi)有任何損耗,可以無(wú)限次、大批量的對(duì)卡號(hào)進(jìn)行提取統(tǒng)計(jì),同時(shí)解決了現(xiàn)有的銀行卡號(hào)信息傳輸手動(dòng)輸入工作量大的問(wèn)題。
          數(shù)據(jù)來(lái)源:樣本圖片來(lái)源分為網(wǎng)上隨機(jī)搜索和人工手動(dòng)拍攝兩種。
          數(shù)據(jù)處理方法:借助matlab圖像預(yù)處理:對(duì)三維彩色圖像灰度化處理,將灰度化的圖像中包含卡號(hào)信息的區(qū)域反相,使卡號(hào)信息變?yōu)榘咨N牟捎肅anny算子將卡的外邊框提取出來(lái),進(jìn)行膨脹防止斷線(xiàn),然后對(duì)封閉線(xiàn)進(jìn)行填充。填充后的圖片與反相后圖片相乘,將背景變?yōu)槿冢懦尘案蓴_。對(duì)去除背景的圖像進(jìn)行二值化處理并去除噪點(diǎn)。字符定位與提?。和ㄟ^(guò)膨脹圖像,將靠得較近的字符連通成一個(gè)區(qū)域,將每個(gè)連通區(qū)域的原始圖片進(jìn)行識(shí)別預(yù)處理。字符分割:采用邊緣提取圖像與原圖像相加的方法來(lái)增強(qiáng)圖像效果,利用旋轉(zhuǎn)函數(shù)對(duì)增強(qiáng)后的圖像進(jìn)行水平矯正。對(duì)圖像區(qū)域化標(biāo)記,設(shè)定圖像所有小區(qū)域中最大高度high_max 的二分之一為閾值,大于閾值則分割提取,即可完整保留目標(biāo)數(shù)字,去除干擾部分的小區(qū)域,實(shí)現(xiàn)字符分割。字符識(shí)別:對(duì)分割后的圖像進(jìn)行歸一化處理,將切割后的第一幅字符圖像與模板0—9的圖片取異或后1的數(shù)量即為圖片與數(shù)字模板的誤差值。采用sort函數(shù)排序后找出其中值最小的,取它對(duì)應(yīng)的模板圖像為其目標(biāo)圖像匹配圖,輸出匹配圖像所對(duì)應(yīng)的0—9之間序號(hào)數(shù)保存。在所有的數(shù)字區(qū)域中篩選出銀行卡號(hào)碼,按照順序保存的銀行卡數(shù)字信息,轉(zhuǎn)成txt格式輸出。
          研究結(jié)論:對(duì)中國(guó)農(nóng)業(yè)銀行、中國(guó)銀行、中國(guó)工商銀行等幾大銀行的銀行卡進(jìn)行了測(cè)試,發(fā)現(xiàn)中國(guó)農(nóng)業(yè)銀行的卡號(hào)識(shí)別率最高,達(dá)到了97.5%;各類(lèi)銀行卡的綜合識(shí)別率達(dá)了85.6%。影響銀行卡卡號(hào)識(shí)別率和識(shí)別速度的主要因素有卡面背景的復(fù)雜度、照片質(zhì)量、卡號(hào)數(shù)字本身的質(zhì)量等。
          與同類(lèi)研究相比優(yōu)缺點(diǎn):在進(jìn)行數(shù)字圖像識(shí)別同時(shí)還分析了影響識(shí)別準(zhǔn)確率的因素,為識(shí)別系統(tǒng)優(yōu)化提供思路。但是研究收集數(shù)據(jù)較少。
          文獻(xiàn)閱讀價(jià)值:該技術(shù)有望取代傳統(tǒng)的磁條讀取卡號(hào)的方式,形成一種新的無(wú)接觸的卡號(hào)讀取方式。
          [16]高雷鳴,肖滿(mǎn)生,向華政.基于深度學(xué)習(xí)的肺部腫瘤圖像識(shí)別方法[J].計(jì)算機(jī)測(cè)量與控制,2020,28(10):160-164.
          研究背景:鑒于淺層卷積神經(jīng)網(wǎng)絡(luò)難以獲取圖像深層特征、易過(guò)度擬合導(dǎo)致分類(lèi)效率和精度低的問(wèn)題,設(shè)計(jì)一種肺部腫瘤圖像的深度學(xué)習(xí)識(shí)別模型。
          數(shù)據(jù)來(lái)源:肺結(jié)節(jié)數(shù)據(jù)集LIDC,每個(gè)病例都包含50—250張肺部CT圖像和一個(gè)注釋文件。
          數(shù)據(jù)處理方法:將肺部圖像進(jìn)行歸一化預(yù)處理操作,壓縮為227×227,將樣本進(jìn)行排序并按照一定的數(shù)量將肺部CT圖像劃分為訓(xùn)練樣本70%和測(cè)試樣本30%。將肺部腫瘤圖像水平、垂直翻轉(zhuǎn)、轉(zhuǎn)動(dòng)135°/270°、縮放比例、加入高斯噪聲、裁剪、移位等操作,將已有的訓(xùn)練樣本集擴(kuò)充為新的樣本集。使用準(zhǔn)確率ACC、敏感性SNR、特異度SPR、AUC面積和訓(xùn)練時(shí)間來(lái)判定該分類(lèi)系統(tǒng)的性能。在每個(gè)卷積層和神經(jīng)元激活函數(shù)之間引入批量歸一化層,對(duì)輸入數(shù)據(jù)首先進(jìn)行預(yù)歸一化處理,代替原網(wǎng)絡(luò)中的局部歸一化操作,選擇最大池化操作,在全連接層中加入Dropout并采用ReLU作為激活函數(shù),通過(guò)三層全連接層和Softmax分類(lèi)器實(shí)現(xiàn)肺部腫瘤圖像的分類(lèi)。在整個(gè)網(wǎng)絡(luò)訓(xùn)練之前,首先利用ImageNet數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練,損失函數(shù)變化速率設(shè)置為0.01,迭代次數(shù)設(shè)為5000,用訓(xùn)練好的參數(shù)作為模型訓(xùn)練的輸入值。將所設(shè)計(jì)的模型與LeNet-5、ResNet、AlexNet、VGGNet、GooLeNet模型進(jìn)行比較。
          研究結(jié)論:所設(shè)計(jì)的方法在網(wǎng)絡(luò)收斂速率和分類(lèi)精度方面取得更優(yōu)性能,比基于AlexNet卷積神經(jīng)網(wǎng)絡(luò)分類(lèi)精度提高5.66%以上,且具備良好的健壯性。
          與同類(lèi)研究相比優(yōu)缺點(diǎn):在利用遷移學(xué)習(xí)和樣本擴(kuò)充基礎(chǔ)上,并在網(wǎng)絡(luò)每層數(shù)據(jù)輸入前預(yù)先歸一化處理,防止傳統(tǒng)特征提取和分類(lèi)的限制性,減少了高頻特征對(duì)網(wǎng)絡(luò)模型的影響。
          文獻(xiàn)閱讀價(jià)值:為醫(yī)生判斷提供良好的協(xié)助作用。
          [17]孟子堯,陳斯佳,呂天予,張志剛,王筱霞,盛斌,毛麗娟.基于深度學(xué)習(xí)的腎小球病理圖像識(shí)別與分類(lèi)[J/OL].計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào):1-10[2021-06-01].
          研究背景:病理切片中腎小球的識(shí)別和分類(lèi)是診斷腎臟病變程度和病變類(lèi)型的關(guān)鍵,為解決腎小球的識(shí)別和分類(lèi)問(wèn)題,設(shè)計(jì)了一個(gè)基于深度學(xué)習(xí)的完整的腎小球檢測(cè)及分類(lèi)框架。
          數(shù)據(jù)來(lái)源:共制作了4個(gè)數(shù)據(jù)集,分別是單一腎小球數(shù)據(jù)集、腎小球九宮格數(shù)據(jù)集、目標(biāo)檢測(cè)數(shù)據(jù)集和WSI數(shù)據(jù)集,共11幅原始切片,根據(jù)11幅原始切片制作出數(shù)據(jù)集圖像數(shù)量分別為8,33,73,85,106,124,181,275,404,610,828。
          數(shù)據(jù)處理方法:將單幅切片劃分為左右2個(gè)區(qū)域,左側(cè)區(qū)域中裁取出的圖像作為訓(xùn)練集,右側(cè)區(qū)域裁取出的圖像作為測(cè)試集,共2747幅圖像及其對(duì)應(yīng)的標(biāo)注文件。采用旋轉(zhuǎn)、色彩抖動(dòng)和mixup結(jié)合水平翻轉(zhuǎn)、垂直翻轉(zhuǎn)和逆時(shí)針旋轉(zhuǎn)90°對(duì)原始圖像進(jìn)行數(shù)據(jù)增強(qiáng),擴(kuò)充數(shù)據(jù)集。在YOLO的檢測(cè)方法,提出了名為區(qū)域網(wǎng)格網(wǎng)絡(luò)RGNet的檢測(cè)窗生成方法,檢測(cè)窗生成應(yīng)用WSI數(shù)據(jù)集。采用Faster R-CNN對(duì)腎小球定位,實(shí)現(xiàn)腎小球檢測(cè)。腎小球檢測(cè)數(shù)據(jù)集隨機(jī)劃分為訓(xùn)練集2247幅圖像和驗(yàn)證集500幅圖像。訓(xùn)練和測(cè)試時(shí)都不使用只出現(xiàn)30%面積的腎小球。將NMS算法改進(jìn)為NMS-Lite算法在腎小球檢測(cè)后進(jìn)行腎小球合并。將腎小球粗分類(lèi)為3類(lèi).  正常腎小球和輕度、中度系膜增生的腎小球,使用CNN進(jìn)行粗分類(lèi),然后將重點(diǎn)放在特殊的類(lèi)別和區(qū)分度小以致難以分類(lèi)的類(lèi)別上進(jìn)行細(xì)分類(lèi)。
          研究結(jié)論:腎小球分類(lèi)在驗(yàn)證集上的準(zhǔn)確率分別為粗分類(lèi)為97.6%,正常、輕度和中度細(xì)分類(lèi)為66.7%,硬化和新月體分類(lèi)為88.3%。
          與同類(lèi)研究相比優(yōu)缺點(diǎn):優(yōu)化了傳統(tǒng)的NMS算法,優(yōu)化后的NMS-Lite算法對(duì)于合并腎小球檢測(cè)結(jié)果速度更快,準(zhǔn)確度更高。但是原始數(shù)據(jù)量較少。
          文獻(xiàn)閱讀價(jià)值:腎小球檢測(cè)方法在測(cè)試集上取得了與同類(lèi)方法可比的精度,且在一定程度上解決了相似類(lèi)別的腎小球難以區(qū)分的問(wèn)題。
          [18]馬少龍.基于深度學(xué)習(xí)技術(shù)-Faster R-CNN對(duì)頸脊髓損傷及頸間盤(pán)疾病核磁圖像的識(shí)別檢測(cè)[D].吉林大學(xué),2020.
          研究背景:頸椎間盤(pán)突出主要引起脊髓的形態(tài)變化為主,脊髓損傷則一般引起脊髓內(nèi)信號(hào)的改變。醫(yī)院具有海量的影像學(xué)數(shù)據(jù)的優(yōu)勢(shì),隨著人工智能的研究火熱,各個(gè)科室也都進(jìn)行了大數(shù)據(jù)+人工智能模式嘗試應(yīng)用,并取得了滿(mǎn)意的效果。
          數(shù)據(jù)來(lái)源:在2013年1月至2018年12月期間,在吉林大學(xué)中日聯(lián)誼醫(yī)院收治的頸脊髓損傷、頸椎間盤(pán)退變性疾病,以及門(mén)診患者的頸椎核磁作為這次實(shí)驗(yàn)的數(shù)據(jù)集。
          數(shù)據(jù)處理方法:根據(jù)納入排除標(biāo)準(zhǔn)篩選數(shù)據(jù)集,包含1510位患者,1210名作為訓(xùn)練集,300名作為交叉驗(yàn)證集。對(duì)原始圖片進(jìn)行批量處理,讀取圖片存放目錄、圖片命名;將所分類(lèi)的MRI圖片進(jìn)行標(biāo)簽分類(lèi),其中,間盤(pán)突出組、損傷信號(hào)異常組需要標(biāo)記,正常的不用標(biāo)簽;將圖片尺寸統(tǒng)一為600*800,最后標(biāo)簽提取,形成數(shù)據(jù)庫(kù)。預(yù)測(cè)階段時(shí),采用水平翻轉(zhuǎn)對(duì)測(cè)試集做數(shù)據(jù)增強(qiáng),將數(shù)據(jù)擴(kuò)大為10倍,圖片規(guī)格為600*800*3,取原始圖像和翻轉(zhuǎn)圖像的分類(lèi)概率(Softmax)作為最終得分。采用Faster R-CNN以及VGG-16和Resnet50對(duì)頸脊髓損傷以及頸椎間盤(pán)突出的上的核磁損傷區(qū)域進(jìn)行識(shí)別預(yù)測(cè),經(jīng)過(guò)300名驗(yàn)證集合的模型驗(yàn)證和通過(guò)迭代更新最優(yōu)參數(shù)后,并通過(guò)測(cè)試集來(lái)對(duì)訓(xùn)練好的模型進(jìn)行檢測(cè)并得到相應(yīng)的預(yù)測(cè)準(zhǔn)確率。選擇mAP對(duì)模型效率進(jìn)行評(píng)價(jià)。預(yù)測(cè)階段選用500張圖片作為測(cè)試集來(lái)驗(yàn)證并比較以VGG-16、Resnet50為骨架的網(wǎng)絡(luò)模型效果。
          研究結(jié)論:應(yīng)用Faster-RCNN算法并以VGG-16以及ResNet50為骨架的神經(jīng)網(wǎng)絡(luò)模型是能夠識(shí)別檢測(cè)頸椎核磁間盤(pán)突出以及脊髓信號(hào)改變的常見(jiàn)疾病。以ResNet50為骨架的網(wǎng)絡(luò)架構(gòu)模型較以VGG-16為骨架的網(wǎng)絡(luò)架構(gòu)模型而言預(yù)測(cè)效果更佳,檢測(cè)速度更快。
          與同類(lèi)研究相比優(yōu)缺點(diǎn):采用了深度學(xué)習(xí)中識(shí)別檢測(cè)任務(wù)的方法對(duì)常見(jiàn)的頸椎疾病進(jìn)行判定預(yù)測(cè),其結(jié)果也達(dá)到了同期學(xué)術(shù)期刊報(bào)道的效果。
          文獻(xiàn)閱讀價(jià)值:利用深度學(xué)習(xí)技術(shù)對(duì)頸椎常見(jiàn)的疾病進(jìn)行識(shí)別檢測(cè)的成功,為頸椎疾病核磁+深度學(xué)習(xí)模式奠定了理論性基礎(chǔ)。
          [19]連先峰,劉志勇,張琳,韓雨晨,史國(guó)梅.一種基于深度學(xué)習(xí)的視網(wǎng)膜病變圖像識(shí)別方法[J].計(jì)算機(jī)應(yīng)用與軟件,2021,38(01):179-185.
          研究背景:解決醫(yī)學(xué)上糖尿病性視網(wǎng)膜病變圖像人工識(shí)別困難、精度差等問(wèn)題,提出一種基于多特征融合的卷積神經(jīng)網(wǎng)絡(luò)識(shí)別方法。
          數(shù)據(jù)來(lái)源:初始數(shù)據(jù)來(lái)自一些大學(xué)以及競(jìng)賽平臺(tái),主要包含5 個(gè)數(shù)據(jù)集,共計(jì)眼底圖像 30571 幅,其中正常圖像13615 幅,病變圖像16956幅。
          數(shù)據(jù)處理方法:使用Open CV對(duì)眼底圖像作統(tǒng)一化和增強(qiáng)化處理。以VGG-16為基礎(chǔ)模型,采用add方式的特征融合對(duì)各卷積層上提取的特征進(jìn)行融合。各層激活函數(shù)采用ReLU函數(shù),輸出層采用Softmax函數(shù),模型中有5個(gè)Convolution層、5個(gè)Maxpool層、1個(gè)FeatureFusion層、2個(gè)FullConnection層和1個(gè)Softmax層,輸入圖像大小為64×64×3。其中Cov1、Cov2、Cov3、Cov4、Cov5中的Filter個(gè)數(shù)分別為64、128、256、512、512。Filter尺寸為3×3×3,F(xiàn)ilter stride為1。Maxpool層中Filter尺寸為2×2×3,F(xiàn)ilter stride為2。2個(gè)Full connection層的維度分別為8192和4096。Softmax層的輸出分為2類(lèi),分別代表正常眼底圖像和病變眼底圖像。在模型訓(xùn)練過(guò)程中使用Dropout技術(shù)防止過(guò)擬合。最后與Alex-Net、Google-Net、ResNet-101等常規(guī)算法及Compact-Net算法進(jìn)行對(duì)比試驗(yàn)。
          研究結(jié)論:基于多特征融合的深度學(xué)習(xí)框架圖像識(shí)別系統(tǒng)在數(shù)據(jù)集上的平均識(shí)別精度達(dá)到94.23%,相較于Alex-Net、Google-Net、Compact-Net、ResNet-101等模型分別提高了10.56%、7.80%、6.01%、0.02%。
          與同類(lèi)研究相比優(yōu)缺點(diǎn):在VGG-16網(wǎng)絡(luò)結(jié)構(gòu)的基礎(chǔ)上,通過(guò)融合各卷積層上的特征,使模型對(duì)病變眼底圖像的細(xì)微特征更加敏感。但是由于實(shí)驗(yàn)數(shù)據(jù)集使用的是RGB格式的圖像,以致色彩對(duì)圖像識(shí)別造成了一定的影響。
          文獻(xiàn)閱讀價(jià)值:初始數(shù)據(jù)集經(jīng)擴(kuò)充、統(tǒng)一化處理成為新的數(shù)據(jù)集。在新數(shù)據(jù)集上訓(xùn)練模型,使模型獲得良好的魯棒性和泛化能力。
          [20]焦龍,楊翊,何羽,劉珂,成斌杰.基于深度學(xué)習(xí)的口腔癌圖像識(shí)別研究[J].電腦與信息技術(shù),2021,29(02):60-64.
          研究背景:口腔癌是湖南省發(fā)病率最高的惡性腫瘤之一,基于圖像的口腔癌識(shí)別能夠?yàn)獒t(yī)生盡早診斷提供有效醫(yī)療輔助手段。
          數(shù)據(jù)來(lái)源:Github。
          數(shù)據(jù)處理方法:首先對(duì)數(shù)據(jù)樣本進(jìn)行數(shù)據(jù)增強(qiáng),使用了在Image Net數(shù)據(jù)集上預(yù)訓(xùn)練好的著名網(wǎng)絡(luò)進(jìn)行遷移學(xué)習(xí),在其后接若干層的全連接層。在全連接層中使用的激活函數(shù)為RELU,最后分類(lèi)層神經(jīng)元數(shù)為2,使用softmax激活函數(shù)。本實(shí)驗(yàn)已經(jīng)將在Image Net上預(yù)訓(xùn)練過(guò)的權(quán)重進(jìn)行凍結(jié),不再參與后續(xù)訓(xùn)練造成的神經(jīng)元數(shù)值變動(dòng),只訓(xùn)練新增的全連接層。設(shè)置Learning Rate Scheduler用來(lái)動(dòng)態(tài)調(diào)整學(xué)習(xí)率,設(shè)置ReduceLROnPlateau用來(lái)在訓(xùn)練停滯不前的時(shí)候動(dòng)態(tài)降低學(xué)習(xí)率。選用優(yōu)化器adam,損失函數(shù)categorical_crossentropy。輪次100。
          研究結(jié)論:基于卷積神經(jīng)網(wǎng)絡(luò)的遷移學(xué)習(xí)模型可以很好地承擔(dān)口腔癌分類(lèi)任務(wù)。
          與同類(lèi)研究相比優(yōu)缺點(diǎn):模型設(shè)有大量神經(jīng)元與已經(jīng)訓(xùn)練完成的預(yù)訓(xùn)練網(wǎng)絡(luò)來(lái)彌補(bǔ)數(shù)據(jù)集過(guò)少帶來(lái)的過(guò)擬合問(wèn)題,使模型更快速地收斂。但是所采用的原始圖像數(shù)據(jù)量比較少,正負(fù)樣本不均衡,存在一些干擾項(xiàng)。
          文獻(xiàn)閱讀價(jià)值:利用大量神經(jīng)元和已經(jīng)訓(xùn)練完成的預(yù)訓(xùn)練網(wǎng)絡(luò)來(lái)彌補(bǔ)數(shù)據(jù)集過(guò)少帶來(lái)的過(guò)擬合問(wèn)題,使模型更快速地收斂。


          來(lái)源:統(tǒng)計(jì)家園

           End 


          聲明:部分內(nèi)容來(lái)源于網(wǎng)絡(luò),僅供讀者學(xué)術(shù)交流之目的。文章版權(quán)歸原作者所有。如有不妥,請(qǐng)聯(lián)系刪除。


          瀏覽 137
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  伊人久久大香线蕉综合色狠狠 | 不用播放器的AV网站 | 黄色性爱视频网站 | 日韩黄色一级视频 | 懂色AV一区二区三区国产中文在线 |