<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          X射線圖像中的目標(biāo)檢測(cè)

          共 6862字,需瀏覽 14分鐘

           ·

          2020-07-28 16:43


          點(diǎn)擊上方小白學(xué)視覺(jué)”,選擇加"星標(biāo)"或“置頂

          重磅干貨,第一時(shí)間送達(dá)

          1 動(dòng)機(jī)和背景


          每天有數(shù)百萬(wàn)人乘坐地鐵、民航飛機(jī)等公共交通工具,因此行李的安全檢測(cè)將保護(hù)公共場(chǎng)所免受恐怖主義等影響,在防范中扮演著重要角色。但隨著城市人口的增長(zhǎng),使用公共交通工具的人數(shù)逐漸增多,在獲得便利的同時(shí)帶來(lái)很大的不安全性,因此設(shè)計(jì)一種可以幫助加快安全檢查過(guò)程并提高其效率的系統(tǒng)非常重要。卷積神經(jīng)網(wǎng)絡(luò)等深度學(xué)習(xí)算法不斷發(fā)展,也在各種不同領(lǐng)域(例如機(jī)器翻譯和圖像處理)發(fā)揮了很大作用,而目標(biāo)檢測(cè)作為一項(xiàng)基本的計(jì)算機(jī)視覺(jué)問(wèn)題,能為圖像和視頻理解提供有價(jià)值的信息,并與圖像分類、機(jī)器人技術(shù)、人臉識(shí)別和自動(dòng)駕駛等相關(guān)。在本項(xiàng)目中,我們將一起探索幾個(gè)基于深度學(xué)習(xí)的目標(biāo)檢測(cè)模型,以對(duì)X射線圖像中的違禁物體進(jìn)行定位和分類為基礎(chǔ),并比較這幾個(gè)模型在不同指標(biāo)上的表現(xiàn)。


          針對(duì)該(目標(biāo)檢測(cè)領(lǐng)域已有的研究,R. Girshick等[29]的基于區(qū)域的目標(biāo)檢測(cè)網(wǎng)絡(luò)(稱為R-CNN),使用選擇性搜索算法在感興趣物體周圍尋找邊界框,但這種模型訓(xùn)練很慢;幾個(gè)月后,R. Girshick等 [30]通過(guò)改進(jìn)選擇性搜索算法改進(jìn)了R-CNN模型,減少了訓(xùn)練時(shí)間,該模型稱為Fast R-CNN;一年后,K. He,R. Girshick等[31]刪除了選擇性搜索算法,引入Region Proposal net(RPN)網(wǎng)絡(luò),設(shè)計(jì)了Faster R-CNN新目標(biāo)檢測(cè)模型,大大減少了訓(xùn)練時(shí)間;2017年,K. He等[32]提出Mask R-CNN,該架構(gòu)不僅僅使用邊界框來(lái)定位物體,還可以定位每個(gè)物體的精確像素。


          與上述基于區(qū)域提議的方法不同,一些研究還介紹了另一種稱為基于回歸/分類的目標(biāo)檢測(cè)方法,D. Erhan等[33]在2014年推出了MulitBox;J. Redmon等[34]在2016年發(fā)明了YOLO,達(dá)到很高的檢測(cè)速度;之后,J. Redmon和A. Farhadi [35]設(shè)計(jì)了一種更快的模型,稱為YOLO v2;2016年,由W. Liu等人?[36] 組成另一個(gè)研究團(tuán)隊(duì)介紹了一種稱為SSD網(wǎng)絡(luò)的新架構(gòu),與Faster R-CNN相比,SSD具有相近的準(zhǔn)確性,但訓(xùn)練時(shí)間更短。在我們的項(xiàng)目中已經(jīng)探索了所有這些基于區(qū)域提案的框架和基于回歸/分類的框架。


          數(shù)據(jù)集:SIXray數(shù)據(jù)集由來(lái)自北京地鐵的X射線圖像組成https://github.com/MeioJane/SIXray


          2 問(wèn)題陳述


          本項(xiàng)目的目標(biāo)是通過(guò)選擇多種算法、訓(xùn)練多種模型,比較各種算法的性能,找到檢測(cè)X射線圖像中違禁物品的最佳算法,這些違禁物包括了槍、刀、扳手、鉗子和剪刀,但是錘子不包含在此項(xiàng)目中,因?yàn)檫@一類的圖像太少。模型的性能由mAP(目標(biāo)檢測(cè)的指標(biāo))、準(zhǔn)確率和查全率來(lái)描述,接下來(lái)我們討論解決這一問(wèn)題具有哪些挑戰(zhàn)。


          2.1 算法(目標(biāo)檢測(cè)vs圖像分類)


          在圖像分類中,CNN被用來(lái)當(dāng)作特征提取器,使用圖像中的所有像素直接提取特征,這些特征之后被用來(lái)分類X射線圖像中違禁物品,然而這種方法計(jì)算代價(jià)昂貴,并且?guī)?lái)了大量的冗余信息,此外標(biāo)準(zhǔn)CNN中包含具有固定輸出的全連接層(即分類網(wǎng)絡(luò)的輸出是固定的維度),但在我們的數(shù)據(jù)集中,一副圖像中可能有許多相同或不相同類別的違禁物品,并且違禁物品可能有不同的空間位置和長(zhǎng)寬比,因此使用分類方法會(huì)導(dǎo)致計(jì)算成本高昂,耗費(fèi)大量時(shí)間。因此我們得出結(jié)論,該數(shù)據(jù)集非常適合目標(biāo)檢測(cè)算法,目標(biāo)檢測(cè)的目標(biāo)不僅是分類違禁物品,還要通過(guò)創(chuàng)建邊界框來(lái)為它們定位


          2.2 數(shù)據(jù)集不平衡


          我們的數(shù)據(jù)集高度不平衡,數(shù)據(jù)集的負(fù)樣本比正樣本多的多,負(fù)樣本意味著圖片中不包含我們感興趣的目標(biāo),換句話來(lái)說(shuō)正樣本意味著一張圖片中包含我們感興趣的物品。在本例中,我們嘗試在X射線圖像中檢測(cè)的目標(biāo)是違禁物品,如刀、槍、扳手、鉗子和剪刀。使用目標(biāo)檢測(cè)模型而不是分類模型的好處是我們能夠訓(xùn)練足夠的正樣本,無(wú)需將負(fù)樣本(圖像)合并到訓(xùn)練集中,這是因?yàn)樨?fù)樣本早就隱式的存在于圖像中,圖像中與邊界框(目標(biāo)的真實(shí)邊界框)不相關(guān)的所有區(qū)域都是負(fù)樣本。因此,由于不平衡的數(shù)據(jù)集,我們能夠節(jié)省訓(xùn)練大型數(shù)據(jù)集的時(shí)間和成本而不用犧牲很多準(zhǔn)確性。


          2.3 復(fù)雜的圖像


          我們的X射線圖像數(shù)據(jù)集,不僅是數(shù)據(jù)集,不平衡數(shù)據(jù)集中也包含了不清晰的圖像。從本質(zhì)上來(lái)講,安全檢查經(jīng)常處理的行李圖像中包含了與其他物品聚集、重疊和隨機(jī)堆疊的物品,例正常物品和違禁物品通常以各種方式混合在一起,導(dǎo)致一些重大檢測(cè)問(wèn)題,例如通過(guò)簡(jiǎn)單的金屬探測(cè)器甚至是人員檢查等技術(shù)而產(chǎn)生錯(cuò)誤檢測(cè)或漏檢。但通過(guò)仔細(xì)選擇合適的目標(biāo)檢測(cè)模型,不僅可以對(duì)違禁物品正確分類,還可以確定它們?cè)趫D像中位置,解決這個(gè)具有挑戰(zhàn)性的問(wèn)題。下一節(jié)中,我們將介紹項(xiàng)目選擇的每個(gè)模型背后的目標(biāo)檢測(cè)架構(gòu)。



          3 數(shù)據(jù)處理過(guò)程


          3.1 數(shù)據(jù)獲取


          數(shù)據(jù)集為包含正樣本(包含我們感興趣對(duì)象的圖像,即我們要定位和分類的違禁物品)和負(fù)樣本(包含非違禁物品的圖像)的SIXray數(shù)據(jù)集,這些樣本隨后用于訓(xùn)練、評(píng)估我們的模型。此外,所有圖像的標(biāo)簽文件位于三個(gè)單獨(dú)的文件夾中。我們感興趣對(duì)象的位置標(biāo)注文件為xml格式。


          3.2 預(yù)處理圖像和標(biāo)簽文件以創(chuàng)建訓(xùn)練數(shù)據(jù)


          我們使用正樣本的一個(gè)子集用于訓(xùn)練,另一個(gè)子集與負(fù)樣本結(jié)合以進(jìn)行測(cè)試和評(píng)估。由于計(jì)算成本和功能的限制,在本項(xiàng)目中我們沒(méi)有使用整個(gè)SIXray數(shù)據(jù)集。我們數(shù)據(jù)集有3個(gè)主要預(yù)處理步驟:


          第一步:獲取我們要使用的每個(gè)圖像的正確標(biāo)簽。因?yàn)槲覀兪褂玫氖菙?shù)據(jù)集的子集,因此需要從數(shù)據(jù)集中為每個(gè)圖像獲取新標(biāo)簽,之后這些標(biāo)簽被用來(lái)測(cè)試和評(píng)估我們訓(xùn)練好的模型。


          第二步:通過(guò)轉(zhuǎn)換帶標(biāo)簽的xml文件(包含每個(gè)圖片元數(shù)據(jù),例類別、對(duì)象位置)創(chuàng)建可讀數(shù)據(jù)集。


          第三步:將正樣本的圖像和注釋文件轉(zhuǎn)換為Tensorflow Record用于目標(biāo)檢測(cè)模型的訓(xùn)練。


          3.3 創(chuàng)建訓(xùn)練和訓(xùn)練模型


          我們的訓(xùn)練是通過(guò)TensorFlow目標(biāo)檢測(cè)API完成的,我們可以從下面的鏈接下載和安裝,還可以下載來(lái)自TensorFlow模型Zoo的配置文件和目標(biāo)檢測(cè)預(yù)訓(xùn)練模型。另外我們嘗試了分類模型,但是效果不好,因此我們改為使用目標(biāo)檢測(cè)模型。


          TensorFlow目標(biāo)檢測(cè)API:

          https://github.com/tensorflow/models/tree/master/research/object_detection

          TensorFlow目標(biāo)檢測(cè)模型Zoo:

          https://github.com/tensorflow/models/blob/master/research/object_detection/g3doc/detection_model_zoo.md

          每個(gè)模型的TensorFlow目標(biāo)檢測(cè)配置:

          https://github.com/tensorflow/models/tree/master/research/object_detection/samples/configs


          訓(xùn)練是在帶有深度學(xué)習(xí)VM的Google cloud平臺(tái)上完成的。我們訓(xùn)練了8種不同的目標(biāo)檢測(cè)模型。


          用于訓(xùn)練的圖像為7200個(gè)正樣本,在這個(gè)項(xiàng)目中,我們沒(méi)有將負(fù)樣本添加到我們的訓(xùn)練集中,因?yàn)闄z測(cè)模型會(huì)將不屬于真實(shí)邊界框的圖像區(qū)域作為負(fù)樣本。此外,訓(xùn)練過(guò)程由TensorBoard監(jiān)控,可以在線查看訓(xùn)練進(jìn)度,如結(jié)束訓(xùn)練的步數(shù)、訓(xùn)練損失、驗(yàn)證損失等等。



          3.4 用不同比例的正-負(fù)圖像集評(píng)估每個(gè)模型


          我們?yōu)橛?xùn)練有素的模型創(chuàng)建一個(gè)推理圖,并用它與正樣本的另一個(gè)子集和全部負(fù)樣本進(jìn)行評(píng)估。評(píng)估的性能用Precision-Recall分?jǐn)?shù)和mAP進(jìn)行衡量。

          用于模型評(píng)估的三種測(cè)試集比率:

          1.1800個(gè)正樣本+ 50,000個(gè)負(fù)樣本

          2.1800個(gè)正樣本+ 100,000個(gè)負(fù)樣本

          3.1800個(gè)正樣本+ 150,000個(gè)負(fù)樣本



          4 方法


          對(duì)于圖像分類問(wèn)題,圖像作為輸入,模型會(huì)對(duì)該圖像中包含的對(duì)象進(jìn)行分類,而定位問(wèn)題是定位圖像中的對(duì)象的位置,但是僅僅定位并不能幫助我們預(yù)測(cè)圖像中的對(duì)象類別。目標(biāo)檢測(cè)能指定對(duì)象在圖片中的位置并預(yù)測(cè)該對(duì)象的類別,因此在此項(xiàng)目中,目標(biāo)檢測(cè)模型非常適合我們的X射線圖像數(shù)據(jù)集。


          在我們的項(xiàng)目中,我們實(shí)現(xiàn)了8個(gè)目標(biāo)檢測(cè)模型,他們具有不同的結(jié)構(gòu)(下節(jié)講述):

          1. SSD Mobilenet_v1

          2. SSD Mobilenet_v1_fpn

          3. SSD Inception_v2

          4. SSD Resnet50

          5. R-FCN Resnet101

          6. Faster R-CNN Resnet50

          7. Faster R-CNN Resnet101

          8. Faster R-CNN Inception_v2


          4.1 目標(biāo)檢測(cè)架構(gòu)


          (1)SSD(Single Shot MultiBox Detector)


          論文地址:https://arxiv.org/abs/1512.02325

          SSD是一種使用單一深度神經(jīng)網(wǎng)絡(luò)檢測(cè)圖像中對(duì)象的方法,該方法將邊界框的輸出空間離散化為一組默認(rèn)框,這組默認(rèn)框在每個(gè)特征圖位置上具有不同長(zhǎng)寬比和尺度。在預(yù)測(cè)時(shí),網(wǎng)絡(luò)會(huì)為每個(gè)默認(rèn)框生成所有對(duì)象類別存在的分?jǐn)?shù),并調(diào)整默認(rèn)框以更好的匹配該對(duì)象的形狀。

          與需要區(qū)域提案的其他方法相比,SSD更加簡(jiǎn)單,因?yàn)镾SD將所有的計(jì)算完全封裝在一個(gè)網(wǎng)絡(luò)中。SSD使用VGG16作為特征提取器(等效于Faster RCNN中的CNN),它使得SSD易于訓(xùn)練、檢測(cè)迅速,并且可以直接集成到需要實(shí)時(shí)檢測(cè)的系統(tǒng)中。SSD采用了特征金字塔層次結(jié)構(gòu),具有快速的檢測(cè)速度,但是在檢測(cè)小物體方面性能低下,因?yàn)樗e(cuò)過(guò)了使用高分辨率特征圖的機(jī)會(huì)(例SSD僅僅使用上層特征圖進(jìn)行檢測(cè)),如下圖:

          ?


          (2)FPN(特征金字塔網(wǎng)絡(luò))


          論文地址:https://arxiv.org/abs/1612.03144

          FPN包含兩個(gè)主要路徑:自上而下的路徑(語(yǔ)義強(qiáng)、分辨率低的特征)和自下而上的路徑(語(yǔ)義弱、分辨率高的特征)。此外網(wǎng)絡(luò)添加了橫向連接,連接重建的層和相應(yīng)的特征圖,以幫助檢測(cè)器更好的預(yù)測(cè)目標(biāo)位置。整個(gè)特征金字塔在所有層上都具有豐富的語(yǔ)義,并且可以在不犧牲特征表征、速度、內(nèi)存的情況下快速構(gòu)建。

          總之,F(xiàn)PN是一種特征提取器,旨在構(gòu)建各種尺度的高級(jí)語(yǔ)義特征圖(金字塔概念)。FPN是多尺度特征提取器的改進(jìn),與其他目標(biāo)檢測(cè)模型中的特征提取器相比,如Faster R-CNN,包含更高質(zhì)量的信息。


          (3)Faster R-CNN(基于區(qū)域的卷積網(wǎng)絡(luò))


          論文地址:https://arxiv.org/abs/1506.01497

          在簡(jiǎn)單的目標(biāo)檢測(cè)算法中將CNN模型應(yīng)用于單一圖像,來(lái)檢測(cè)我們感興趣的對(duì)象。因?yàn)槲覀兏信d趣的對(duì)象可能位于圖像中的任何位置,因此我們通過(guò)對(duì)不同的區(qū)域多次應(yīng)用不同的滑動(dòng)窗口來(lái)重新訓(xùn)練網(wǎng)絡(luò),這種方法計(jì)算代價(jià)高昂并且非常耗時(shí),因此需要嘗試減少滑動(dòng)窗口的數(shù)量。

          R-CNN:Ross Girshick提出的R-CNN,使用選擇性搜索算法為每張圖片提取2000個(gè)區(qū)域建議(候選區(qū)域)。選擇性搜索算法使用局部線索(如紋理、顏色等)產(chǎn)生對(duì)象的所有可能位置,CNN充當(dāng)每個(gè)候選區(qū)域的特征提取器,最后線性SVM分類器對(duì)候選區(qū)域中可能存在的目標(biāo)進(jìn)行分類。但訓(xùn)練R-CNN計(jì)算代價(jià)依舊高昂,因?yàn)槊總€(gè)圖片中依舊包含約2000個(gè)候選區(qū)域。

          Fast R-CNN:之后同一研究者( Ross Girshick)設(shè)計(jì)了這個(gè)模型(R-CNN)的升級(jí)版本,稱為Fast R-CNN,它使用了非常相似的方法,例如使用帶有一些修改的選擇性搜索方法 ,不需要產(chǎn)生2000個(gè)固定區(qū)域建議,而是通過(guò)兩個(gè)主要操作提取一組區(qū)域建議:第一個(gè)操作是CNN模型特征提取,輸出卷積特征圖(全圖特征);第二個(gè)操作是使用感興趣區(qū)域池化層(ROI)從第一個(gè)操作的輸出中識(shí)別區(qū)域建議,并提取特征。這種方法使得計(jì)算量減少。

          Faster R-CNN:但選擇性搜索方法依舊是一個(gè)非常耗時(shí)的操作,因此提出了一種稱為Faster R-CNN的新模型。不使用選擇性搜索算法,引入新的網(wǎng)絡(luò)來(lái)產(chǎn)生區(qū)域建議,這使得Faster R-CNN比R-CNN和Fast RCNN都快。


          (4)R-FCN(基于區(qū)域的全卷積網(wǎng)絡(luò))


          論文地址:https://arxiv.org/abs/1605.06409

          同以前的基于區(qū)域的檢測(cè)器(如R-CNN,F(xiàn)ast R-CNN和Faster R-CNN)數(shù)百次應(yīng)用代價(jià)昂貴的區(qū)域子網(wǎng)相比,該論文的作者提出了一種新的基于區(qū)域的模型稱為R-FCN,它具有全卷積的架構(gòu),幾乎在整個(gè)圖像上共享所有計(jì)算。作者提出了位置敏感得分圖,以解決圖像分類中的平移不變性與目標(biāo)檢測(cè)中的平移差異性之間的難題。因此,該方法可以采用全卷積的圖像分類器主干(例最新的殘差網(wǎng)絡(luò)Resnet)來(lái)進(jìn)行目標(biāo)檢測(cè)。


          (5)模型之間精度和速度的比較


          4.2 目標(biāo)檢測(cè)模型主干網(wǎng)絡(luò)的關(guān)鍵功能


          (1)Resnet50和Resnet101


          論文地址:https://arxiv.org/abs/1512.03385

          Resnet是一個(gè)非常深的網(wǎng)絡(luò),具有許多層,它是第一個(gè)使用跳躍連接來(lái)解決由于網(wǎng)絡(luò)加深而引起梯度消失進(jìn)而導(dǎo)致精確度下降問(wèn)題的網(wǎng)絡(luò)。它還應(yīng)用了批量歸一化技術(shù),請(qǐng)注意Resnet101是比Resnet50更深的網(wǎng)絡(luò)。



          (2)Inception v2


          論文地址:https://arxiv.org/pdf/1512.00567v3.pdf

          Inception_v2架構(gòu)包含三個(gè)主要組件:首先,它在網(wǎng)絡(luò)中間引入了兩個(gè)附加的輔助分類器,以解決梯度消失問(wèn)題;其次,由于同一層中的過(guò)濾器大小不同,因此與Resnet相比它具有更深更寬的網(wǎng)絡(luò)(結(jié)構(gòu));最后,為了解決因?yàn)闇p少輸入大小引發(fā)的信息丟失問(wèn)題,網(wǎng)絡(luò)通過(guò)使用兩個(gè)3x3卷積(而不是一個(gè)5x5卷積)升級(jí)了Inception_v1。


          (3)Mobilenet v2?


          論文地址:https://arxiv.org/abs/1704.04861

          Mobilenet的關(guān)鍵是它使用深度可分離卷積來(lái)構(gòu)建輕量級(jí)深度網(wǎng)絡(luò)。這意味著網(wǎng)絡(luò)在應(yīng)用逐點(diǎn)卷積之前先應(yīng)用逐通道卷積。標(biāo)準(zhǔn)卷積可以通過(guò)單個(gè)操作進(jìn)行過(guò)濾和合并,但深度可分離的卷積,這個(gè)操作是在單獨(dú)的兩個(gè)步驟上完成的,從而加快了計(jì)算速度。


          (4)模型之間精度和速度的比較

          注意:

          1. 復(fù)雜性可以用浮點(diǎn)運(yùn)算或?qū)ふ医鉀Q方案所需的觸發(fā)器來(lái)表示,這意味著觸發(fā)器是計(jì)算的基本單位,觸發(fā)器的數(shù)量表示執(zhí)行一系列操作的成本。

          2. Inception v3具有與Inception v2相同的架構(gòu),但有一些小的更改。


          從上圖中,就計(jì)算時(shí)間而言,我們可以為使用的每個(gè)模型按從最快到最慢的順序排列,分別是:Resnet101、Inception_v3、Resnet50和Mobilenet_v1。另一方面,按最高到最低的準(zhǔn)確性順序排序,分別是Inception_v3、Resnet101、Resnet50和Mobilenet_v1。


          5 評(píng)估


          目標(biāo)檢測(cè)模型包含兩個(gè)主要任務(wù):第一個(gè)任務(wù)是分類任務(wù),用來(lái)判斷圖片中是否包含我們感興趣的對(duì)象;第二個(gè)任務(wù)是定位任務(wù),用來(lái)確定圖像中我們感興趣對(duì)象的位置。此外,我們的數(shù)據(jù)集存在正負(fù)樣本高度不平衡和不同類別違禁物品分布不規(guī)則的問(wèn)題,因此僅使用準(zhǔn)確性度量評(píng)估模型是不夠的,還需要評(píng)估我們的模型對(duì)感興趣對(duì)象和非感興趣對(duì)象進(jìn)行錯(cuò)誤分類的可能性,因此基于圖像中我們感興趣對(duì)象周圍的每個(gè)邊界框評(píng)估模型得分或者置信度分?jǐn)?shù),以便在任何可接受閾值下評(píng)估我們模型對(duì)目標(biāo)位置和類別的預(yù)測(cè)能力。平均精度(AP)是目標(biāo)檢測(cè)任務(wù)常用的度量,我們還需要理解一些重要的概念,例Precision-Recall曲線、AP和IoU。


          5.1 交并比閾值(IoU)


          在評(píng)估目標(biāo)檢測(cè)模型是否能分類違禁物品的類別并預(yù)測(cè)這些物品在圖像中的位置的重要閾值是交并比閾值(IoU),IoU是目標(biāo)真值框和我們模型預(yù)測(cè)框之間相交的面積與并集的面積的比值。


          5.2 精確度-召回率曲線(Precision-Recall曲線)


          我們的項(xiàng)目中樣本和類別不平衡,精確度-召回率度量是預(yù)測(cè)成功的一個(gè)十分有用的度量。


          精確度(P)是真實(shí)正樣本(TP)的數(shù)量除以真實(shí)正樣本和錯(cuò)誤正樣本(FP)數(shù)量的和。[P=TP/(TP+FP)]

          召回率(R)是真實(shí)正樣本(TP)的數(shù)量除以真實(shí)正樣本(TP)和錯(cuò)誤負(fù)樣本(FN)數(shù)量的和。[R=TP/(TP+FN)]

          為了評(píng)估這些指標(biāo),我們需要選擇一些閾值來(lái)考慮模型的預(yù)測(cè)方向。

          真實(shí)正樣本(TP)是IoU>=閾值的正確預(yù)測(cè)

          錯(cuò)誤正樣本(FP)是IoU<閾值的錯(cuò)誤預(yù)測(cè)

          錯(cuò)誤負(fù)樣本(FN)是對(duì)感興趣對(duì)象的漏檢

          真實(shí)負(fù)樣本(TN)是目標(biāo)檢測(cè)模型的隱式度量,真實(shí)負(fù)樣本是不包含我們感興趣對(duì)象的邊界框,在每張圖片中有很多這樣的邊界框。我們不需要顯示測(cè)量真實(shí)負(fù)樣本,因?yàn)樯厦娴钠渌胧┛梢栽谙喾吹姆较驁?zhí)行類似的功能。


          精確度是我們模型檢測(cè)感興趣對(duì)象的能力,召回率是我們的模型可以找到我們感興趣對(duì)象的所有相關(guān)邊界框的能力。從精確度和召回率的公式可以看出精確度不會(huì)隨著召回率的降低而降低。


          精確度TP/(TP+FP)的定義表明:降低模型閾值可能會(huì)通過(guò)增加相關(guān)返回的結(jié)果來(lái)增加分母,如果閾值設(shè)置的太高,會(huì)增加返回結(jié)果的真實(shí)正樣本的數(shù)量,進(jìn)而提高精確度;而如果之前的閾值大致正確或太低,進(jìn)一步降低閾值會(huì)增加錯(cuò)誤正樣本的數(shù)量,因而降低精確度。召回率R=TP/(TP+FN)的定義表明:FN不依賴于選擇的閾值,這意味著降低閾值可能通過(guò)增加真實(shí)正樣本的數(shù)量來(lái)提高召回率,所以降低閾值可能會(huì)導(dǎo)致召回率保持不變時(shí)精確度發(fā)生波動(dòng)。但選擇正確的閾值很難,因此我們寧愿找到所有可能的閾值取它們的平均值,這就是為什么平均精度(AP)非常重要的原因。


          精確度和召回率曲線:展示了針對(duì)不同閾值,精確度和召回率之間的權(quán)衡。曲線下的高區(qū)域代表高召回率和高精度,其中高精確度和低FP有關(guān),高召回率和低FN有關(guān),兩者的高分都表明我們的模型返回了準(zhǔn)確的結(jié)果(高精度),并且返回了大部分真實(shí)正樣本(高查全率)。


          召回率高但精度低的模型可以將大多數(shù)邊界框定位在我們感興趣對(duì)象的周圍,但是與真實(shí)標(biāo)簽相比,這些對(duì)象的大多數(shù)預(yù)測(cè)類都不正確。精度高而召回率低的模型則相反,通過(guò)定位很少相關(guān)邊界框,但與真實(shí)標(biāo)簽相比這些邊界框大多數(shù)預(yù)測(cè)類都正確。總而言之,我們希望具有高精確度和高召回率的模型,因?yàn)樗鼈儗⒎祷卦S多相關(guān)的邊界框,且所有結(jié)果均正確標(biāo)記。


          5.3 平均精度(AP)和平均精度均值(mAP)


          平均精度(AP)將精確度-召回率曲線總結(jié)為,在每個(gè)閾值水平上,作為權(quán)重的前一個(gè)閾值的召回率的增加所達(dá)到的平均精度(AP)。[AP=∑n(Rn?Rn?1)Pn ]其中,Pn和Rn是在第n個(gè)閾值處的精確度和召回率,根據(jù)上面的公式,AP是每個(gè)閾值在所有召回率上的平均精度。


          平均精度均值(mAP)定義為:所有不同類別的平均精度的平均值,但有兩種不同類型的mAP:Micro mAP和Macro mAP,Macro mAP為我們感興趣的每一類對(duì)象獨(dú)立地計(jì)算AP度量,然后計(jì)算平均值,這意味著Macro mAP平等對(duì)待所有類;相反Micro mAP將匯總所有類別的貢獻(xiàn)以計(jì)算AP指標(biāo)。


          結(jié)果:


          我們用7200個(gè)正樣本訓(xùn)練所有模型,同時(shí)用另外1800個(gè)正樣本以及不同數(shù)量的負(fù)樣本(分別是50000、100000和150000)進(jìn)行評(píng)估。上面所有圖表是在具有不同正樣本和負(fù)樣本比例的測(cè)試數(shù)據(jù)集下,不同模型的精確度-召回率曲線,曲線下的面積越大,每個(gè)閾值處的精確度和查全率都越高。


          圖表可知:

          (1)左上方圖像,僅使用1800個(gè)正樣本而不使用任何負(fù)樣本來(lái)測(cè)試我們的模型,盡管SSD_Mobilenet_v1曲線下的面積比其他模型相對(duì)較小,但每個(gè)模型曲線下的面積都很高。其余三幅圖像顯示了使用測(cè)試數(shù)據(jù)集的不同子集(即50000、100000和150000負(fù)樣本)測(cè)試每個(gè)模型時(shí)的性能;

          (2)與每種測(cè)試數(shù)據(jù)集下的其他模型相比,SSD_Inception_v2模型曲線下的面積最大,此外在測(cè)試數(shù)據(jù)集的正樣本和負(fù)樣本的每個(gè)比率中,基于SSD的模型(例如SSD_Mobilenet_v1_fpn和SSD_Resnet50)在曲線下的面積也比其他模型(例如R-FCN和Faster R-CNN)高(SSD_Mobilenet_v1除外)。

          (3)在每個(gè)測(cè)試數(shù)據(jù)集中,SSD_Mobilenet_v1曲線下的面積最低,這意味著我們模型的性能不僅依賴于檢測(cè)網(wǎng)絡(luò),而且還依賴于網(wǎng)絡(luò)后端(如用于特征提取的不同CNN模型)。

          (4)基于Inception_v2、Mobilenet_v1_fpn和Resnet50的SSD檢測(cè)模型優(yōu)于具有類似網(wǎng)絡(luò)后端的R-FCN和Faster R-CNN模型。相比之下,使用簡(jiǎn)單提取網(wǎng)絡(luò)(例如Mobilenet_v1)的SSD模型在我們所有模型中表現(xiàn)最差。



          表顯示了不同模型在包含不同比例違禁物品的測(cè)試數(shù)據(jù)集中的平均準(zhǔn)確度(AP),最后三列顯示了每個(gè)模型在不同比例的數(shù)據(jù)集下,每種違禁物品類別的平均準(zhǔn)確度均值(mAP)。

          從該表可以明顯觀察到:

          (1)隨著將更多負(fù)樣本添加到測(cè)試數(shù)據(jù)集中(從50k到150k),AP和mAP都相應(yīng)減少。

          (2對(duì)于槍類,RFCN_Resnet101性能最佳,其他模型(如Faster_RCNN_Resnet50 / 101和SSD_Inception_v2)非常接近;對(duì)于刀類,SSD_Inception_v2AP最高且性能大大優(yōu)于其他模型,無(wú)論是槍類還是刀類,最佳模型的AP可達(dá)90%;對(duì)于扳手和鉗子類別,F(xiàn)aster_RCNN_Resnet50和SSD_Mobilenet_v1_fpn分別具有60-80%的最高AP;但對(duì)于剪刀類,SSD_Resnet50具有最高AP但也僅有20%至40%,這意味著剪刀類可能是最難檢測(cè)到的違禁物品,因此建議機(jī)器學(xué)習(xí)工程師使用更多的剪刀類修改模型或添加更多數(shù)據(jù)。


          總體而言,我們的項(xiàng)目使用Micro mAP來(lái)評(píng)估每個(gè)模型的總體性能。SSD_Inception_v2具有最高的Micro mAP,這與我們之前對(duì)平均召回率曲線的分析一致。


          上面的折線圖通過(guò)使用每個(gè)模型的Micro mAP分?jǐn)?shù)總結(jié)了上表的最后三列。SSD_Inception_v2是我們項(xiàng)目中最好的模型,其次是SSD_Mobilenet_v1_fpn,在所有模型中SSD_Mobilenet_v1的性能最讓人失望。


          6 數(shù)據(jù)產(chǎn)品



          測(cè)試圖像顯示了我們訓(xùn)練的不同目標(biāo)檢測(cè)模型的性能以及圖像的真實(shí)情況。

          第一張測(cè)試圖像中我們可以看到,該行李圖像中有四個(gè)危險(xiǎn)物品,包括兩把槍和三把重疊的刀。所有模型中,SSD_Mobilenet_v1_fpn、SSD_Inception_v2和SSD_Resnet50都只能檢測(cè)到槍支而忽略了所有刀,而其余模型則可以同時(shí)檢測(cè)到槍和刀,RFCN_Resnet101和Faster_RCNN_Resnet101同其他模型相比具有最佳性能,盡管RFCN_Resnet101在違禁物品上放置了更多邊界框,但它們可以非常高精度地檢測(cè)到所有四個(gè)違禁物品。



          第二張測(cè)試圖像比上一張更具挑戰(zhàn)性,有三種不同類型的危險(xiǎn)物品:扳手,槍和刀。從真實(shí)圖像中可以看到有三把扳手,兩把槍和一個(gè)刀隨機(jī)地散布和重疊。SSD_Mobilenet_v1_fpn和SSD_Inception_v2可以檢測(cè)到扳手和槍支漏檢了刀,相反除SSD_Resnet50之外的其他模型都可以檢測(cè)到所有這三種違禁物品。SSD_Resnet50可以以非常低的準(zhǔn)確度分?jǐn)?shù)檢測(cè)槍支和扳手卻漏檢了刀和扳手。RFCN_Resnet101、Faster_RCNN_Resnet101和Faster_RCNN_Resnet50在這個(gè)圖像中表現(xiàn)最佳,因?yàn)樗鼈兡軌蜃R(shí)別所有違禁物品并且以高的準(zhǔn)確率得分對(duì)其定位。


          7 經(jīng)驗(yàn)教訓(xùn)


          從該項(xiàng)目中可以學(xué)到如下三點(diǎn):目標(biāo)檢測(cè)模型如何工作;為什么需要目標(biāo)檢測(cè)模型;如何評(píng)估目標(biāo)檢測(cè)模型的性能。

          (1)為什么使用目標(biāo)檢測(cè)而不是分類模型?通常,我們選擇CNN模型來(lái)解決圖像分類問(wèn)題,然而在這個(gè)項(xiàng)目中CNN不能為X射線數(shù)據(jù)集中的圖像識(shí)別并定位違禁物品,例我們嘗試了VGG16和Resnet50模型,但結(jié)果令人失望。為了解釋這種現(xiàn)象,我們對(duì)計(jì)算機(jī)視覺(jué)進(jìn)行了一些研究,發(fā)現(xiàn)僅分類模型并不適合解決該項(xiàng)目的問(wèn)題,該項(xiàng)目中具有挑戰(zhàn)性的任務(wù)包括特征提取和多目標(biāo)定位。相反,我們實(shí)現(xiàn)了一種更好的替代方法,即目標(biāo)檢測(cè)模型。

          (2)不同的目標(biāo)檢測(cè)架構(gòu)。例如Faster R-CNN、SSD、R-FCN和FPN。在前面的部分中已經(jīng)詳細(xì)解釋了它們的結(jié)構(gòu)、功能和優(yōu)點(diǎn)。為了實(shí)現(xiàn)目標(biāo)檢測(cè)模型,我們使用Tensorflow目標(biāo)檢測(cè)API并在Google Cloud平臺(tái)上訓(xùn)練,我們訓(xùn)練了幾種模型并評(píng)估了它們的性能。

          (3)模型評(píng)估指標(biāo)。評(píng)估部分,我們了解了模型評(píng)估指標(biāo)的三個(gè)新概念,包括精確度-召回率曲線、平均精確度(AP)、平均精確度均值(mAP)和交并比(IoU)閾值。我們使用AP和Micro mAP作為主要指標(biāo)來(lái)評(píng)估所有訓(xùn)練的目標(biāo)檢測(cè)模型,并選擇性能最佳的模型。


          未來(lái)工作:

          (1)為了提高目標(biāo)檢測(cè)模型的準(zhǔn)確性,我們需要添加更多‘正’圖,未來(lái)也可以將一些負(fù)樣本整合到訓(xùn)練集中。尤其需要添加包含剪刀類的圖像,對(duì)于我們的所有模型來(lái)說(shuō)識(shí)別剪刀似乎都是最困難的,檢測(cè)剪刀性能最佳的模型也只能獲得42%的精度,一個(gè)可能的原因是我們的數(shù)據(jù)集中缺少剪刀圖像,因?yàn)槲覀冎挥?83個(gè)帶有剪刀的圖像,這遠(yuǎn)低于其它類別;我們當(dāng)前的數(shù)據(jù)集正樣本和負(fù)樣本不平衡(具有8929個(gè)正圖像和1050302個(gè)負(fù)圖像),并且在每個(gè)類別中包含違禁物品的圖像數(shù)量也不平衡,我們的項(xiàng)目只使用正圖像來(lái)訓(xùn)練模型,但正圖像僅占不到1%,并且測(cè)試數(shù)據(jù)集仍然需要其中的一些圖像,未來(lái)我們可以將一些負(fù)樣本整合到我們的訓(xùn)練數(shù)據(jù)集中。

          (2)對(duì)模型的時(shí)間和準(zhǔn)確性做出權(quán)衡。由于某些應(yīng)用程序需要實(shí)時(shí)目標(biāo)檢測(cè),因此在這種情況下,具有最高準(zhǔn)確度但訓(xùn)練和評(píng)估速度慢的模型可能不適合。


          8 總結(jié)


          項(xiàng)目目標(biāo):找到能夠正確分類X射線圖像中的違禁物品并精確定位的最佳算法。

          項(xiàng)目數(shù)據(jù)集:使用一個(gè)大規(guī)模數(shù)據(jù)集——SIXray數(shù)據(jù)集,由超過(guò)一百萬(wàn)個(gè)X射線圖像組成,這些X射線圖像由不同數(shù)量的違禁物品和非違禁物品組成。

          項(xiàng)目模型:由于分類CNN模型的性能不佳,改為使用目標(biāo)檢測(cè)模型來(lái)解決此問(wèn)題;選擇了許多目標(biāo)檢測(cè)架構(gòu),例如SSD、Faster R-CNN、FPN和R-FCN,它們具有不同的特征提取器后端,如CNN模型(包括Resnet,Inception和Mobilenet);我們成功地訓(xùn)練了8個(gè)目標(biāo)檢測(cè)模型,評(píng)估了每種模型的性能,以便在我們的不平衡數(shù)據(jù)集中找到性能最佳的模型,使用平均精確度均值(mAP)來(lái)測(cè)量每種模型在預(yù)測(cè)不同類別違禁物品時(shí)的總體性能,在該項(xiàng)目中SSD_Inception_v2被證明是最合適的模型,具有最高的平均精確度均值得分。

          未來(lái)工作:優(yōu)化模型的性能,以提升預(yù)測(cè)剪刀等違禁物品的性能,由于剪刀圖像的數(shù)量?jī)H占整個(gè)數(shù)據(jù)集的0.001%,一種可能的解決方案是增加訓(xùn)練數(shù)據(jù)集的數(shù)量,如添加更多的正樣本。


          額外圖像:

          T


          參考

          1.SIXray Dataset:?https://github.com/MeioJane/SIXray

          2.SIXray: A Large-scale Security Inspection X-ray Benchmark for Prohibited Item Discovery in Overlapping Images:?

          https://arxiv.org/pdf/1901.00303.pdf

          3.Tensorflow Object Detection API document:

          https://github.com/tensorflow/models/tree/master/research/object_detection

          4.Tensorflow Object Detection Model zoo:?

          https://github.com/tensorflow/models/blob/master/research/object_detection/g3doc/detection_model_zoo.md

          5.Tensorflow Object Detection Model Config files:?

          https://github.com/tensorflow/models/tree/master/research/object_detection/samples/configs

          6.Feature Pyramid Network:?

          https://medium.com/@jonathan_hui/understanding-feature-pyramid-networks-for-object-detection-fpn-45b227b9106c

          7.COCO Dataset:?http://presentations.cocodataset.org/COCO17-Stuff-FAIR.pdf

          8.R-FCN Research paper:?https://arxiv.org/abs/1605.06409

          9.R-FCN explanation:?

          https://medium.com/@jonathan_hui/understanding-region-based-fully-convolutional-networks-r-fcn-for-object-detection-828316f07c99

          10.Resnet Research paper:?https://arxiv.org/abs/1512.03385

          11.Inception Research paper: https://arxiv.org/pdf/1512.00567v3.pdf

          12.Mobilenet Research paper: https://arxiv.org/abs/1704.04861

          13.Mobilenet explanation:?

          https://towardsdatascience.com/review-mobilenetv1-depthwise-separable-convolution-light-weight-model-a382df364b69

          14.Object Detection metric reviews:

          https://blog.zenggyu.com/en/post/2018-12-16/an-introduction-to-evaluation-metrics-for-object-detection/

          15.Object Detection metric explanation:?

          https://medium.com/@timothycarlen/understanding-the-map-evaluation-metric-for-object-detection-a07fe6962cf3

          16.Faster R-CNN explanation:?https://towardsdatascience.com/review-faster-r-cnn-object-detection-f5685cb30202

          17.Introduction to Object Detection:?

          https://machinelearningmastery.com/object-recognition-with-deep-learning/

          18.Object Detection model reviews:?https://cv-tricks.com/object-detection/faster-r-cnn-yolo-ssd/

          19.History of R-CNN, Fast R-CNN, and Faster R-CNN:?

          https://towardsdatascience.com/r-cnn-fast-r-cnn-faster-r-cnn-yolo-object-detection-algorithms-36d53571365e

          20.Should we integrate Negative samples into training dataset:?

          https://stats.stackexchange.com/questions/315748/object-detection-how-to-annotate-negative-samples

          21.Object Detection metrics:?https://github.com/rafaelpadilla/Object-Detection-Metrics

          22.Scikit-learn Precision-Recall:?

          https://scikit-learn.org/0.15/auto_examples/plot_precision_recall.html

          23.Mean Average Precision: Micro vs Macro:?

          https://datascience.stackexchange.com/questions/15989/micro-average-vs-macro-average-performance-in-a-multiclass-classification-settin

          24.Mean Average Precision:?https://medium.com/@jonathan_hui/map-mean-average-precision-for-object-detection-45c121a31173

          25.Benchmark Analysis of Representative Deep Neural Network Architectures:?

          https://arxiv.org/pdf/1810.00736.pdf

          26.Flop Definition:?

          https://www.stat.cmu.edu/~ryantibs/convexopt-S15/scribes/09-num-lin-alg-scribed.pdf

          27.Object Detection speed and accuracy comparison:?

          https://mc.ai/object-detection-speed-and-accuracy-comparison-faster-r-cnn-r-fcn-ssd-and-yolo/

          28.Single Shot Detection(SSD):?

          https://medium.com/@jonathan_hui/what-do-we-learn-from-single-shot-object-detectors-ssd-yolo-fpn-focal-loss-3888677c5f4d

          29.R. Girshick, J. Donahue, T. Darrell, and J. Malik, “Rich feature hierarchies for accurate object detection and semantic segmentation,”inCVPR, 2014

          30.R. Girshick, “Fast r-cnn,” inICCV, 2015

          31.Ren, K. He, R. Girshick, and J. Sun, “Faster r-cnn: Towards real-time object detection with region proposal networks,” inNIPS, 2015,pp. 91–99.

          32.K. He, G. Gkioxari, P. Doll ?ar, and R. B. Girshick, “Mask r-cnn,” inICCV, 2017

          33.D. Erhan, C. Szegedy, A. Toshev, and D. Anguelov, “Scalable object detection using deep neural networks,” inCVPR, 2014

          34.Redmon, S. Divvala, R. Girshick, and A. Farhadi, “You only look once: Unified, real-time object detection,” inCVPR, 2016

          35.J. Redmon and A. Farhadi, “Yolo9000: better, faster, stronger,”arXiv:1612.08242, 2016

          36.W. Liu, D. Anguelov, D. Erhan, C. Szegedy, S. Reed, C.-Y. Fu, andA. C. Berg, “Ssd: Single shot multibox detector,” inECCV, 2016.

          ?End?


          流群


          歡迎加入公眾號(hào)讀者群一起和同行交流,目前有SLAM、三維視覺(jué)、傳感器自動(dòng)駕駛、計(jì)算攝影、檢測(cè)、分割、識(shí)別、醫(yī)學(xué)影像、GAN算法競(jìng)賽等微信群(以后會(huì)逐漸細(xì)分),請(qǐng)掃描下面微信號(hào)加群,備注:”昵稱+學(xué)校/公司+研究方向“,例如:”張三?+?上海交大?+?視覺(jué)SLAM“。請(qǐng)按照格式備注,否則不予通過(guò)。添加成功后會(huì)根據(jù)研究方向邀請(qǐng)進(jìn)入相關(guān)微信群。請(qǐng)勿在群內(nèi)發(fā)送廣告,否則會(huì)請(qǐng)出群,謝謝理解~


          瀏覽 50
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  www.久久久 | 污视频网站在线观看国产 | 操多水美女在线视频 | 国产毛片一区二区三区亖区内套视频 | 国产精品视频播放豆花网址 |