<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          圖像分類(lèi)在乳腺癌檢測(cè)中的應(yīng)用

          共 4985字,需瀏覽 10分鐘

           ·

          2020-10-12 20:34

          點(diǎn)擊上方小白學(xué)視覺(jué)”,選擇加"星標(biāo)"或“置頂

          重磅干貨,第一時(shí)間送達(dá)


          01.概述

          癌癥是人類(lèi)主要的死亡原因之一,僅次于心臟病[A]。美國(guó)2017年近60萬(wàn)人死于癌癥。乳腺癌在癌癥排行榜中排名第二,也是女性最常見(jiàn)的疾病。組織學(xué)檢查通常是患者癌癥治療過(guò)程中的轉(zhuǎn)折點(diǎn)。如果常規(guī)的乳房X射線檢測(cè)到異常腫塊,則將進(jìn)行活檢以便進(jìn)一步確診。但是,復(fù)查和評(píng)估活檢玻片所需的時(shí)間很長(zhǎng),可能會(huì)給患者帶來(lái)巨大的壓力。一種能夠識(shí)別癌組織并減少誤診率的有效算法可使患者更早開(kāi)始治療并改善患者預(yù)后效果。

          卷積神經(jīng)網(wǎng)絡(luò)(CNN)已經(jīng)嘗試應(yīng)用于癌癥檢查,但是基于CNN模型的共同缺點(diǎn)是不穩(wěn)定性以及對(duì)訓(xùn)練數(shù)據(jù)的依賴(lài)。部署模型時(shí),假設(shè)訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)是從同一分布中提取的。這可能是醫(yī)學(xué)成像中的一個(gè)問(wèn)題,在這些醫(yī)學(xué)成像中,諸如相機(jī)設(shè)置或化學(xué)藥品染色的年齡之類(lèi)的元素在設(shè)施和醫(yī)院之間會(huì)有所不同,并且會(huì)影響圖像的顏色。這些變化對(duì)人眼來(lái)說(shuō)可能并不明顯,但是它們可能會(huì)影響CNN的重要特征并導(dǎo)致模型性能下降。因此,重要的是要開(kāi)發(fā)一種能夠適應(yīng)域之間差異的魯棒算法。

          過(guò)去已經(jīng)舉行了數(shù)項(xiàng)競(jìng)賽,以開(kāi)發(fā)組織學(xué)幻燈片中的癌癥檢測(cè)算法,例如ICIAR系列(BACH)[C],乳腺癌組織病理學(xué)數(shù)據(jù)庫(kù)(BreakHist)[D]和Kaggle組織病理學(xué)癌癥檢測(cè)[E] 。在此項(xiàng)目中,我們將探索如何使用域適應(yīng)來(lái)開(kāi)發(fā)更強(qiáng)大的乳腺癌分類(lèi)模型,以便將模型部署到多個(gè)醫(yī)療機(jī)構(gòu)中。

          02.背景

          “癌癥是人體內(nèi)不受控制異常生長(zhǎng)的細(xì)胞。當(dāng)人體的控制機(jī)制不工作的時(shí)候,癌癥就會(huì)發(fā)展。” [G]?在美國(guó),預(yù)計(jì)八分之一的女性都會(huì)患乳腺癌。到2020年,預(yù)計(jì)將識(shí)別出300,000例乳腺癌病例,結(jié)果38人中將有1人死亡。

          組織學(xué)用于評(píng)估患者的身體組織并鑒定癌細(xì)胞。在評(píng)估之前,將組織樣本染色以突出顯示組織的不同部分。蘇木精和曙紅是常見(jiàn)的染色劑,因?yàn)樗鼈兛梢杂行У赝怀霎惓<?xì)胞團(tuán)。蘇木素是一個(gè)堿基,與嗜堿性結(jié)構(gòu)(如細(xì)胞核)結(jié)合,將它們?nèi)境勺仙锛t將嗜酸性結(jié)構(gòu)(如細(xì)胞質(zhì))染成粉紅色[H]。理想中,不同的顏色和結(jié)構(gòu)足以識(shí)別組織異常。但是,染色組織的確切陰影可能會(huì)根據(jù)變量(例如年齡,染色化學(xué)物質(zhì)的濃度,濕度和樣本大小)而變化(圖1)。這些顏色變化可能會(huì)使CNN模型分辨不清。

          圖1.薄和厚組織切片中的顏色差異[I]。

          03.數(shù)據(jù)

          我們使用了來(lái)自ICIAR BACH 2018案例競(jìng)賽[C]和BreakHist數(shù)據(jù)庫(kù)[D]的數(shù)據(jù)。每張圖片都經(jīng)過(guò)幾位醫(yī)學(xué)專(zhuān)家的審查標(biāo)記。示例圖像可以在圖2中看到。

          圖2. BreakHist數(shù)據(jù)庫(kù)的示例圖像。

          BACH數(shù)據(jù)集提供了400張圖像,分為四類(lèi):正常,良性,原位和有創(chuàng)。良性腫瘤是異常的細(xì)胞團(tuán),對(duì)患者構(gòu)成最小的風(fēng)險(xiǎn)。通常在被識(shí)別時(shí),它就被單獨(dú)放置[J]。一個(gè)原位腫瘤是未跨過(guò)身體系統(tǒng)擴(kuò)散細(xì)胞的激進(jìn)組。通常,它被認(rèn)為是惡性前癌癥,隨著時(shí)間的流逝將變得惡性[J]。浸潤(rùn)性癌癥是最嚴(yán)重的癌癥類(lèi)型,因?yàn)樗艳D(zhuǎn)移至超出其在體內(nèi)原始位置的位置。對(duì)于此分析,我們將正常和良性標(biāo)簽視為健康組織,并將原位和浸潤(rùn)性視為癌性組織。

          BreakHist數(shù)據(jù)集提供了在多個(gè)縮放級(jí)別(40x,100x,200x和400x)下拍攝的約8000張良性和惡性腫瘤圖像。這些組中包括的不同類(lèi)型的腫瘤在下面列出。

          ? 良性腫瘤:腺瘤,纖維腺瘤,葉狀腫瘤和腎小管腺瘤

          ? 惡性腫瘤:癌,小葉癌,粘液癌和乳頭狀癌(K)

          04.預(yù)處理

          為了開(kāi)發(fā)用于領(lǐng)域適應(yīng)的強(qiáng)大模型,我們選擇將BreakHist數(shù)據(jù)用于我們的訓(xùn)練集。多個(gè)縮放級(jí)別是模型魯棒性的一個(gè)很好的起點(diǎn),因?yàn)榛脽羝瑘D像的大小/放大倍數(shù)在整個(gè)行業(yè)中通常沒(méi)有標(biāo)準(zhǔn)化。

          為了減少計(jì)算時(shí)間,將所有圖像縮放到224x224像素。對(duì)于CNN模型,權(quán)重和節(jié)點(diǎn)的數(shù)量隨著輸入圖像大小的增加而呈指數(shù)增長(zhǎng)。不幸的是,當(dāng)整個(gè)幻燈片圖像從其原始尺寸減小時(shí),很多信息可能會(huì)丟失。因此,需要在模型復(fù)雜度和準(zhǔn)確性之間進(jìn)行權(quán)衡。

          圖1和圖2展示了污漬中存在的各種顏色。為了使我們的模型可跨域使用,我們?yōu)橛?xùn)練集中的每個(gè)原始圖像實(shí)施了九種顏色增強(qiáng)。這些增色改變了圖像的顏色和強(qiáng)度。此外,我們對(duì)每個(gè)變換后的圖像進(jìn)行了3次旋轉(zhuǎn),以說(shuō)明相機(jī)定位和組織樣本方向的差異。這些預(yù)處理步驟將我們的訓(xùn)練集的大小從7,909張圖像增加到285,000張圖像。

          圖3.訓(xùn)練集中單個(gè)圖像的圖像增強(qiáng)摘要。


          05.建模與訓(xùn)練

          基準(zhǔn)模型

          為了了解自適應(yīng)的優(yōu)勢(shì),我們首先在原始BreakHist數(shù)據(jù)集上訓(xùn)練了CNN模型,并在ICIAR數(shù)據(jù)集上對(duì)該模型進(jìn)行了測(cè)試。此初始模型使我們能夠了解模型應(yīng)用于其他領(lǐng)域時(shí)的準(zhǔn)確性,而無(wú)需進(jìn)行設(shè)計(jì)考慮。

          如前所述,BreakHist數(shù)據(jù)集包含大約8,000張圖像。每個(gè)圖像都從其原始尺寸縮小到224x224正方形圖像。因此,CNN的輸入是所有224x224像素的RGB值。ResNet34模型架構(gòu)經(jīng)過(guò)十個(gè)階段的培訓(xùn);并記錄了從原始BreakHist數(shù)據(jù)集中提取的驗(yàn)證集上模型的準(zhǔn)確性。為了確定模型的準(zhǔn)確性是否可以延續(xù)到另一個(gè)領(lǐng)域,在ICIAR數(shù)據(jù)集中的400張圖像上對(duì)模型進(jìn)行了測(cè)試。

          方法1

          為了提高我們?cè)诘诙€(gè)領(lǐng)域中檢測(cè)癌癥的能力,我們使用了顏色歸一化技術(shù)和旋轉(zhuǎn)功能來(lái)增強(qiáng)BreakHist數(shù)據(jù)。處理完所有這些數(shù)據(jù)后,我們獲得了約285,000張圖像。有了這么多圖像,運(yùn)行一個(gè)歷時(shí)就花費(fèi)了七個(gè)多小時(shí)。為了找到一種在計(jì)算上更可行的解決方案,我們將訓(xùn)練數(shù)據(jù)降采樣為25,000張圖像的平衡集。

          新的CNN接受了25,000張?jiān)鰪?qiáng)圖像的培訓(xùn)。所有其他模型參數(shù),例如ResNet34架構(gòu)和時(shí)期數(shù),都保持與以前相同。確定了該模型在驗(yàn)證集上的準(zhǔn)確性。然后,在ICIAR數(shù)據(jù)集上測(cè)試了該模型,以確定增強(qiáng)后的圖像是否提高了我們?cè)诓煌I(lǐng)域中檢測(cè)癌癥的能力。

          方法2

          為了提高模型準(zhǔn)確性并進(jìn)一步探索領(lǐng)域適應(yīng)性,以與BreakHist訓(xùn)練集相同的方式對(duì)ICIAR測(cè)試集進(jìn)行了預(yù)處理。對(duì)測(cè)試集中的每個(gè)圖像進(jìn)行色彩增強(qiáng),以產(chǎn)生原始圖像的九種變體。這9個(gè)變體通過(guò)了CNN模型,并對(duì)其輸出進(jìn)行了多數(shù)表決,以確定原始圖像的預(yù)測(cè)標(biāo)簽。然后通過(guò)將多數(shù)投票標(biāo)簽與真實(shí)標(biāo)簽進(jìn)行比較來(lái)確定模型的準(zhǔn)確性。


          06.結(jié)果

          基準(zhǔn)模型

          測(cè)試的第一個(gè)模型是我們的基準(zhǔn)模型,它使我們能夠量化域自適應(yīng)的優(yōu)勢(shì)。在包含來(lái)自與訓(xùn)練集相同來(lái)源的數(shù)據(jù)的驗(yàn)證集上對(duì)該模型進(jìn)行測(cè)試時(shí),該模型達(dá)到了89.31%的準(zhǔn)確性。這表明該模型在用于培訓(xùn)的同一領(lǐng)域中使用時(shí)成功診斷了癌癥。但是,隨后對(duì)該模型進(jìn)行了不同領(lǐng)域的數(shù)據(jù)測(cè)試,僅產(chǎn)生了45%的準(zhǔn)確性。該準(zhǔn)確性比隨機(jī)猜測(cè)差,并且表明必須考慮設(shè)計(jì)因素才能生成可在多種醫(yī)療保健環(huán)境中使用的模型。這些不良結(jié)果的可能解釋包括掃描儀和染色技術(shù)的差異。此測(cè)試的混淆矩陣如圖4所示。該模型似乎沒(méi)有高估任何癌癥。

          圖4:未增強(qiáng)/預(yù)處理的結(jié)果

          方法1

          先前的研究和期刊出版物已經(jīng)表明,域適應(yīng)可以提高乳腺癌分類(lèi)器的準(zhǔn)確性。為了驗(yàn)證該想法,我們?cè)谠鰪?qiáng)圖像上訓(xùn)練了一個(gè)新模型,以使該模型對(duì)顏色和方向的變化更加魯棒。對(duì)來(lái)自不同域的數(shù)據(jù)進(jìn)行模型測(cè)試時(shí),準(zhǔn)確性為55.25%。盡管此域中的性能仍然明顯小于原始域中的性能,但它確實(shí)證明了域自適應(yīng)可以對(duì)基線模型進(jìn)行一些改進(jìn)。此外,我們可以觀察到模型預(yù)測(cè)的巨大變化。基線模型傾向于高估沒(méi)有癌癥。但是,這種新模型存在相反的問(wèn)題,并且高估了癌癥。該模型的混淆矩陣如圖5所示。

          圖5.方法1的測(cè)試結(jié)果

          方法2

          為了使訓(xùn)練域和測(cè)試域更加相似,對(duì)測(cè)試圖像進(jìn)行了預(yù)處理,并對(duì)訓(xùn)練集使用了相同的增強(qiáng)方法。然后,將增強(qiáng)的測(cè)試圖像通過(guò)方法1的CNN模型傳遞。不幸的是,在這種方法下,模型精度降低到53.75%。該模型的混淆矩陣如圖6所示。

          圖6.方法2的測(cè)試結(jié)果

          07.未來(lái)工作

          該項(xiàng)目的目的是了解醫(yī)療領(lǐng)域中算法的域適應(yīng)帶來(lái)的挑戰(zhàn)。先前的研究表明,深度學(xué)習(xí)模型可以有效地緩解醫(yī)師緩慢而單調(diào)的工作,但在實(shí)際應(yīng)用中必須經(jīng)過(guò)充分的培訓(xùn)和測(cè)試。從我們的模型可以看出,驗(yàn)證準(zhǔn)確度(最少的預(yù)處理/擴(kuò)充)為89%,但在不同的領(lǐng)域中使用時(shí),很快下降到了45%。這凸顯了域適應(yīng)的挑戰(zhàn)。一旦我們考慮到了領(lǐng)域變化而進(jìn)行了設(shè)計(jì)考慮,我們模型的測(cè)試準(zhǔn)確性就提高到了55.25%。這表明,通過(guò)更多的數(shù)據(jù),準(zhǔn)備工作和培訓(xùn),我們可以提高模型的準(zhǔn)確性。

          但是,在將該模型用于診斷癌癥之前,有必要進(jìn)行進(jìn)一步的改進(jìn)。由于項(xiàng)目的限制,我們將訓(xùn)練集從285,000張圖像減少到25,000張圖像。此外,每個(gè)圖像的大小均縮小到224x224像素。這些修改可能會(huì)限制我們模型的性能,尤其是在此域中,因?yàn)樯A看起來(lái)與人眼非常相似,并且縮小尺寸可能導(dǎo)致過(guò)多的信息丟失,尤其是在數(shù)據(jù)集之間。未來(lái)的工作應(yīng)該探索使用更多的可用數(shù)據(jù),并且在尋找精細(xì)細(xì)節(jié)時(shí),關(guān)于顏色排列和大量相同顏色如何影響模型和各種類(lèi)型的CNN濾鏡,可以做更多的研究。此分析的另一個(gè)局限性是我們無(wú)法解釋模型錯(cuò)誤的可能原因,因?yàn)榻M織學(xué)切片的解釋需要一定程度的主題專(zhuān)業(yè)知識(shí)。對(duì)于更大范圍的解釋?zhuān)尣±韺W(xué)家識(shí)別潛在趨勢(shì)并提供見(jiàn)解會(huì)有所幫助。

          也可以使用其他方法來(lái)潛在地提高模型的準(zhǔn)確性。例如,可以對(duì)來(lái)自多個(gè)域的數(shù)據(jù)進(jìn)行訓(xùn)練。我們希望該模型能夠展示出更高的性能,因?yàn)檫@將減輕對(duì)特定來(lái)源特有模式的過(guò)度擬合。對(duì)于乳腺癌,這必須由醫(yī)院提供,并且由于HIPAA代碼的緣故,通常無(wú)法免費(fèi)獲得。

          該項(xiàng)目證明了CNN模型可能非常脆弱,領(lǐng)域適應(yīng)性至關(guān)重要,并強(qiáng)調(diào)了魯棒性的需求,尤其是在醫(yī)療領(lǐng)域,決策可能會(huì)對(duì)患者的生活產(chǎn)生重大影響。我們希望將來(lái)可以改進(jìn)此模型,以提高乳腺癌診斷的準(zhǔn)確性并為癌癥患者提供更好的結(jié)果。

          資源:

          A. https://www.cdc.gov/nchs/fastats/leading-causes-of-death.htm
          B.http://phrma-docs.phrma.org/sites/default/files/pdf/08-17-2010_economic_impact_study.pdf
          C. https://iciar2018-challenge.grand-challenge.org/
          D. https://www.kaggle.com/ambarish/breakhis
          E. https://www.kaggle.com/c/histopathologic-cancer-detection
          F.https://medium.com/@thepurpleblobs/breast-cancer-detection-the-purple-blobs-6ac40984ceb4
          G. https://www.cancercenter.com/what-is-cancer
          H. http://histology.leeds.ac.uk/what-is-histology/H_and_E.php
          I.https://www.leicabiosystems.com/knowledge-pathway/he-basics-part-4-troubleshooting-he/
          J. https://www.webmd.com/a-to-z-guides/benign-tumors-causes-treatments#1
          K.https://web.inf.ufpr.br/vri/databases/breast-cancer-histopathological-database-breakhis/


          交流群


          歡迎加入公眾號(hào)讀者群一起和同行交流,目前有SLAM、三維視覺(jué)、傳感器自動(dòng)駕駛、計(jì)算攝影、檢測(cè)、分割、識(shí)別、醫(yī)學(xué)影像、GAN算法競(jìng)賽等微信群(以后會(huì)逐漸細(xì)分),請(qǐng)掃描下面微信號(hào)加群,備注:”昵稱(chēng)+學(xué)校/公司+研究方向“,例如:”張三?+?上海交大?+?視覺(jué)SLAM“。請(qǐng)按照格式備注,否則不予通過(guò)。添加成功后會(huì)根據(jù)研究方向邀請(qǐng)進(jìn)入相關(guān)微信群。請(qǐng)勿在群內(nèi)發(fā)送廣告,否則會(huì)請(qǐng)出群,謝謝理解~


          瀏覽 67
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  久re视频在线 | 国产人兽网站 | 欧洲超清一区二区三区视频 | 91看片 白丝少萝自慰 | 99热0|