SegNet和FCN網(wǎng)絡(luò)的思路基本一致。編碼器部分使用VGG16的前13層卷積,不同點(diǎn)在于Decoder部分Upsampling的方式。FCN通過將特征圖deconv得到的結(jié)果與編碼器對(duì)應(yīng)大小的特征圖相加得到上采樣結(jié)果;而SegNet用Encoder部分maxpool的索引進(jìn)行Decoder部分的上采樣(原文描述:the decoder upsamples the lower resolution input feature maps. Speci?cally, the decoder uses pooling indices computed in the max-pooling step of the corresponding encoder to perform non-linear upsampling.)。
PSPNet(pyramid scene parsing network)通過對(duì)不同區(qū)域的上下文信息進(jìn)行聚合,提升了網(wǎng)絡(luò)利用全局上下文信息的能力。在SPPNet,金字塔池化生成的不同層次的特征圖最終被flatten并concate起來,再送入全連接層以進(jìn)行分類,消除了CNN要求圖像分類輸入大小固定的限制。而在PSPNet中,使用的策略是:poolling-conv-upsample,然后拼接得到特征圖,然后進(jìn)行標(biāo)簽預(yù)測(cè)。
這部分介紹一些網(wǎng)絡(luò)結(jié)構(gòu)創(chuàng)新在2D/3D醫(yī)學(xué)圖像分割中的應(yīng)用研究成果。2.1 基于模型壓縮的分割方法為了實(shí)現(xiàn)實(shí)時(shí)處理高分辨率的2D/3D醫(yī)學(xué)圖像(例如CT、MRI和組織病理學(xué)圖像等),研究人員提出了多種壓縮模型的方法。weng等人利用NAS技術(shù)應(yīng)用于U-Net網(wǎng)絡(luò),得到了在CT,MRI和超聲圖像上具有更好的器官/腫瘤分割性能的小型網(wǎng)絡(luò)。Brugger通過利用組歸一化(group normalization )和Leaky-ReLU(leaky ReLU function),重新設(shè)計(jì)了U-Net架構(gòu),以使網(wǎng)絡(luò)對(duì)3D醫(yī)學(xué)圖像分割的存儲(chǔ)效率更高。也有人設(shè)計(jì)了參數(shù)量更少的擴(kuò)張卷積module。其他一些模型壓縮的方法還有權(quán)重量化(十六位、八位、二值量化)、蒸餾、剪枝等等。2.2 編碼-解碼結(jié)構(gòu)的分割方法Drozdal提出了一種在將圖像送入分割網(wǎng)絡(luò)之前應(yīng)用簡(jiǎn)單的CNN來對(duì)原始輸入圖像進(jìn)行歸一化的方法,提高了單子顯微鏡圖像分割、肝臟CT、前列腺M(fèi)RI的分割精度。Gu提出了在主干網(wǎng)絡(luò)利用擴(kuò)張卷積來保留上下文信息的方法。Vorontsov提出了一種圖到圖的網(wǎng)絡(luò)框架,將具有ROI的圖像轉(zhuǎn)換為沒有ROI的圖像(例如存在腫瘤的圖像轉(zhuǎn)換為沒有腫瘤的健康圖像),然后將模型去除的腫瘤添加到新的健康圖像中,從而獲得對(duì)象的詳細(xì)結(jié)構(gòu)。Zhou等人提出了一種對(duì)U-Net網(wǎng)絡(luò)的跳躍連接重新布線的方法,并在胸部低劑量CT掃描中的結(jié)節(jié)分割,顯微鏡圖像中的核分割,腹部CT掃描中的肝臟分割以及結(jié)腸鏡檢查視頻中的息肉分割任務(wù)中測(cè)試了性能。Goyal將DeepLabV3應(yīng)用到皮膚鏡彩色圖像分割中,以提取皮膚病變區(qū)域。2.3 基于注意力機(jī)制的分割方法Nie提出了一種注意力模型,相比于baseline模型(V-Net和FCN),可以更準(zhǔn)確地分割前列腺。SinHa提出了一種基于多層注意力機(jī)制的網(wǎng)絡(luò),用于MRI圖像腹部器官分割。Qin等人提出了一個(gè)擴(kuò)張卷積模塊,以保留3D醫(yī)學(xué)圖像的更多細(xì)節(jié)。其他基于注意力機(jī)制的醫(yī)學(xué)圖像分割論文還有很多。2.4 基于對(duì)抗學(xué)習(xí)的分割網(wǎng)絡(luò)Khosravan提出了從CT掃描中進(jìn)行胰腺分割的對(duì)抗訓(xùn)練網(wǎng)絡(luò)。Son用生成對(duì)抗網(wǎng)絡(luò)進(jìn)行視網(wǎng)膜圖像分割。Xue使用全卷積網(wǎng)絡(luò)作為生成對(duì)抗框架中的分割網(wǎng)絡(luò),實(shí)現(xiàn)了從MRI圖像分割腦腫瘤。還有其他一些成功應(yīng)用GANs到醫(yī)學(xué)圖像分割問題的論文,不再一一列舉。2.5 基于RNN的分割模型遞歸神經(jīng)網(wǎng)絡(luò)(RNN)主要用于處理序列數(shù)據(jù),長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)是RNN的一個(gè)改進(jìn)版本,LSTM通過引入自環(huán)(self-loops)使得梯度流能長(zhǎng)期保持。在醫(yī)學(xué)圖像分析領(lǐng)域,RNN用于對(duì)圖像序列中的時(shí)間依賴性進(jìn)行建模。Bin等人提出了一種將全卷積神經(jīng)網(wǎng)絡(luò)與RNN融合的圖像序列分割算法,將時(shí)間維度上的信息納入了分割任務(wù)。Gao等人利用CNN和LSTM來對(duì)腦MRI切片序列中的時(shí)間關(guān)系進(jìn)行建模,以提高4D圖像中的分割性能。Li等人先用U-Net獲得初始分割概率圖,后用LSTM從3D CT圖像中進(jìn)行胰腺分割,改善了分割性能。其他利用RNN進(jìn)行醫(yī)學(xué)圖像分割的論文還有很多,不再一一介紹。2.6 小結(jié)這部分內(nèi)容主要是分割算法在醫(yī)學(xué)圖像分割中的應(yīng)用,所以創(chuàng)新點(diǎn)并不多,主要還是對(duì)不同格式(CT還是RGB,像素范圍,圖像分辨率等等)的數(shù)據(jù)和不同部位數(shù)據(jù)的特點(diǎn)(噪聲、對(duì)象形態(tài)等等),經(jīng)典網(wǎng)絡(luò)需要針對(duì)不同數(shù)據(jù)進(jìn)行改進(jìn),以適應(yīng)輸入數(shù)據(jù)格式和特征,這樣能更好的完成分割任務(wù)。雖然說深度學(xué)習(xí)是個(gè)黑盒,但整體上模型的設(shè)計(jì)還是有章可循的,什么策略解決什么問題、造成什么問題,可以根據(jù)具體分割問題進(jìn)行取舍,以達(dá)到最優(yōu)的分割性能。部分參考文獻(xiàn):1 Deep Semantic Segmentation of Natural and Medical Images: A Review2 NAS-Unet: Neural architecture search for medical image segmentation. IEEE Access, 7:44247–44257, 2019.3 Boosting segmentation with weak supervision from image-to-image translation. arXiv preprint arXiv:1904.01636, 20194 Multi-scale guided attention for medical image segmentation. arXiv preprint arXiv:1906.02849,2019.5 SegAN: Adversarial network with multi-scale L1 loss for medical image segmentation.6 Fully convolutional structured LSTM networks for joint 4D medical image segmentation. In 2018 IEEE7 https://www.cnblogs.com/walter-xh/p/10051634.html