<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          基于邊緣特征和注意力機(jī)制的圖像語義分割

          共 12276字,需瀏覽 25分鐘

           ·

          2024-07-24 22:03

          作者:王軍,張霽云,程勇

          來源:《計算機(jī)系統(tǒng)應(yīng)用》期刊

          編輯:陳萍萍的公主@一點(diǎn)人工一點(diǎn)智能

          原文:https://www.c-s-a.org.cn/html/2024/7/9588.html


          摘要:在語義分割任務(wù)中,編碼器的下采樣過程會導(dǎo)致分辨率降低,造成圖像空間信息細(xì)節(jié)的丟失,因此在物體邊緣會出現(xiàn)分割不連續(xù)或者錯誤分割的現(xiàn)象,進(jìn)而對整體分割性能產(chǎn)生負(fù)面影響。針對上述問題,提出基于邊緣特征和注意力機(jī)制的圖像語義分割模型EASSNet。
          首先,使用邊緣檢測算子計算原始圖像的邊緣圖,通過池化下采樣和卷積運(yùn)算提取邊緣特征。接著,將邊緣特征融合到經(jīng)過編碼器提取的深層語義特征當(dāng)中,恢復(fù)經(jīng)過下采樣的特征圖像的空間細(xì)節(jié)信息,并且通過注意力機(jī)制來強(qiáng)化有意義的信息,從而提高物體邊緣分割的準(zhǔn)確性,進(jìn)而提升語義分割的整體性能。最后,EASSNet在PASCAL VOC 2012和Cityscapes數(shù)據(jù)集上的平均交并比分別達(dá)到85.9%和76.7%,與當(dāng)前流行的語義分割網(wǎng)絡(luò)相比,整體分割性能和物體邊緣的分割效果都具有明顯優(yōu)勢。
          引言
          圖像語義分割[1,2]是計算機(jī)視覺領(lǐng)域的一項(xiàng)重要技術(shù),它為圖像中的每個像素分配語義標(biāo)簽,使得具有相同標(biāo)簽的像素具有共同的視覺屬性。語義分割通常用于定位圖像中的對象和邊界,其目的是簡化或改變圖像的表示,以使其更容易理解和分析。語義分割適用于需要對圖像進(jìn)行精細(xì)分割和像素級分類的場景,如自動駕駛[3]當(dāng)中的道路分割、醫(yī)學(xué)圖像[4]中的病變分割、地理信息[5]中的遙感圖像土地分割等。以自動駕駛為例,語義分割任務(wù)需要識別道路上車可行駛的區(qū)域和車道分隔線,以確保汽車不會進(jìn)入特定區(qū)域。這不僅要求語義分割模型能夠精確識別不同類別的物體,還要求模型具有足夠快的識別速度。
          早期的語義分割技術(shù)主要分為3種:第1種是利用對象和背景之間的灰度值差來從圖像中分割前景和背景像素;第2種是根據(jù)紋理、對比度、灰度、光譜波段、飽和度等特性的差異,檢測圖像中的邊緣像素,從而將圖像分割成不同的語義類別;第3種是通過從預(yù)定義的種子像素或種子區(qū)域進(jìn)行傳播,將整個圖像分割成不同的語義斑塊。
          Shelhamer等人[6]提出的全卷積網(wǎng)絡(luò)(fully convolutional network,F(xiàn)CN)是首個將深度學(xué)習(xí)技術(shù)應(yīng)用于語義分割領(lǐng)域的模型,該模型將神經(jīng)網(wǎng)絡(luò)中的全連接層全部替換成卷積層,使之能夠輸入任意分辨率的圖片,并輸出與輸入圖片大小一致的結(jié)果。但是輸入圖像經(jīng)過一系列卷積操作后,分辨率不斷降低,容易造成圖像空間細(xì)節(jié)信息的丟失。
          計算機(jī)視覺領(lǐng)域的一個重要貢獻(xiàn)來自生物醫(yī)學(xué)成像領(lǐng)域,特別是U-Net[7]網(wǎng)絡(luò),它通過使用編碼器-解碼器結(jié)構(gòu)連接不同級別的特征來提取輸入圖像的低級和高級信息。隨后出現(xiàn)的DeepLab[8–10]家族語義分割網(wǎng)絡(luò)引入空洞卷積,通過擴(kuò)大編碼器中卷積層的感受野,以保持圖像的空間分辨率,并且通過采用全連接條件隨機(jī)場來優(yōu)化邊界。
          其中DeepLabv3+[11]將空洞卷積與空間金字塔池化(spatial pyramid pooling,SPP)[12]模塊相結(jié)合,形成了空洞空間金字塔池化(atrous spatial pyramid pooling,ASPP)模塊,通過不同膨脹率的空洞卷積來擴(kuò)大感受野,獲取更豐富的上下文信息。并且用深度可分離卷積替換標(biāo)準(zhǔn)卷積,減少了模型的參數(shù)量,從而提升分割性能。但是ASPP模塊無法獲取足夠精細(xì)的局部信息,同時該網(wǎng)絡(luò)也未能解決編碼器下采樣過程中空間細(xì)節(jié)信息丟失的問題,導(dǎo)致在物體邊緣容易出現(xiàn)錯誤分割。
          本文在DeepLabv3+的基礎(chǔ)上,構(gòu)建了基于邊緣特征和注意力機(jī)制的圖像語義分割模型EASSNet (edge attentive semantic segmentation network)。本文的主要貢獻(xiàn)如下:
          1)設(shè)計了邊緣特征提取模塊該模塊首先使用Sobel邊緣檢測算子來計算原始圖像的邊緣圖,隨后使用最大池化下采樣來降低邊緣圖的分辨率,再通過卷積操作來提取邊緣特征,最后使用Sigmoid函數(shù),得到每個像素值都在0–1之間的單通道掩碼圖像。
          2)設(shè)計了邊緣特征融合模塊將邊緣特征提取模塊中獲得的邊緣特征與編碼器提取的深層語義特征進(jìn)行融合,恢復(fù)經(jīng)過下采樣的特征圖像的空間細(xì)節(jié)信息,并且通過注意力機(jī)制來抑制無關(guān)的信息,強(qiáng)化有意義的信息。
          3)對損失函數(shù)進(jìn)行改進(jìn)通過引入Dice損失函數(shù)的變體,來加速語義分割任務(wù)的收斂速度,并且提升分割性能。
          4)本文提出的模型在廣泛的實(shí)驗(yàn)中表現(xiàn)出了優(yōu)越的性能。實(shí)驗(yàn)結(jié)果表明,EASSNet在PASCAL VOC 2012和Cityscapes數(shù)據(jù)集上的分割精度優(yōu)于當(dāng)前流行的語義分割網(wǎng)絡(luò)。
          相關(guān)工作
          1.1 語義分割模型
          近年來,隨著深度學(xué)習(xí)的快速發(fā)展,卷積神經(jīng)網(wǎng)絡(luò)技術(shù)也日益變得成熟,并且被應(yīng)用到語義分割領(lǐng)域。上文提到的FCN是深度學(xué)習(xí)用于語義分割領(lǐng)域的開山鼻祖,該模型存在經(jīng)過卷積操作后特征圖像分辨率降低,導(dǎo)致空間細(xì)節(jié)信息丟失的問題。DenseU-Net[13]通過加深卷積層,利用U-Net架構(gòu)實(shí)現(xiàn)了小尺度特征的聚合,從而提高了圖像的分類精度。
          BiSeNet[14]提出了一種具有高輸出分辨率的輕量級分支,并將注意機(jī)制引入到不同分支的融合過程中,在保持網(wǎng)絡(luò)精度的同時,大大提高了網(wǎng)絡(luò)速度。DeconvNet[15]在解碼器中使用堆疊的反卷積層來完成上采樣操作,逐步恢復(fù)特征圖像的分辨率。APCNet[16]包含多尺度、自適應(yīng)和全局指導(dǎo)局部親和力這3種要素,能夠獲取豐富的上下文信息。DFANet[17]通過對編碼器下采樣后獲得的特征圖進(jìn)行上采樣,然后再次輸入到編碼器當(dāng)中提取特征,從而將淺層空間信息和深層語義信息進(jìn)行融合。
          PSPNet[18]提出使用金字塔池化模塊來聚合上下文信息。HRNet[19]通過多層次特征的迭代信息交換來增強(qiáng)特征融合,并通過具有多尺度的卷積組合來提高空間信息的精度。上述所有方法均基于卷積神經(jīng)網(wǎng)絡(luò)融合局部特征形成全局特征信息,從而對圖像進(jìn)行像素級精度的分類。
          1.2 邊緣特征
          圖像的邊緣特征指的是在圖像中特性(例如像素灰度、紋理等)分布出現(xiàn)不連續(xù)的地方,這些地方呈現(xiàn)出階躍變化或屋脊?fàn)畹奶卣鳌D像的邊緣區(qū)域集中了圖像大部分的信息,因此它們通常是決定圖像特性的關(guān)鍵部分。圖像邊緣廣泛存在于物體與背景之間,以及物體與物體之間。因此,邊緣特征在圖像分割、圖像理解以及圖像識別中具有重要意義。利用邊緣提取算法可以有效檢測出原始圖像的邊緣,將邊緣圖像經(jīng)過處理并添加到語義分割網(wǎng)絡(luò)當(dāng)中后,可以有效恢復(fù)空間細(xì)節(jié)信息,改善邊緣分割不連續(xù)的現(xiàn)象。
          圖像分類和分割中的邊緣優(yōu)化和增強(qiáng)一直是研究的熱點(diǎn)方向。在一開始,人們關(guān)注分類的后處理來解決這個問題,比如Zhou等人[20]提出的FC-RCCN對分類結(jié)果進(jìn)行邊緣優(yōu)化。隨后,隨著深度學(xué)習(xí)的快速發(fā)展,人們主要關(guān)注將邊緣優(yōu)化與深度學(xué)習(xí)模型相結(jié)合,以生成更準(zhǔn)確的分類結(jié)果,即基于邊緣感知的分類和語義分割方法。GMENet[21]在語義分割的過程中,結(jié)合了對象級上下文條件反射、部分級空間關(guān)系和形狀輪廓信息。Chen等人[22]提出了一種邊緣感知卷積核,利用深度通道中包含的幾何信息,更有效地提取RGB-D圖像特征映射,以提高語義分割的精度。Kuang等人[23]提出了一種新的二維醫(yī)學(xué)圖像分割體和邊緣感知網(wǎng)絡(luò)BEA-SegNet,該網(wǎng)絡(luò)將體分割結(jié)果與邊緣特征融合,得到最終結(jié)果。
          邊緣特征圖像在語義分割領(lǐng)域已經(jīng)得到了廣泛應(yīng)用。本文的方法是將邊緣圖像經(jīng)過處理后輸入到編碼器末端,使經(jīng)過下采樣后分辨率大幅降低的特征圖能夠?qū)W習(xí)到有用的空間細(xì)節(jié)信息,最終緩解邊緣分割不連續(xù)的問題。
          1.3 注意力機(jī)制
          注意力機(jī)制可以使神經(jīng)網(wǎng)絡(luò)更有針對性地捕捉重要信息,同時排除那些無關(guān)的信息。SENet[24]提出了壓縮激勵(squeeze excitation,SE)模塊,這是一種通道注意力機(jī)制,可以將特征圖當(dāng)中更重要的通道凸顯出來,同時盡可能忽略不重要的通道。ECANet[25]為了減少模型參數(shù)放棄了SE模塊中的全連接層,采用一維卷積進(jìn)行替代,同時省略了通道維度減少后再恢復(fù)的步驟。
          Hu等人[26]提出了CMPE-SE機(jī)制,通過殘差映射和身份映射之間的競爭來估計特征圖的相關(guān)性。Hou等人[27]提出坐標(biāo)注意力(coordinate attention,CA)機(jī)制,將像素坐標(biāo)信息與通道注意力進(jìn)行融合,生成方向感知和位置敏感的注意力圖,增強(qiáng)移動網(wǎng)絡(luò)在圖像分類和下游任務(wù)中的表現(xiàn),計算量幾乎沒有增加。Woo等人[28]提出CBAM模塊,通過在通道和空間兩個維度上生成注意力特征權(quán)重,然后將這兩種特征權(quán)重與原始輸入特征圖相乘,以實(shí)現(xiàn)特征圖的自適應(yīng)修正。
          1.4 現(xiàn)有方法的不足
          盡管國內(nèi)外的研究者已經(jīng)提出了許多方法來緩解在編碼器的下采樣過程中空間細(xì)節(jié)信息丟失的問題,但是現(xiàn)有的語義分割模型仍然有需要改進(jìn)的地方。許多基于邊緣特征的語義分割模型需要使用深度信息,但是能夠獲取深度信息的立體相機(jī)價格較高,圖像中包含深度值的語義分割數(shù)據(jù)集也比較少見。此外一些語義分割模型將邊緣圖像與原始圖像進(jìn)行合并以后再輸入到編碼器當(dāng)中,而空間細(xì)節(jié)信息仍然會在下采樣的時候出現(xiàn)丟失。
          因此,有必要針對編碼器對原始圖像下采樣的過程中容易丟失空間細(xì)節(jié)信息的問題進(jìn)行研究,改善在物體邊緣出現(xiàn)分割不連續(xù)或者錯誤分割的現(xiàn)象,提高整體分割性能。
          模型改進(jìn)
          2.1 模型總體結(jié)構(gòu)
          本文采用DeepLabv3+作為基線語義分割模型,其結(jié)構(gòu)如圖1所示。在編碼器部分,輸入圖像首先被輸入到深度卷積神經(jīng)網(wǎng)絡(luò)(deep convolutional neural network,DCNN)當(dāng)中,分別提取出經(jīng)過4倍下采樣的淺層特征圖和經(jīng)過16倍下采樣的深層特征圖。
          接下來,將深層特征圖送入ASPP模塊,使用具有不同膨脹率的空洞卷積以獲取不同感受野的特征圖。通過concat操作將這些特征圖沿通道維度連接在一起,并通過1×1卷積進(jìn)行通道數(shù)的調(diào)整。在解碼器部分,首先對淺層特征圖進(jìn)行1×1卷積,進(jìn)行通道數(shù)的調(diào)整,然后對經(jīng)過ASPP模塊處理的深層次特征圖進(jìn)行4倍上采樣操作。
          接著,將上述兩個特征圖在通道維度上連接,以融合淺層空間信息和深層語義信息。最后,通過3×3卷積和4倍上采樣將特征圖的分辨率還原至原始圖像的大小,從而得到語義分割的預(yù)測結(jié)果。
          DeepLabv3+雖然通過使用ASPP模塊來擴(kuò)大感受野,提高了網(wǎng)絡(luò)對全局特征的感知能力,但是無法獲取足夠精細(xì)的局部特征,也無法恢復(fù)編碼器下采樣過程中丟失的空間細(xì)節(jié)信息,導(dǎo)致物體的邊緣部分容易出現(xiàn)錯誤分割的問題。
          本文針對上述問題,對DeepLabv3+網(wǎng)絡(luò)進(jìn)行改進(jìn),提出了語義分割模型EASSNet,其總體結(jié)構(gòu)如圖2所示。首先使用Sobel邊緣檢測算子來計算原始圖像的邊緣圖,再將邊緣圖輸入到邊緣特征提取(edge feature extraction,EFE)模塊中,提取出邊緣特征,最后使用邊緣特征融合(edge feature fusion,EFF)模塊,結(jié)合注意力機(jī)制將ASPP輸出的主干特征與邊緣特征進(jìn)行融合。
          融合后的特征不僅保留了編碼器提取的深層語義信息,還包含了邊緣特征所貢獻(xiàn)的空間細(xì)節(jié)內(nèi)容。通過注意力機(jī)制,有意義的信息得到強(qiáng)化突顯,無意義的冗余信息則被不被網(wǎng)絡(luò)關(guān)注,模型整體的學(xué)習(xí)能力和泛化能力得到提高。
          EASSNet語義分割模型通過將邊緣特征融合到主干特征當(dāng)中,緩解了物體邊緣錯誤分割的問題,并且通過改進(jìn)損失函數(shù),使得模型在訓(xùn)練時更容易得到接近真實(shí)分布的參數(shù),最終提升了語義分割任務(wù)的整體性能。
          圖1 DeepLabv3+模型的總體結(jié)構(gòu)
          2.2 邊緣特征提取模塊
          經(jīng)過編碼器下采樣后的特征圖像空間細(xì)節(jié)信息損失嚴(yán)重,需要從原始輸入圖像中提取信息并且補(bǔ)充到特征圖像中。針對該問題,本文設(shè)計了EFE模塊,用以提取輸入圖像中的邊緣特征,其結(jié)構(gòu)如圖3所示。首先使用傳統(tǒng)的邊緣檢測方法Sobel算子,計算出原始圖像的邊緣圖像,然后對該圖像進(jìn)行16倍最大池化下采樣。
          下采樣后的邊緣圖像雖然分辨率降低,但是基本保存了原始圖像的空間細(xì)節(jié)信息。隨后使用連續(xù)4個卷積塊來提取邊緣圖像中的深層語義信息,每個卷積塊包含一個7×7卷積、BatchNorm和GELU激活函數(shù)。接著使用1×1卷積恢復(fù)通道數(shù),最后使用Sigmoid激活函數(shù)計算出最終的邊緣特征。
          EFE模塊提取的邊緣特征是一個單通道掩碼圖像,每個像素值都在0–1之間。該特征圖包含了邊緣圖像中的空間細(xì)節(jié)信息和深層語義信息,可以為后續(xù)的語義分割任務(wù)提供幫助。
          2.3 邊緣特征融合模塊
          通過EFE模塊提取的邊緣特征保留了很多淺層空間細(xì)節(jié)信息,而編碼器下采樣后的主干特征圖像具有豐富的高層語義信息,需要將這兩個特征進(jìn)行融合,使邊緣特征成為主干特征的有益補(bǔ)充,并且對其中有意義的特征信息進(jìn)行強(qiáng)化。針對該問題,本文設(shè)計了EFF模塊,用以將邊緣特征融合進(jìn)編碼器下采樣后的特征圖像當(dāng)中,其結(jié)構(gòu)如圖4所示。首先將編碼器輸出的主干特征與邊緣特征進(jìn)行逐像素相乘,然后與原始的主干特征進(jìn)行殘差連接,得到新的主干特征。該步驟可以用式(1)來表示:
          圖2 EASSNet模型結(jié)構(gòu)
          圖3 邊緣特征提取模塊
          其中,F(xiàn)B????為主干特征,F(xiàn)E????為邊緣特征。進(jìn)行殘差連接是為了防止邊緣特征喧賓奪主,對編碼器從原始圖像中提取的主干特征造成太大的影響,導(dǎo)致語義分割的性能降低。式(1)得到的新特征圖當(dāng)中不僅包含了原始圖像的深層語義信息,而且包含了邊緣特征提供的空間細(xì)節(jié)信息。
          接著,使用注意力機(jī)制對特征進(jìn)行優(yōu)化,使網(wǎng)絡(luò)更多地關(guān)注有意義的特征,抑制無意義的特征。注意力機(jī)制由串行連接的一個通道注意力模塊和一個空間注意力模塊組成。在通道注意力模塊中,首先對特征圖分別進(jìn)行全局平均池化(global average pooling,GAP)和全局最大池化(global max pooling,GMP)操作,得到兩個C×1×1的張量,然后將它們同時輸入由兩個1×1卷積塊組成的人工神經(jīng)網(wǎng)絡(luò)當(dāng)中。將人工神經(jīng)網(wǎng)絡(luò)輸出的兩個張量相加后,使用Sigmoid函數(shù)計算出通道注意力權(quán)重????。最后通過矩陣點(diǎn)乘運(yùn)算,將通道注意權(quán)重映射到輸入的特征圖當(dāng)中,得到新的特征圖,實(shí)現(xiàn)通道維度的自適應(yīng)修正。該步驟可以用式(2)和式(3)來表示:
          其中, 表示全局平均池化后的張量, 表示全局最大池化后的張量,W0、W1分別表示兩個1×1卷積塊,??為Sigmoid激活函數(shù)。
          圖4 邊緣特征融合模塊
          隨后,在空間注意力模塊當(dāng)中,首先對通道注意力模塊輸出的特征圖在通道維度進(jìn)行最大池化和平均池化操作,得到兩個1×H×W的張量,將這兩個張量沿著通道維度連接在一起,再通過7×7卷積塊提取特征,并且將通道數(shù)恢復(fù)為1,隨后使用Sigmoid函數(shù)計算出空間注意力權(quán)重MS。最后通過矩陣點(diǎn)乘運(yùn)算將空間注意力權(quán)重映射到輸入的特征圖當(dāng)中,得到新的特征圖,實(shí)現(xiàn)空間維度的自適應(yīng)修正。該步驟可以用式(4)和式(5)來表示:
          其中, 表示沿著通道維度進(jìn)行全局平均池化后的張量, 表示沿著通道維度進(jìn)行全局最大池化后的張量,“;”符號表示沿著通道維度的連接操作,??為Sigmoid激活函數(shù)。
          經(jīng)過EFF模塊融合后的特征圖能夠有效恢復(fù)在編碼器的下采樣過程中丟失的空間細(xì)節(jié)信息,并且通過注意力機(jī)制重點(diǎn)突出了有意義的特征信息。將特征圖輸入到解碼器進(jìn)行上采樣,并進(jìn)行像素級精度的分類后,得到的語義分割預(yù)測圖可以有效改善在物體的邊緣分割不連續(xù)的現(xiàn)象。
          2.4 改進(jìn)損失函數(shù)
          在語義分割領(lǐng)域中,損失函數(shù)有多種形式,其中最常用的是交叉熵?fù)p失函數(shù)。該函數(shù)通過衡量預(yù)測分布與真實(shí)分布的相似性來計算損失,預(yù)測分布越接近真實(shí)分布,損失函數(shù)的值越小,反之越大,其表達(dá)式如式(6)所示:
          其中,N是樣本數(shù)量,C是類別數(shù)量, 是樣本i屬于類別j的標(biāo)簽,其值為0或1, 是模型對樣本i預(yù)測為類別j的概率,其值在0–1之間。交叉熵?fù)p失函數(shù)的局限性在于沒有考慮到標(biāo)簽分布不平衡的情況,當(dāng)不同類別的像素數(shù)量差異很大時,損失函數(shù)的訓(xùn)練會變得較為困難。此外,交叉熵?fù)p失函數(shù)只是離散地計算每個像素的損失值然后取平均,而不是全局考慮整幅圖像的預(yù)測結(jié)果。為了彌補(bǔ)交叉熵?fù)p失函數(shù)的不足,引入Dice損失函數(shù)及其變體Tanimoto損失函數(shù),其表達(dá)式分別如式(7)和式(8)所示:
          其中,N是樣本數(shù)量,C是類別數(shù)量,yij??????是樣本i屬于類別j的標(biāo)簽,其值為0或1,是模型對樣本i預(yù)測為類別j的概率,其值在0–1之間。Dice損失函數(shù)和Tanimoto損失函數(shù)在數(shù)值上是等價的,并且都有助于解決標(biāo)簽分布不平衡時訓(xùn)練困難的問題,但是當(dāng)小目標(biāo)較多時,該損失函數(shù)容易出現(xiàn)震蕩,極端情況下甚至?xí)霈F(xiàn)梯度飽和的情況。此外,根據(jù)經(jīng)驗(yàn),無論權(quán)重的隨即初始值如何,分母上有二次項(xiàng)的損失函數(shù)都更容易讓預(yù)測結(jié)果接近于真實(shí)值。因此,選擇交叉熵?fù)p失函數(shù)和Tanimoto損失函數(shù)的加權(quán)和為總體損失函數(shù),其表達(dá)式如式(9)所示:
          其中,α為對交叉熵?fù)p失函數(shù)和Tanimoto損失函數(shù)的影響進(jìn)行平衡的參數(shù),其取值范圍為(0,+∞)。
          實(shí)驗(yàn)結(jié)果與分析
          3.1 數(shù)據(jù)集
          在PASCAL VOC 2012和Cityscapes這兩個數(shù)據(jù)集上評估了所提出的語義分割模型的性能。其中PASCAL VOC 2012數(shù)據(jù)集用于模型的訓(xùn)練和性能評估,Cityscapes數(shù)據(jù)集用于模型的泛化性能測試。
          PASCAL VOC 2012是計算機(jī)視覺領(lǐng)域中被廣泛使用的公共圖像數(shù)據(jù)集。該數(shù)據(jù)集有21個語義類別,包括20個物體種類和1個背景類。總共有2913張有標(biāo)簽的圖像,其中隨機(jī)挑選的2622張照片作為訓(xùn)練集,291張照片作為驗(yàn)證集。輸入語義分割網(wǎng)絡(luò)的圖像大小設(shè)定為512×512。
          Cityscapes是城市環(huán)境中自動駕駛場景的著名數(shù)據(jù)集之一。該數(shù)據(jù)集有34個語義類別,根據(jù)前人的工作,只使用其中19個類別。總共有5000張精細(xì)標(biāo)注的圖像,每張照片的分辨率都是1024×2048,為了與VOC 2012數(shù)據(jù)集保持一致,將數(shù)據(jù)集中隨機(jī)挑選的4500張照片作為訓(xùn)練集,500張照片作為驗(yàn)證集。輸入語義分割網(wǎng)絡(luò)的圖像大小設(shè)定為512×1024。
          3.2 評價指標(biāo)
          采用平均交并比(mean intersection over union,MIoU)和平均精度(mean accuracy,MAcc)來評價實(shí)驗(yàn)結(jié)果,其表達(dá)式如式(10)和式(11)所示:

          其中,N表示類別總數(shù), 類別i正確預(yù)測的像素數(shù)量, 是將其他類別預(yù)測為類別i的像素數(shù)量, 是將類別i預(yù)測為其他類別的像素數(shù)量。MIoU是對每個語義類別分別計算出交并比,求和后計算平均值,MAcc是對每個語義類別分別計算出精度,求和后計算平均值。
          3.3 實(shí)驗(yàn)設(shè)置
          本實(shí)驗(yàn)在PyTorch框架上實(shí)現(xiàn),所用操作系統(tǒng)為Windows 11 64 位操作系統(tǒng),處理器為Intel(R) Xeon(R) Gold 5218R,顯卡為 NVIDIA A10,內(nèi)存為128 GB,硬盤為2TB。
          采用適應(yīng)性矩估計(adaptive moment estimation,Adam)算法來作為優(yōu)化器,動量設(shè)置為0.9。應(yīng)用“poly”學(xué)習(xí)速率策略,學(xué)習(xí)率隨著迭代次數(shù)的增加而逐漸減少,其表達(dá)式如式(12)所示:
          其中,r表示當(dāng)前學(xué)習(xí)率,rbase表示初始學(xué)習(xí)率,設(shè)置為5×10?4,T表示當(dāng)前迭代次數(shù),Tmax表示最大迭代次數(shù),power表示動量,設(shè)置為0.9。此外,將每輪訓(xùn)練的批量大小設(shè)置為16,訓(xùn)練輪數(shù)設(shè)置為200,其中在前100輪訓(xùn)練當(dāng)中凍結(jié)主干網(wǎng)絡(luò)的參數(shù),使其不參與訓(xùn)練,在第101–200輪訓(xùn)練中對主干網(wǎng)絡(luò)進(jìn)行解凍。
          在數(shù)據(jù)增強(qiáng)方面,采用[0.5,2]的隨機(jī)縮放、[?10°,11°]的隨機(jī)旋轉(zhuǎn)、隨機(jī)反轉(zhuǎn)和隨機(jī)高斯模糊的措施,來增強(qiáng)網(wǎng)絡(luò)的魯棒性。
          3.4 消融實(shí)驗(yàn)
          首先在DeepLabv3+基線模型的基礎(chǔ)上,分別選用MobileNetv2、ResNet101和Xception這3種深度卷積神經(jīng)網(wǎng)絡(luò)作為主干網(wǎng)絡(luò)進(jìn)行實(shí)驗(yàn),結(jié)果如表1所示。可以看出,Xception的MIoU和MAcc最高,分割效果最好,因此選擇Xception作為模型的主干網(wǎng)絡(luò)。
          表1 不同主干網(wǎng)絡(luò)實(shí)驗(yàn)結(jié)果(%)
          接下來,對模型采用的不同模塊進(jìn)行消融實(shí)驗(yàn),結(jié)果如表2所示。將沒有注意力機(jī)制,只有將主干特征和邊緣特征進(jìn)行逐像素相乘,再與原始主干特征進(jìn)行殘差連接的邊緣特征融合模塊稱為EFF_1,將采用壓縮激勵模塊(squeeze and excitation,SE)注意力機(jī)制的邊緣特征融合模塊稱為EFF_2,將采用卷積塊注意力模塊(convolutional block attention module,CBAM)注意力機(jī)制的邊緣特征融合模塊稱為EFF_3. 由于EFE模塊提取邊緣特征后必須要有特征融合的步驟,故不對該模塊進(jìn)行單獨(dú)的消融實(shí)驗(yàn)。可以看出在基線模型的基礎(chǔ)上添加EFE模塊和EFF_3模塊的情況下,模型的MIoU和MAcc均為最高,故采用該方法作為最終的網(wǎng)絡(luò)結(jié)構(gòu)。
          表2 消融實(shí)驗(yàn)結(jié)果(%)
          在上述消融實(shí)驗(yàn)中,模型使用的損失函數(shù)均為交叉熵?fù)p失函數(shù)。最后,在EASSNet模型的基礎(chǔ)上,采用不同的損失函數(shù)進(jìn)行訓(xùn)練,結(jié)果如表3所示。可以看出,當(dāng)總體損失函數(shù) 時,訓(xùn)練效果最好,說明采用該損失函數(shù)更容易使模型參數(shù)收斂至最優(yōu)值。
          表3 不同損失函數(shù)實(shí)驗(yàn)結(jié)果(%)
          3.5 在PASCAL VOC 2012數(shù)據(jù)集上的對比實(shí)驗(yàn)結(jié)果
          在PASCAL VOC 2012數(shù)據(jù)集上將EASSNet與當(dāng)前流行的語義分割模型進(jìn)行對比,結(jié)果如表4所示。可以看出,本文提出的EASSNet在MIoU和MAcc這兩個指標(biāo)上均取得了最好的結(jié)果。與性能次優(yōu)的模型DMNet相比,EASSNet的MIoU提升了1.32個百分點(diǎn),MAcc提升了0.87個百分點(diǎn);相比于HRNet和PSPNet,MIoU分別提升了2.11和3.72個百分點(diǎn),MAcc分別提升了2.50和3.05個百分點(diǎn)。可見,EASSNet在語義分割的性能上普遍優(yōu)于當(dāng)前流行的語義分割模型。
          表4 在PASCAL VOC 2012數(shù)據(jù)集上與其他方法的對比結(jié)果(%)
          EASSNet與U-Net、PSPNet和HRNet的可視化結(jié)果如圖5所示,其中第1列為輸入圖像,第2列為標(biāo)簽圖像,第3–6列分別為U-Net、PSPNet、HRNet和EASSNet的分割結(jié)果,在圖5中用紅色方框標(biāo)出了其他模型的分割錯誤之處,以及本文提出的模型的改進(jìn)之處。
          圖5第1行中可以看出,U-Net、PSPNet在對綿羊的腿部進(jìn)行分割時均出現(xiàn)了錯誤,HRNet在綿羊的頭部出現(xiàn)了典型的分割不連續(xù)現(xiàn)象,而EASSSNet均無這些錯誤。
          在第2行中,U-Net將圖片左側(cè)的背景部分誤分割為沙發(fā)類,PSPNet、HRNet在對貓的尾部進(jìn)行分割時均出現(xiàn)了錯誤,而EASSNet較為準(zhǔn)確地完成了貓尾的分割。
          在第3行中,U-Net對狗的身體進(jìn)行分割時出現(xiàn)了空洞,PSPNet、HRNet在分割狗的嘴部以及腿和身體連接的部位時出現(xiàn)錯誤,而EASSNet在這些部位均取得了良好的分割效果。
          在第4行中,U-Net、PSPNet、HRNet在對飛機(jī)的尾翼進(jìn)行分割時都有明顯錯誤,其中HRNet再次出現(xiàn)了分割不連續(xù)的現(xiàn)象,只有EASSNet在飛機(jī)尾翼部分未出現(xiàn)分割錯誤的現(xiàn)象。
          這是因?yàn)楸疚奶岢龅腅ASSNet直接從原始輸入圖像中提取邊緣特征,與編碼器下采樣之后輸出的特征圖像進(jìn)行融合,使特征圖像同時具有豐富的淺層空間信息和深層語義信息,并且通過注意力機(jī)制強(qiáng)化有意義的信息,而其他3種語義分割模型都沒有將空間細(xì)節(jié)信息補(bǔ)充到經(jīng)過下采樣后的特征圖像當(dāng)中。因此,EASSNet模型在物體邊緣的分割當(dāng)中具有顯著優(yōu)勢,整體分割性能也更加出色。
          圖5 在PASCAL VOC 2012數(shù)據(jù)集上的可視化結(jié)果對比
          總而言之,通過構(gòu)建邊緣特征提取模塊和邊緣特征融合模塊,本文提出的EASSNet語義分割模型可以在一定程度上恢復(fù)經(jīng)過編碼器下采樣之后的特征圖像的空間細(xì)節(jié)信息,增強(qiáng)物體邊緣分割的準(zhǔn)確性,并且更加關(guān)注有意義的信息。
          此外,通過改進(jìn)損失函數(shù),本文提出的模型參數(shù)更容易收斂至最優(yōu)值,最終使得語義分割的整體效果取得一定程度的提高。實(shí)驗(yàn)結(jié)果表明,基于邊緣特征和注意力機(jī)制的EASSNet模型在語義分割性能上取得了顯著的進(jìn)展,尤其在物體邊緣部分的分割方面表現(xiàn)出明顯的優(yōu)勢。
          3.6 在Cityscapes數(shù)據(jù)集上的對比實(shí)驗(yàn)結(jié)果
          為了驗(yàn)證EASSNet模型的泛化能力,采用Cityscapes數(shù)據(jù)集進(jìn)行泛化實(shí)驗(yàn),結(jié)果如表5所示。EASSNet在MIoU和MAcc這兩個指標(biāo)上均取得了最好的結(jié)果,比基線模型DeepLabv3+分別高了2.16和2.31個百分點(diǎn)。
          EASSNet與U-Net、DeepLabv3+的可視化結(jié)果如圖6所示,其中第1列為輸入圖像,第2列為標(biāo)簽圖像,第3–5列分別是U-Net、DeepLabv3+和EASSNet的分割結(jié)果。可以看出,EASSNet可以較為準(zhǔn)確地分割出物體的邊緣部分,分割結(jié)果較為完整清晰,總體性能更優(yōu)。
          表5 在Cityscapes數(shù)據(jù)集上與其他方法的對比結(jié)果(%)
          結(jié)論
          本文在DeepLabv3+的基礎(chǔ)上進(jìn)行改進(jìn),提出了基于邊緣特征和注意力機(jī)制的EASSNet模型。
          首先,設(shè)計了EFE模塊,對原始圖像的邊緣圖進(jìn)行下采樣和卷積操作,以捕獲關(guān)鍵的邊緣特征。接下來,設(shè)計了EFF模塊,將EFE模塊獲取的邊緣特征融合到編碼器提取的主干特征中,并通過注意力機(jī)制對融合后的特征進(jìn)行優(yōu)化,使網(wǎng)絡(luò)更加聚焦于有意義的特征。最后,對損失函數(shù)進(jìn)行改進(jìn),使得模型參數(shù)更容易收斂至最優(yōu)值。
          通過這些改進(jìn)步驟,EASSNet能夠有效地恢復(fù)下采樣圖像的空間信息細(xì)節(jié),從而增強(qiáng)分割圖像的邊緣連續(xù)性,改善物體邊緣錯誤分割的問題,最終提升整體的語義分割性能。大量的實(shí)驗(yàn)結(jié)果表明所提出的方法在兩個普遍使用的語義分割數(shù)據(jù)集上具有更優(yōu)的性能,證明了改進(jìn)的有效性。
          在未來的工作中,將聚焦于對模型進(jìn)行輕量化改進(jìn),減少模型的參數(shù),提高語義分割的速度,使其更適用于自動駕駛等需要實(shí)時性的領(lǐng)域。
          圖6 在Cityscapes數(shù)據(jù)集上的可視化結(jié)果對比

          瀏覽 64
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  国产精品美女视频免费线播放 | 欧美女人操逼视频 | 香蕉久久地址一 | 777777国产7777777 | 无码啪啪啪 |