<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          STDC升級(jí) | STDC-MA 更輕更快更準(zhǔn),超越 STDC 與 BiSeNetv2

          共 5186字,需瀏覽 11分鐘

           ·

          2022-06-07 15:14

          語義分割廣泛應(yīng)用于自動(dòng)駕駛和智能交通,其對(duì)空間和語義信息的要求很高。在這里提出了STDC-MA來滿足這些需求。首先,STDC-MA采用了STDC-Seg結(jié)構(gòu),以確保結(jié)構(gòu)輕巧高效。隨后,應(yīng)用特征對(duì)齊模塊FAM)來理解高層特征和低層特征之間的偏移,解決高層特征圖上與上采樣相關(guān)的像素偏移問題。

          STDC-MA實(shí)現(xiàn)了高級(jí)特征和低級(jí)特征之間的有效融合。采用分層多尺度注意力機(jī)制從一張圖像的兩個(gè)不同輸入尺寸中揭示注意力區(qū)域之間的關(guān)系。通過這種關(guān)系,將受關(guān)注的區(qū)域整合到分割結(jié)果中,從而減少輸入圖像的未關(guān)注的區(qū)域,提高多尺度特征的有效利用。

          STDC-MA保持了STDC-Seg網(wǎng)絡(luò)的分割速度,同時(shí)提高了小物體的分割精度。STDC-MACityscapes的驗(yàn)證集上進(jìn)行了驗(yàn)證。STDC-MA的分割結(jié)果在0.5× scale的輸入下達(dá)到了76.81%的mIOU,比STDC-Seg高3.61%。

          1簡(jiǎn)介

          語義分割是一種經(jīng)典的計(jì)算機(jī)視覺任務(wù),廣泛應(yīng)用于自動(dòng)駕駛、視頻監(jiān)控、機(jī)器人感知等領(lǐng)域。與目標(biāo)檢測(cè)不同,語義分割旨在實(shí)現(xiàn)像素級(jí)分類。當(dāng)應(yīng)用于包括自動(dòng)駕駛在內(nèi)的關(guān)鍵領(lǐng)域時(shí),它可以提供目標(biāo)的詳細(xì)輪廓和類別信息。智能城市和智能交通中的交通行為分析可以通過語義信息變得更加合理。盡管語義分割方法得到了高度發(fā)展,但在現(xiàn)實(shí)需求中實(shí)現(xiàn)速度和準(zhǔn)確性還需要很多改進(jìn)。

          上述目標(biāo)主要實(shí)現(xiàn)如下:

          1. 裁剪或調(diào)整輸入圖像的大小,以降低圖像分割的計(jì)算成本。但是,這種方法可能會(huì)帶來空間信息的丟失。
          2. 通過減少語義分割的通道數(shù)來提高模型推理的速度,從而依次降低模型的空間容量;
          3. 為了追求緊湊的框架,可能會(huì)放棄部分下采樣層,但是這會(huì)降低模型的感受野,不足以覆蓋大物體。

          研究人員開發(fā)了一種 U-Shape 網(wǎng)絡(luò)結(jié)構(gòu)來彌補(bǔ)空間細(xì)節(jié)的損失,從而逐漸改善空間信息。通過融合Backbone網(wǎng)絡(luò)的層次特征來填補(bǔ)缺失的細(xì)節(jié)。但是,這種方法有2個(gè)缺點(diǎn):

          1. 完整的U-Shape 結(jié)構(gòu)增加了模型的計(jì)算量,因?yàn)樗肓烁叻直媛实奶卣鲌D進(jìn)行額外的計(jì)算。
          2. 通過簡(jiǎn)單的上采樣和融合恢復(fù)語義分割模型中裁剪的空間信息的挑戰(zhàn)。

          因此,U-Shape結(jié)構(gòu)并不是最優(yōu)方案,需要尋找更輕巧、更高效的結(jié)構(gòu)。

          實(shí)時(shí)語義分割任務(wù)對(duì)豐富的空間信息和多尺度語義信息有很高的要求。BiSeNet采用雙流結(jié)構(gòu)代替U-Shape結(jié)構(gòu),分別對(duì)空間特征語義信息進(jìn)行編碼,并產(chǎn)生出色的分割效果。但BiseNet獨(dú)立的語義編碼分支計(jì)算耗時(shí)。此外,來自 BiseNet 語義分支中其他任務(wù)(包括圖像分類)的預(yù)訓(xùn)練模型在語義分割任務(wù)中效率低下。

          STDC-Seg(Short-Term Dense Concatenate Segmentation)網(wǎng)絡(luò)中,設(shè)計(jì)了一個(gè)輕量級(jí)的 STDC Backbone來提取特征。它消除了分支上的特征冗余,并利用來自GT的邊緣細(xì)節(jié)信息來指導(dǎo)空間特征學(xué)習(xí)。STDC-Seg網(wǎng)絡(luò)在精度和速度上都取得了令人滿意的結(jié)果;但是它沒有考慮不同尺度圖像對(duì)網(wǎng)絡(luò)的影響。

          之前的一項(xiàng)研究發(fā)現(xiàn),在同一個(gè)網(wǎng)絡(luò)中,不同尺度的圖像分割結(jié)果不同。小物體的分割精度在小尺度圖像中較低,但在大尺度圖像中可以取得優(yōu)異的效果。另一方面,大物體(尤其是背景)的分割效果在大尺度圖像中較差,但在小尺度圖像中可以很好地區(qū)分。因此,將分層多尺度注意力機(jī)制集成到STDC-Seg網(wǎng)絡(luò)中,以允許模型通過Attention學(xué)習(xí)不同尺度之間的區(qū)域關(guān)系。模型結(jié)合分層多尺度注意力機(jī)制計(jì)算不同尺度的圖像,學(xué)習(xí)不同尺度的高質(zhì)量特征。

          同時(shí),STDC-Seg不考慮ARM模塊中特征聚合時(shí)的特征對(duì)齊問題。局部特征圖的像素與上采樣特征圖的像素之間的直接關(guān)系導(dǎo)致上下文不一致,進(jìn)一步降低了預(yù)測(cè)中的分類精度。為了解決這個(gè)問題,本文在STDC-Seg網(wǎng)絡(luò)中集成了一個(gè)特征對(duì)齊模塊FAM)。

          STDC-MA Backbone是基于STDC-SegSTDC2 Backbone網(wǎng)絡(luò)。STDC-MA分層多尺度注意力集成到STDC-Seg中。將一張圖像的不同尺度的圖像的注意力區(qū)域整合到STDC-MA網(wǎng)絡(luò)的分割結(jié)果中。這種方法提高了多尺度特征的有效應(yīng)用,解決了部分區(qū)域的粗分割問題。同時(shí),采用了特征對(duì)齊模塊(FAM)和特征選擇模塊(FSM)來替換原來的ARM模塊。這個(gè)策略不僅解決了與高級(jí)特征上采樣相關(guān)的像素偏移問題,并且實(shí)現(xiàn)了高層特征和低層特征的有效融合。因此,分割結(jié)果在小物體上變得更加準(zhǔn)確。

          使用 Cityscapes 的驗(yàn)證數(shù)據(jù)集測(cè)試了模型的準(zhǔn)確性。在0.5×尺度的輸入下,STDC-MA的分割結(jié)果達(dá)到了76.81% 的mIOU,比STDC-Seg高 3.61%。

          2本文方法

          2.1 具有多尺度注意力和對(duì)齊網(wǎng)絡(luò)的Short-Term密集連接

          STDC-MA特征對(duì)齊模塊分層多尺度注意力機(jī)制應(yīng)用于 STDC-Seg 網(wǎng)絡(luò),并設(shè)計(jì)了一個(gè)具有多尺度注意力對(duì)齊(STDC-MA)網(wǎng)絡(luò)的Short-Term密集連接

          特征對(duì)齊模塊學(xué)習(xí)高級(jí)和低級(jí)特征之間的偏移,并引入一個(gè)特征選擇模塊來生成具有豐富空間信息的低級(jí)特征圖。該方法將偏移量與增強(qiáng)的低級(jí)特征相結(jié)合。解決了高低級(jí)特征融合過程中的像素偏移問題,充分利用了高低級(jí)圖像特征。分層多尺度注意力機(jī)制從一張圖像的2個(gè)不同輸入大小中學(xué)習(xí)注意力區(qū)域的關(guān)系,以復(fù)合來自不同感受野的注意力。這種方法減少了輸入圖像的非關(guān)注區(qū)域,充分利用多尺度特征來解決粗糙的Mask邊緣問題。STDC-MA網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。

          網(wǎng)絡(luò)在訓(xùn)練時(shí)一次學(xué)習(xí)1.0×和0.5×這2個(gè)尺度之間的分層多尺度注意力。在推理中,根據(jù)不同尺度的輸入圖像的數(shù)量使用分層多尺度注意力融合。分層多尺度注意力模塊如圖1所示。在實(shí)踐中,類似的分層多尺度注意力模塊使用相同的參數(shù)。與不同尺度的分離注意力相比,這種設(shè)計(jì)顯著減少了參數(shù)。

          2.2 分層多尺度注意力

          對(duì)分層多尺度注意力的研究表明,即使輸入來自同一圖像,不同尺度輸入的輸出Mask也不同。不同尺度的圖像包含不同的空間信息。

          例如,大尺度圖像具有詳細(xì)的空間信息,語義特征的提取也具有挑戰(zhàn)性。因此,在大尺度輸入圖像的分割結(jié)果中,小物體被準(zhǔn)確分割,而大物體被粗略的分割。另一方面,小尺度圖像的空間信息比較粗糙,語義特征也更容易提取。因此,在小尺度輸入圖像的分割結(jié)果中,大物體被準(zhǔn)確分割,而小物體則被粗分割。

          充分利用不同的尺度來細(xì)化分割網(wǎng)絡(luò)的輸出是有問題的。因此,分層多尺度注意力提出學(xué)習(xí)一張圖像不同尺度的注意力區(qū)域之間的關(guān)系,以整合不同感受野中的注意力區(qū)域。該方法減少了輸入圖像的未關(guān)注區(qū)域,提高了網(wǎng)絡(luò)對(duì)小物體的分割精度。

          DeepLab中的ASPP利用空洞卷積來創(chuàng)建更密集的特征聚合。盡管在這些設(shè)計(jì)中獲得了更大的感受野,但并沒有清楚地識(shí)別出不同尺度對(duì)應(yīng)的不同感興趣區(qū)域。分層多尺度注意力不同于以前的注意力機(jī)制專注于單個(gè)特征圖。分層多尺度注意力可以學(xué)習(xí)任意2個(gè)輸入尺度之間的關(guān)系,有效減少過度注意力機(jī)制計(jì)算的消耗。

          圖2

          表示具有不同N尺度的圖像的集合。表示圖像的第i個(gè)尺度,的尺度小于。分層多尺度注意力模塊的融合涉及到任何高層特征圖和對(duì)應(yīng)的低層特征圖之間的一系列融合(圖2)。的特征融合定義為:

          其中表示融合后的輸出。G(·)表示分割網(wǎng)絡(luò);表示之間的分層多尺度注意力。

          將分層多尺度注意力集成到STDC-Align網(wǎng)絡(luò)中,確定不同尺度之間的特征關(guān)系,指導(dǎo)提取不同的感興趣區(qū)域以細(xì)化分割Mask。在這里提出了最終的語義分割模型STDC-MA提高了小物體的分割精度。

          2.3 Short-Term密集連接對(duì)齊網(wǎng)絡(luò)

          短期密集連接網(wǎng)絡(luò)(STDC-Seg)遵循 BiseNetV1 的雙流設(shè)計(jì)結(jié)構(gòu)。它采用 STDC 作為主干來提取語義和空間特征,建立高效和輕量級(jí)的設(shè)計(jì)。STDC-SegARM模塊是一個(gè)特征聚合模塊,不考慮不同特征圖之間的特征聚合過程中的像素偏移問題,通過一個(gè)實(shí)用的特征對(duì)齊模塊來解決。在 SegNet 中,編碼器采用最大池化的位置來增強(qiáng)上采樣。值得注意的是,像素偏移的問題得到了解決,但是最大池化后圖像中的部分特征信息丟失了,無法通過上采樣進(jìn)行補(bǔ)償。

          圖3

          Feature Alignment Module(FAM)中,應(yīng)用了特征選擇模塊(FSM)來增強(qiáng)低層特征圖豐富的空間信息,保證最終的對(duì)齊結(jié)果盡可能接近GT。為了解決像素錯(cuò)位問題,采用可變形卷積(DCN)來學(xué)習(xí)2個(gè)特征圖之間的特征偏移。然后模型使用偏移量來指導(dǎo)特征對(duì)齊的過程。FAM模塊實(shí)現(xiàn)了與STDC-Seg網(wǎng)絡(luò)中的ARM聚合模塊相同的特征圖融合效果。此外,FAM模塊的參數(shù)比ARM模塊低1.3M。通過這種方式,將ARM聚合模塊替換為特征對(duì)齊模塊(FAM),并提出了一個(gè)STDC-Align網(wǎng)絡(luò),其結(jié)構(gòu)如圖3所示。

          2.4 特征對(duì)齊和特征選擇模塊

          1、特征選擇模塊

          圖 4

          特征選擇模塊(FSM)利用通道注意力(對(duì)應(yīng)于圖4的上分支)來增強(qiáng)低級(jí)特征中的空間信息。這個(gè)過程定義為:

          其中表示特征選擇后的特征圖;表示低層特征圖;φ(·)表示FSM對(duì)應(yīng)的特征選擇過程,依次選擇當(dāng)前特征圖的特征;Conv表示1×1卷積σ(·)表示sigmoid函數(shù);表示可學(xué)習(xí)的參數(shù)。在實(shí)現(xiàn)中,將學(xué)習(xí)到的參數(shù)構(gòu)造成channel attention,實(shí)現(xiàn)特征選擇模塊的選擇功能。特征選擇模塊的結(jié)構(gòu)如圖4所示。

          2、特征對(duì)齊模塊

          特征對(duì)齊模塊(FAM)采用可變形卷積(DCN)來學(xué)習(xí)高級(jí)特征圖和FSM派生的特征圖之間的偏移。該方法利用偏移量來實(shí)現(xiàn)和高級(jí)特征圖之間的特征對(duì)齊和融合。對(duì)齊的特征圖由表示。這個(gè)過程定義為:

          其中表示對(duì)齊的特征圖;f(·)表示可變形卷積(對(duì)應(yīng)圖5中的DCN);Conv表示1×1卷積;[·,·]表示2個(gè)特征圖的通道concat。

          圖5

          在實(shí)現(xiàn)特征對(duì)齊模塊時(shí),將高層特征圖上采樣到與特征選擇模塊選擇的特征圖在concat前的大小相同。同時(shí),采用可變形卷積計(jì)算concat結(jié)果,以實(shí)現(xiàn)特征對(duì)齊的效果。最后,選擇的特征圖和對(duì)齊的特征圖按像素相加。特征對(duì)齊模塊的結(jié)構(gòu)如圖5所示。

          3實(shí)驗(yàn)

          3.1 消融實(shí)驗(yàn)

          1、特征對(duì)齊模塊的影響

          目前的研究發(fā)現(xiàn),STDC-Seg網(wǎng)絡(luò)中的ARM模塊是不同特征圖之間的特征聚合模塊。值得注意的是,因?yàn)檫@個(gè)模塊不考慮特征對(duì)齊,所以它被特征對(duì)齊模塊(FAM)取代。分析表明,在0.5×的輸入尺度下STDC-Align網(wǎng)絡(luò)實(shí)現(xiàn)了73.57%mIOU,比STDC-Seg高0.37%。此外,STDC-Align網(wǎng)絡(luò)的參數(shù)為21.0M,比STDC-Seg的參數(shù)少1.3M。

          2、分層多尺度注意力的影響

          這里,在STDC-Seg網(wǎng)絡(luò)中采用了分層多尺度注意力機(jī)制,認(rèn)為該方法可以識(shí)別不同尺度之間的不同興趣部分,實(shí)現(xiàn)優(yōu)勢(shì)互補(bǔ)。(0.5×和1.0×)尺度圖像用作訓(xùn)練的輸入,以學(xué)習(xí)2個(gè)不同尺度之間的注意力關(guān)系。隨后,在Cityscapes驗(yàn)證數(shù)據(jù)集上測(cè)試不同尺度組合的結(jié)果(尺度可以在[0.25×,0.5×,1.0×,1.5×,2.0×]中選擇)。

          3.2 SOTA對(duì)比

          STDC-MA 網(wǎng)絡(luò)的分割結(jié)果在 mIOU 中取得了更高的性能,證明了方法是有效的。表2顯示了網(wǎng)絡(luò)的性能指標(biāo)。與STDC-Seg網(wǎng)絡(luò)的結(jié)構(gòu)相比,STDC-MA網(wǎng)絡(luò)的結(jié)構(gòu)增加了分層多尺度注意力機(jī)制,并采用了特征對(duì)齊模塊代替ARM模塊,減少0.1M參數(shù),增加3.61% mIOU。

          3.3 可視化對(duì)比

          圖 6

          STDC-MA網(wǎng)絡(luò)的輸出如圖6所示。STDC-MA方法在小物體上更平滑、更準(zhǔn)確。在第一行中,STDC-MA獲得了比STDC-Seg網(wǎng)絡(luò)更準(zhǔn)確的路燈Mask。在第二排和第三排,STDC-Seg錯(cuò)誤地預(yù)測(cè)了欄桿。在第4行和第5行,STDC-MA在預(yù)測(cè)行人方面表現(xiàn)出更平滑的結(jié)果,很接近于GT,并且優(yōu)于STDC-Seg網(wǎng)絡(luò)。

          4參考

          [1].STDC-MA NETWORK FOR SEMANTIC SEGMENTATION

          5推薦閱讀

          分割冠軍 | 超越Swin v2、PvT v2等模型,ViT-Adaptiver實(shí)現(xiàn)ADE20K冠軍60.5mIoU

          DAFormer | 使用Transformer進(jìn)行語義分割無監(jiān)督域自適應(yīng)的開篇之作

          即插即用 | 英偉達(dá)提出FAN,魯棒性和高效性超越ConvNeXt、Swin

          長(zhǎng)按掃描下方二維碼添加小助手并加入交流群,群里博士大佬云集,每日討論話題有目標(biāo)檢測(cè)、語義分割、超分辨率、模型部署、數(shù)學(xué)基礎(chǔ)知識(shí)、算法面試題分享的等等內(nèi)容,當(dāng)然也少不了搬磚人的扯犢子

          長(zhǎng)按掃描下方二維碼添加小助手。

          可以一起討論遇到的問題

          聲明:轉(zhuǎn)載請(qǐng)說明出處

          掃描下方二維碼關(guān)注【集智書童】公眾號(hào),獲取更多實(shí)踐項(xiàng)目源碼和論文解讀,非常期待你我的相遇,讓我們以夢(mèng)為馬,砥礪前行!

          瀏覽 169
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  日韩一区二区三区四区久久久精品有吗 | 黄色免费性爱视频 | 中国最新毛片 | 三级片在线一区 | 男人的天堂在线视频 |