<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          Transformer又雙立功了 | 圖像語義分割,性能超最先進的卷積方法!

          共 1975字,需瀏覽 4分鐘

           ·

          2021-05-28 05:06

          點擊上方“程序員大白”,選擇“星標(biāo)”公眾號

          重磅干貨,第一時間送達

          來源:公眾號 量子位 授權(quán)


          正如大家所知,在進行圖像語義分割時,圖像被編碼成一系列補丁后往往很模糊,需要借助上下文信息才能被正確分割。

          因此上下文建模對圖像語義分割的性能至關(guān)重要!

          而與以往基于卷積網(wǎng)絡(luò)的方法不同,來自法國的一個研究團隊另辟蹊徑,提出了一種只使用Transformer的語義分割方法。

          該方法“效果拔群”,可以很好地捕捉圖像全局上下文信息!

          要知道,就連取得了驕人成績的FCN(完全卷積網(wǎng)絡(luò))都有“圖像全局信息訪問限制”的問題。(卷積結(jié)構(gòu)在圖像語義分割方面目前有無法打破的局限)

          而這次這個方法在具有挑戰(zhàn)性的ADE20K數(shù)據(jù)集上,性能都超過了最先進的卷積方法!

          不得不說,Transformer跨界計算機視覺領(lǐng)域真是越來越頻繁了、效果也越來越成功了!

          那這次表現(xiàn)優(yōu)異的Transformer語義分割,用了什么不一樣的“配方”嗎?

          使用Vision Transformer

          沒錯,這次這個最終被命名為Segmenter的語義分割模型,主要基于去年10月份才誕生的一個用于計算機視覺領(lǐng)域的“新秀”Transformer:Vision Transformer,簡稱ViT。

          ViT有多“秀”呢?

          ViT采用純Transformer架構(gòu),將圖像分成多個patches進行輸入,在很多圖像分類任務(wù)中表現(xiàn)都不輸最先進的卷積網(wǎng)絡(luò)。

          缺點就是在訓(xùn)練數(shù)據(jù)集較小時,性能不是很好。

          Segmenter作為一個純Transformer的編碼-解碼架構(gòu),利用了模型每一層的全局圖像上下文。

          基于最新的ViT研究成果,將圖像分割成塊(patches),并將它們映射為一個線性嵌入序列,用編碼器進行編碼。再由Mask Transformer將編碼器和類嵌入的輸出進行解碼,上采樣后應(yīng)用Argmax給每個像素一一分好類,輸出最終的像素分割圖。

          下面是該模型的架構(gòu)示意圖:

          解碼階段采用了聯(lián)合處理圖像塊和類嵌入的簡單方法,解碼器Mask Transformer可以通過用對象嵌入代替類嵌入來直接進行全景分割。

          效果如何

          多說無益,看看實際效果如何?

          首先他們在ADE20K數(shù)據(jù)集上比較不同Transformer變體,研究不同參數(shù)(正則化、模型大小、圖像塊大小、訓(xùn)練數(shù)據(jù)集大小,模型性能,不同的解碼器等),全方面比較Segmenter與基于卷積的語義分割方法。

          其中ADE20K數(shù)據(jù)集,包含具有挑戰(zhàn)性的細粒度(fine-grained)標(biāo)簽場景,是最具挑戰(zhàn)性的語義分割數(shù)據(jù)集之一。

          下表是不同正則化方案的比較結(jié)果:

          他們發(fā)現(xiàn)隨機深度(Stochastic Depth)方案可獨立提高性能,而dropout無論是單獨還是與隨機深度相結(jié)合,都會損耗性能。

          不同圖像塊大小和不同transformer的性能比較發(fā)現(xiàn):

          增加圖像塊的大小會導(dǎo)致圖像的表示更粗糙,但會產(chǎn)生處理速度更快的小序列。

          減少圖像塊大小是一個強大的改進方式,不用引入任何參數(shù)!但需要在較長的序列上計算Attention,會增加計算時間和內(nèi)存占用。

          Segmenter在使用大型transformer模型小規(guī)模圖像塊的情況下更優(yōu):

          (表中間是帶有線性解碼器的不同編碼器,表底部是帶有Mask Transformer作為解碼器的不同編碼器)

          下圖也顯示了Segmenter的明顯優(yōu)勢,其中Seg/16模型(圖像塊大小為16x16)在性能與準(zhǔn)確性方面表現(xiàn)最好。

          最后,我們再來看看Segmenter與SOTA的比較:

          在最具挑戰(zhàn)性的ADE20K數(shù)據(jù)集上,Segmenter兩項指標(biāo)均高于所有SOTA模型!

          (中間太長已省略)

          在Cityscapes數(shù)據(jù)集上與大多數(shù)SOTA不相上下,只比性能最好的Panoptic-Deeplab低0.8。

          在Pascal Context數(shù)據(jù)集上的表現(xiàn)也是如此。

            剩余參數(shù)比較,大家有興趣的可按需查看論文細節(jié)。


          論文地址:
          https://www.arxiv-vanity.com/papers/2105.05633/

          國產(chǎn)小眾瀏覽器因屏蔽視頻廣告,被索賠100萬(后續(xù))

          年輕人“不講武德”:因看黃片上癮,把網(wǎng)站和786名女主播起訴了

          中國聯(lián)通官網(wǎng)被發(fā)現(xiàn)含木馬腳本,可向用戶推廣色情APP

          張一鳴:每個逆襲的年輕人,都具備的底層能力


          關(guān)


          ,學(xué),西學(xué)學(xué),質(zhì),結(jié),關(guān)[],學(xué)習(xí)!


          瀏覽 66
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  五月婷婷AV手机免费观看 | 青娱乐欧美国产亚洲自拍 | 黄片久久| 台湾精品久久久久久久 | 在线视频麻豆 |