<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          深度學(xué)習(xí)論文精讀[8]:ParseNet

          共 1619字,需瀏覽 4分鐘

           ·

          2022-07-31 19:31


          U形的編解碼結(jié)構(gòu)奠定了深度學(xué)習(xí)語(yǔ)義分割的基礎(chǔ),隨著基線(xiàn)模型的表現(xiàn)越來(lái)越好,深度學(xué)習(xí)語(yǔ)義分割關(guān)注的焦點(diǎn)開(kāi)始由原先的編解碼架構(gòu)下上采樣如何更好的恢復(fù)圖像像素轉(zhuǎn)變?yōu)槿绾胃佑行У睦脠D像上下文信息和提取多尺度特征。因而催生出語(yǔ)義分割的第二個(gè)主流的結(jié)構(gòu)設(shè)計(jì):多尺度結(jié)構(gòu)。接下來(lái)的幾篇論文解讀將對(duì)重在關(guān)注圖像上下文信息和多尺度特征的結(jié)構(gòu)設(shè)計(jì)網(wǎng)絡(luò)進(jìn)行梳理,包括ParseNet、PSPNet、以空洞卷積為核心的Deeplab系列、HRNet以及其他代表性的多尺度設(shè)計(jì)。

          自從全卷積網(wǎng)絡(luò)(Fully Convolutional Networks, FCN)和UNet提出以來(lái),主流的改進(jìn)思路是圍繞著編解碼結(jié)構(gòu)來(lái)進(jìn)行的。但又一些改進(jìn)在當(dāng)時(shí)看來(lái)卻不是那么“主流”,其中有一些是針對(duì)如何提升網(wǎng)絡(luò)的全局信息提取能力來(lái)進(jìn)行改進(jìn)的。FCN提出之后,一些學(xué)者認(rèn)為FCN忽略了圖像作為整張圖的全局信息,因而在一些應(yīng)用場(chǎng)景下不能有效利用圖像的語(yǔ)義上下文信息。圖像全局信息除了增加對(duì)圖像的整體理解之外,還有助于模型對(duì)局部圖像塊的判斷,此前一種主流的方法是將概率圖模型融入到CNN訓(xùn)練中,用于捕捉圖像像素的上下文信息,比如說(shuō)給模型加條件隨機(jī)場(chǎng)(Conditional Random Field,CRF),但這種方式會(huì)使得模型難以訓(xùn)練并且變得低效。

          針對(duì)如何高效利用圖像的全局信息問(wèn)題,相關(guān)研究在FCN結(jié)構(gòu)的基礎(chǔ)上提出了ParseNet,一種高效的端到端的語(yǔ)義分割網(wǎng)絡(luò),旨在利用全局信息來(lái)指導(dǎo)局部信息判斷,并且引入太多的額外計(jì)算開(kāi)銷(xiāo)。提出ParseNet的論文為ParseNet: Looking Wider to See Better,發(fā)表于2015年,是在FCN基礎(chǔ)上基于上下文視角的一個(gè)改進(jìn)設(shè)計(jì)。在語(yǔ)義分割中,上下文信息對(duì)于提升模型表現(xiàn)非常關(guān)鍵,在僅有局部信息情況下,像素的分類(lèi)判斷有時(shí)候會(huì)變得模棱兩可。盡管理論上深層卷積層的會(huì)有非常大的感受野,但在實(shí)際中有效感受野卻小很多,不足以捕捉圖像的全局信息。ParseNet通過(guò)全局平均池化的方法在FCN基礎(chǔ)上直接獲取上下文信息,圖1為ParseNet的上下文提取模塊,具體地,使用全局平均池化對(duì)上下文特征圖進(jìn)行池化后得到全局特征,然后對(duì)全局特征進(jìn)行L2規(guī)范化處理,再對(duì)規(guī)范化后的特征圖反池化后與局部特征圖進(jìn)行融合,這樣的一個(gè)簡(jiǎn)單結(jié)構(gòu)對(duì)于語(yǔ)義分割質(zhì)量的提升的巨大的。如圖2所示,ParseNet能夠關(guān)注到圖像中的全局信息,保證圖像分割的完整性。

          關(guān)于全局特征與局部特征的融合,ParseNet給出兩種融合方式:早期融合(early fusion)和晚期融合(late fusion)。早期融合就是圖6-1中所展現(xiàn)的融合方式,對(duì)全局特征反池化后直接與局部特征進(jìn)行融合,然后在進(jìn)行像素分類(lèi)。而晚期融合則是把全局特征和局部特征分別進(jìn)行像素分類(lèi)后再進(jìn)行某種融合,比如說(shuō)進(jìn)行加權(quán)。但無(wú)論是早期融合還是晚期融合,如果選取的歸一化方式合適,其效果是差不多的。

          下圖是ParseNet在VOC 2012數(shù)據(jù)集上的分割效果,可以看到,ParseNet的分割能夠明顯關(guān)注到圖像全局信息。

          ParseNet作者基于caffe的源碼可參考:

          https://github.com/weiliu89/caffe


          往期精彩:

           深度學(xué)習(xí)論文精讀[7]:nnUNet

           深度學(xué)習(xí)論文精讀[6]:UNet++

           深度學(xué)習(xí)論文精讀[5]:Attention UNet

           深度學(xué)習(xí)論文精讀[4]:RefineNet

           深度學(xué)習(xí)論文精讀[3]:SegNet

           深度學(xué)習(xí)論文精讀[2]:UNet網(wǎng)絡(luò)

           深度學(xué)習(xí)論文精讀[1]:FCN全卷積網(wǎng)絡(luò)

           講解視頻來(lái)了!機(jī)器學(xué)習(xí) 公式推導(dǎo)與代碼實(shí)現(xiàn)開(kāi)錄!

           完結(jié)!《機(jī)器學(xué)習(xí) 公式推導(dǎo)與代碼實(shí)現(xiàn)》全書(shū)1-26章PPT下載

          瀏覽 151
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  亚洲av免费在线 亚洲免费观看在线 | 日韩av在线免费 日韩福利视频一区 | 日本中文字幕中出在线 | 土豪胖哥酒店微信高价的御范气质身材苗条匀称 | 国产青青操娱乐 |