<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          吃透空洞卷積(Dilated Convolutions)

          共 4864字,需瀏覽 10分鐘

           ·

          2021-11-08 14:49

          點(diǎn)擊上方“程序員大白”,選擇“星標(biāo)”公眾號(hào)

          重磅干貨,第一時(shí)間送達(dá)

          來(lái)自 | 知乎? ?作者丨玖零猴

          鏈接丨h(huán)ttps://zhuanlan.zhihu.com/p/113285797

          編輯丨極市平臺(tái)


          空洞卷積在圖像分割需要增加感受野同時(shí)保持特征圖的尺寸的需求中誕生,本文詳細(xì)介紹了空洞卷積的誕生、原理、計(jì)算過(guò)程以及存在的兩個(gè)潛在的問(wèn)題,幫助大家將空洞卷積這一算法“消化吸收”。

          ???一、空洞卷積的提出

          空洞卷積中文名也叫膨脹卷積或者擴(kuò)張卷積,英文名也叫Atrous Convolution

          空洞卷積最初的提出是為了解決圖像分割的問(wèn)題而提出的,常見(jiàn)的圖像分割算法通常使用池化層和卷積層來(lái)增加感受野(Receptive Filed),同時(shí)也縮小了特征圖尺寸(resolution),然后再利用上采樣還原圖像尺寸,特征圖縮小再放大的過(guò)程造成了精度上的損失,因此需要一種操作可以在增加感受野的同時(shí)保持特征圖的尺寸不變,從而代替下采樣和上采樣操作,在這種需求下,空洞卷積就誕生了(略有修改,引自[4])

          玖零猴:感受野(Receptive Field)的理解與計(jì)算@玖零猴

          https://zhuanlan.zhihu.com/p/113487374

          當(dāng)然,如果不用空洞卷積這種方案,那怎么去彌補(bǔ)經(jīng)過(guò)下采樣而造成信息損失呢?其實(shí),這是另一個(gè)思路了,于是才有了我們熟知的skip connection,它可以為上采樣彌補(bǔ)信息,像FCN、U-Net這種典型的拓?fù)渚W(wǎng)絡(luò),如下圖所示,其實(shí)我個(gè)人認(rèn)為,如果一個(gè)問(wèn)題如果從不同的思路去想的話,就會(huì)出現(xiàn)不同的解決方案


          圖1 FCN、U-Net典型的分割拓?fù)浣Y(jié)構(gòu):下采樣、上采樣、skip connection(圖來(lái)自[6])


          空洞卷積自2016在ICLR(International Conference on Learning Representation)上才被提出后,本身是用在圖像分割領(lǐng)域,但立馬被deepmind拿來(lái)應(yīng)用到語(yǔ)音(WaveNet)和NLP領(lǐng)域,它在物體檢測(cè)也發(fā)揮了重要的作用,雖然不要求逐個(gè)像素檢測(cè),但對(duì)于小物體的檢測(cè)也是十分重要的

          ???二、空洞卷積的原理

          與正常的卷積不同的是,空洞卷積引入了一個(gè)稱(chēng)為 “擴(kuò)張率(dilation rate)”的超參數(shù)(hyper-parameter),該參數(shù)定義了卷積核處理數(shù)據(jù)時(shí)各值的間距。擴(kuò)張率中文也叫空洞數(shù)(Hole Size)。

          在此以 卷積為例,展示普通卷積和空洞卷積之間的區(qū)別,如圖2所示


          圖2 普通卷積和空洞卷積的對(duì)比(來(lái)自[4])


          圖2中從左到右分別為a、b、c子圖,三幅圖是相互獨(dú)立進(jìn)行卷積的(區(qū)別于下面圖4),大框表示輸入圖像(感受野默認(rèn)為1),黑色的圓點(diǎn)表示的卷積核,灰色地帶表示卷積后的感受野(后面有相關(guān)計(jì)算公式,這里都是一層卷積的,直接可以看出來(lái))

          • a是普通的卷積過(guò)程(dilation rate = 1),卷積后的感受野為3
          • b是dilation rate = 2的空洞卷積,卷積后的感受野為5
          • c是dilation rate = 3的空洞卷積,卷積后的感受野為8

          可以這么說(shuō),普通卷積是空洞卷積的一種特殊情況

          另外,空洞卷積可以增大感受野,但是可以不改變圖像輸出特征圖的尺寸(分辨率,resolution),這句話怎么理解?

          為了更好地理解這一點(diǎn),我們從一維去分析容易理解點(diǎn)


          圖3 一維版的普通卷積(a、b)和空洞卷積(c),黑色的圓表示填充部分,a、b、c它們相互獨(dú)立進(jìn)行卷積 (來(lái)自[8])

          從b和c可以看出,有無(wú)空洞卷積,并不影響輸出特征圖的尺寸,也就是說(shuō)輸出特征圖的尺和空洞數(shù)無(wú)關(guān),因此可以利用空洞卷積增大感受野,而輸出特征圖的尺寸可以保持不變
          影響輸出特征圖尺寸的因素有輸入特征圖的尺寸??,卷積核的大小??,填充??,步長(zhǎng)??,計(jì)算公式如下:
          由于保持特征圖尺寸不變,所以導(dǎo)致了計(jì)算過(guò)程的計(jì)算量比較大
          保持住特征圖不變,那怎么能利用多尺度信息?
          在解答這個(gè)問(wèn)題之前,先補(bǔ)充兩點(diǎn)知識(shí)
          知識(shí)一:我們知道,神經(jīng)元感受野的值越大表示其能接觸到的原始圖像范圍就越大,也意味著它可能蘊(yùn)含更為全局,語(yǔ)義層次更高的特征;相反,值越小則表示其所包含的特征越趨向局部和細(xì)節(jié)。因此感受野的值可以用來(lái)大致判斷每一層的抽象層次。
          知識(shí)二:在贏得其中一屆ImageNet比賽里VGG網(wǎng)絡(luò)的文章中,他最大的貢獻(xiàn)并不是VGG網(wǎng)絡(luò)本身,而是他對(duì)于卷積疊加的一個(gè)巧妙觀察。1個(gè) 7 x 7 的卷積層的正則等效于 3 個(gè) 3 x 3 的卷積層的疊加。而這樣的設(shè)計(jì)可以大幅度的減少參數(shù),有正則化的效果,參數(shù)少了就沒(méi)那么容易發(fā)生過(guò)擬合。這也是現(xiàn)在絕大部分基于卷積的深層網(wǎng)絡(luò)都在用小卷積核的原因,常常使用3 x 3的卷積核
          一般每一層的卷積核都是用3 x 3 大小的,而每一層只要設(shè)置不同dilation rate時(shí),感受野就會(huì)不一樣,也即獲取了多尺度信息,當(dāng)然這樣操作并不影響特征圖的尺寸,這樣一來(lái),又避免下采樣那樣造成信息損失,同時(shí)也利用到多尺度信息,真是一舉兩得啊
          獲取多尺度信息在視覺(jué)任務(wù)中相當(dāng)重要,尤其是在Dense prediction(對(duì)每個(gè)像素進(jìn)行分類(lèi))問(wèn)題上,它能夠提高準(zhǔn)確性的,如語(yǔ)義分割
          dense prediction problems such as semantic segmentation ... to increase the performance of dense prediction architectures by aggregating multi-scale contextual information(來(lái)自[1])

          ???三、感受野的計(jì)算

          為了好看,我們把圖2放下來(lái)
          圖2 普通卷積和空洞卷積的對(duì)比(來(lái)自[4])
          從圖2可以看出,同樣一個(gè)??的卷積,卻可以起到??、??等卷積的效果,空洞卷積在不增加參數(shù)量的前提下(參數(shù)量=卷積核大小+偏置),卻可以增大感受野,假設(shè)空洞卷積的卷積核大小為??,空洞數(shù)為??,則其等效卷積核大小??,例如??的卷積核,則??,公式如下(來(lái)自[4])

          當(dāng)前層的感受野計(jì)算公式如下,其中,??表示當(dāng)前層的感受野,??表示上一層的感受野,??表示卷積核的大小

          表示之前所有層的步長(zhǎng)的乘積(不包括本層),公式如下:
          同樣的,當(dāng)前層的步長(zhǎng)并不影響當(dāng)前層的感受野,感受野和填補(bǔ)(padding)沒(méi)有關(guān)系
          下面舉個(gè)例子練練手,此圖4和上面的圖2有區(qū)別,圖2的三幅圖是獨(dú)立的,而圖4是從左到右連續(xù)進(jìn)行卷積,它們屬于top-bottom關(guān)系
          圖4 三個(gè)不同的空洞卷積,卷積核的kernel size=3, stride=1, 但是空洞卷積的dilation rate分別是1,2,4。默認(rèn)初始化感受野是1。(來(lái)自[1])
          感受野的計(jì)算
          輸入圖像: 1
          第一層卷積:3
          第二層卷積:


          綜上,得

          第三層卷積:

          綜上,得

          ? ?四、潛在的問(wèn)題及解決方法

          潛在問(wèn)題 1:The Gridding Effect
          假設(shè)我們僅僅多次疊加 dilation rate 2 的 3 x 3 kernel 的話,則會(huì)出現(xiàn)這個(gè)問(wèn)題:
          由于空洞卷積的計(jì)算方式類(lèi)似于棋盤(pán)格式,某一層得到的卷積結(jié)果,來(lái)自上一層的獨(dú)立的集合,沒(méi)有相互依賴,因此該層的卷積結(jié)果之間沒(méi)有相關(guān)性,即局部信息丟失。這對(duì) pixel-level dense prediction 的任務(wù)來(lái)說(shuō)是致命的。
          潛在問(wèn)題 2 :Long-ranged information might be not relevant.
          遠(yuǎn)距離獲取的信息沒(méi)有相關(guān)性:由于空洞卷積稀疏的采樣輸入信號(hào),使得遠(yuǎn)距離卷積得到的信息之間沒(méi)有相關(guān)性,影響分類(lèi)結(jié)果。
          解決方案
          具體可參考[5,9]
          • Panqu Wang,Pengfei Chen, et al**.Understanding Convolution for Semantic Segmentation.//**WACV 2018
          • Fisher Yu, et al. Dilated Residual Networks. //CVPR 2017
          • Zhengyang Wang,et al.**Smoothed Dilated Convolutions for Improved Dense Prediction.//**KDD 2018.
          • Liang-Chieh Chen,et al.Rethinking Atrous Convolution for Semantic Image Segmentation//2017
          • Sachin Mehta,et al. ESPNet: Efficient Spatial Pyramid of DilatedConvolutions for Semantic Segmentation. //ECCV 2018
          • Tianyi Wu**,et al.Tree-structured Kronecker Convolutional Networks for Semantic Segmentation.//AAAI2019**
          • Hyojin Park,et al.Concentrated-Comprehensive Convolutionsfor lightweight semantic segmentation.//2018
          • Efficient Smoothing of Dilated Convolutions for Image Segmentation.//2019

          reference

          1、Yu, Fisher, and Vladlen Koltun. "Multi-scale context aggregation by dilated convolutions." arXiv preprint arXiv:1511.07122 (2015).(https://arxiv.org/abs/1511.071220)

          2、Understanding Convolution for Semantic Segmentation(https://arxiv.org/abs/1702.08502)

          3、Rethinking Atrous Convolution for Semantic Image Segmentation(https://arxiv.org/abs/1706.05587)

          4、書(shū)籍《深度學(xué)習(xí)之PyTorch物體檢測(cè)實(shí)戰(zhàn)》

          5、如何理解空洞卷積(dilated convolution)?(https://www.zhihu.com/question/54149221)

          6、U-Net++作者對(duì)U-Net的分析(https://zhuanlan.zhihu.com/p/44958351)

          7、GIF動(dòng)圖,加深普通卷積和空洞卷積的區(qū)別: https://github.com/vdumoulin/conv_arithmetic/blob/master/README.md

          8、如何理解Dilated Convolutions(空洞卷積)

          9、yyfyan:總結(jié)-空洞卷積(Dilated/Atrous Convolution)(https://zhuanlan.zhihu.com/p/50369448)


          13個(gè)你一定要知道的PyTorch特性

          解讀:為什么要做特征歸一化/標(biāo)準(zhǔn)化?

          一文搞懂 PyTorch 內(nèi)部機(jī)制

          張一鳴:每個(gè)逆襲的年輕人,都具備的底層能力


          關(guān)


          ,學(xué)西學(xué)學(xué)運(yùn)營(yíng)護(hù)號(hào),樂(lè)質(zhì),結(jié)識(shí)關(guān)[],學(xué)習(xí)進(jìn)!


          瀏覽 63
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  日本三级在线网址 | 国产青草视频 | 毛片av免费看 | 国产欧美一区二区三区在线看蜜臀 | 亚洲第一精品在线观看 |