<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          圓形的CNN卷積核?清華黃高團(tuán)隊(duì)&康奈爾提出圓形卷積,進(jìn)一步提升卷積結(jié)構(gòu)性能!

          共 4809字,需瀏覽 10分鐘

           ·

          2021-07-14 09:40

          ↑ 點(diǎn)擊藍(lán)字 關(guān)注極市平臺(tái)

          作者丨小馬
          編輯丨極市平臺(tái)

          極市導(dǎo)讀

           

          來(lái)自華中科技大學(xué)、清華、康奈爾的研究者提出了一種卷積核大小可變的并且聚合了方形和圓形特點(diǎn)的集成卷積核,并在訓(xùn)練過(guò)程中采用自適應(yīng)的卷積核大小。測(cè)試結(jié)果在MobileNetV3-Small上提高了5.20%的top-1準(zhǔn)確率,在MobileNetV3-Large上提高了2.16%的top-1準(zhǔn)確率。 >>加入極市CV技術(shù)交流群,走在計(jì)算機(jī)視覺(jué)的最前沿

          寫在前面

          目前正常卷積的感受野大多都是一個(gè)矩形的,因?yàn)榫匦胃欣趦?chǔ)存和計(jì)算數(shù)據(jù)的方便。但是,人類視覺(jué)系統(tǒng)的感受野更像是一個(gè)圓形的。因此,作者就提出,能不能將CNN卷積核的感受野也變成圓形呢?作者通過(guò)一系列實(shí)驗(yàn),發(fā)現(xiàn)了圓形的卷積核確實(shí)比方形的卷積效果會(huì)更好?;诖?,作者在本文中提出了一種卷積核大小可變的并且聚合了方形和圓形特點(diǎn)的集成卷積核。作者在模型訓(xùn)練結(jié)束后,采用了一種重參數(shù)的方法對(duì)模型的結(jié)構(gòu)和參數(shù)進(jìn)行修改,使得模型在inference的時(shí)候并沒(méi)有引入額外的參數(shù)量和計(jì)算量。最終作者在分類任務(wù)的三個(gè)數(shù)據(jù)集ImageNet、CIFAR-10、CIFAR-100上進(jìn)行了測(cè)試,發(fā)現(xiàn)了新的卷積核能夠有比較大的性能提升(在MobileNetV3-Small上提高了5.20%的top-1準(zhǔn)確率,在MobileNetV3-Large上提高了2.16%的top-1準(zhǔn)確率)。

          人的視野范圍是什么形狀的?其實(shí)人眼的感受野也不是圓形的,而是一個(gè)橢圓形的。類似下面的這樣:

          (圖片來(lái)自學(xué)習(xí)強(qiáng)國(guó)app慕課中的“高維看世界”)

          好奇之后會(huì)不會(huì)有工作進(jìn)行了提出一個(gè)橢圓形的卷積核。除此之外,人眼的感知除了“上下左右”,還有“前后”。之后會(huì)不會(huì)有人提出一個(gè)帶深度的卷積核(比如橢球形狀的卷積核)。目前的卷積在通道維度上都是進(jìn)行非常充分的建模,導(dǎo)致在通道維度上的建模很多時(shí)候是冗余的(這一點(diǎn)Involution[1]中也有提到),所以說(shuō)不定用一個(gè)帶“深度”信息的卷積核,只對(duì)相鄰?fù)ǖ佬畔⑦M(jìn)行建模,反而能夠提升模型的泛化能力。

          1. 論文和代碼地址

          Integrating Circle Kernels into Convolutional Neural Networks

          論文地址:https://arxiv.org/abs/2107.02451

          代碼地址:未開源

          2. Motivation

          從LeNet開始,矩形的卷積核一直都是CNN的標(biāo)配。在這期間也有一些工作研究了可變形的卷積,但是,雖然可變形的卷積能夠提高模型的performance,但是不可避免的引入了額外的參數(shù)和計(jì)算量。

          因此,受人眼視覺(jué)系統(tǒng)感受野的啟發(fā),作者就想能不能提出一個(gè)圓形的卷積操作,相比于矩形的卷積,圓形的卷積核主要有以下幾個(gè)優(yōu)點(diǎn):

          1) 圓形卷積核的感受野和生物視覺(jué)的感受野更加相似;

          2) 卷積核的感受野通常應(yīng)該是各個(gè)方向都是對(duì)稱的,這樣可以適應(yīng)全局或者局部輸入特征在不同方向上的信息變化,圓形卷積核具備這個(gè)性質(zhì),但是矩形卷積核只在固定的幾個(gè)方向是對(duì)稱的;

          3)之前也有工作表明,矩形卷積核的有效感受野更加接近圓形的高斯分布,因此,為什么不直接用一個(gè)圓形的卷積核呢?

          在構(gòu)造圓形卷積核時(shí),由于感受野上的一些點(diǎn)通常不在網(wǎng)格上,因此作者采用雙線性插值進(jìn)行逼近,并提取了相應(yīng)的變換矩陣。

          最終,作者并沒(méi)有采用了單獨(dú)的圓形卷積,而是采用一種圓形和方形集成的卷積,并在訓(xùn)練過(guò)程中采用自適應(yīng)的卷積核大小(也就是說(shuō),每個(gè)集成的卷積核都有一對(duì)方核和圓核。這兩個(gè)核共享權(quán)值矩陣,但有不同的變換矩陣 )。

          最終作者在分類任務(wù)的三個(gè)數(shù)據(jù)集ImageNet,CIFAR-10,CIFAR-100上做了實(shí)驗(yàn),在不同baseline結(jié)構(gòu)上,方形和圓形集成的卷積核相比于baseline都有明顯的性能提升。

          3. 方法

          3.1.  圓形卷積核 VS 方形卷積核

          圓形卷積核(b)和方形卷積核(a)如上圖所示

          對(duì)于一個(gè)3x3的方形卷積,可以用下面的公式表示(對(duì)感受野內(nèi)的特征進(jìn)行加權(quán)求和):

          對(duì)于半徑為1的圓形卷積,可以被建模成下面的公式:

          由于圓核的接受場(chǎng)包含不是整數(shù)的位置,所以作者使用了雙線性插值獲取相應(yīng)的采樣值:

          因此,將上面的兩個(gè)公式進(jìn)行結(jié)合,我們就可以得到下面統(tǒng)一的圓形卷積核的公式:

          (注意,這里的圓形的卷積核的公式看上去比較復(fù)雜,但其實(shí)由于乘法的結(jié)合律,這里的矩陣其實(shí)是可以合成一個(gè)新的矩陣的,所以在測(cè)試的時(shí)候其實(shí)并不會(huì)引入新的計(jì)算量和參數(shù)量)

          (另外,再通俗的解釋一下,這里的圓形卷積計(jì)算其實(shí)方形卷積計(jì)算是一樣的,都是對(duì)感受野內(nèi)特征信息進(jìn)行加權(quán)求和;不同的是,方形的卷積核的特征信息都可以輕松的獲得,但是圓形感受野內(nèi)的信息由于位置往往不是整數(shù),所以需要用雙線性插值的方法,計(jì)算相應(yīng)位置的特征值)

          3.2. 集成圓形卷積核和方形卷積核

          在本文中,作者并沒(méi)有單獨(dú)的使用圓形或者方形的卷積,而是對(duì)這兩個(gè)卷積進(jìn)行了集成。

          每個(gè)集成的卷積核都有兩種感受野(圓形和方形)。訓(xùn)練時(shí),每層的所有卷積核都隨機(jī)選擇的圓形或者方形的卷積核進(jìn)行訓(xùn)練。所以,一個(gè)集成核的感受野是一個(gè)伯努利隨機(jī)變量,集成核的輸出卷積結(jié)構(gòu)可以被表示成:

          由于每一層都有兩種卷積方式,并且在訓(xùn)練的時(shí)候,每一層的卷積都會(huì)隨機(jī)選擇這兩種卷積中的任意一種,所以對(duì)于L層,就有中不同的子網(wǎng)絡(luò)結(jié)構(gòu)。(這一步隨機(jī)選擇也是大大提高了模型的學(xué)習(xí)空間

          3.3. 可學(xué)習(xí)大小的卷積核

          不同感受野大小的圓形和方形卷積核如上圖所示。在訓(xùn)練時(shí),作者采用了一個(gè)可學(xué)習(xí)的參數(shù)動(dòng)態(tài)控制了卷積核感受野的大小。

          方形卷積核的感受野為,圓形卷積核的感受野為。由于在訓(xùn)練過(guò)程中,卷積核的形狀是隨機(jī)選擇的,所以訓(xùn)練過(guò)程的感受野大小也符合伯努利分布。

          3.4. 測(cè)試時(shí)重參數(shù)

          卷積的過(guò)程可以用下面的公式表示:

          上面也提到了在訓(xùn)練完成后其實(shí)是一個(gè)固定的矩陣,由于乘法的結(jié)合律,其實(shí)是可以將矩陣的參數(shù)和的參數(shù)進(jìn)行合并(類似兩個(gè)FC變成一個(gè)FC)。可以在推理之前保存由轉(zhuǎn)換矩陣重參數(shù)后的新權(quán)重,模型就不再需要根據(jù)測(cè)試的偏移量逐點(diǎn)進(jìn)行特征映射。

          3.5. Integrated Kernels

          對(duì)于一個(gè)正常的卷積,他的所有參數(shù)都是靜態(tài),可以被表示成:

          帶有自適應(yīng)參數(shù)的卷積可以被表示成:

          其中表示動(dòng)態(tài)自適應(yīng)的參數(shù)。

          本文的訓(xùn)練的網(wǎng)絡(luò)結(jié)構(gòu)如上圖所示,本文模型的輸出結(jié)果可以被表示成:

          其中是一個(gè)多重伯努利分布,因?yàn)槊恳粚拥木矸e過(guò)程都是隨機(jī)的,每一層隨機(jī)從N種卷積方式里選擇一種,對(duì)于L層,就有種不同的組合方式。

          4.實(shí)驗(yàn)

          4.1. Circle Kernels VS Square Kernels

          如上圖所示,感受野越大,圓形卷積的感受野就更像一個(gè)圓形

          如上表所示,作者在WRNCifar和DenseNetCifar上做了實(shí)驗(yàn)。隨著卷積核大小的增加,圓核比方核的優(yōu)勢(shì)變得更加顯著,表明了圓核的優(yōu)越性。

          4.2.  Comparison on CIFAR Datasets

          XXX-Int-SC-F表示具有固定大小的方形和圓核,XXX-Int-SC-L表示具有可學(xué)習(xí)大小的方形和圓核。

          可以看出,在沒(méi)有數(shù)據(jù)增強(qiáng)的情況下,方核和圓核的方法相較于baseline都有性能的提升,并且可學(xué)習(xí)大小的集成核在性能上表現(xiàn)最好。

          4.3.  Comparison on ImageNet

          在ImageNet上,作者基于MobileNet和ResNet進(jìn)行了實(shí)驗(yàn)??梢钥闯?,圓核的方法會(huì)比方核的性能要更好??傮w來(lái)說(shuō),可以學(xué)習(xí)的圓核和方核在性能上表現(xiàn)會(huì)更好一些。

          4.4. Ablation Studies

          作者進(jìn)一步探究了不同核的數(shù)量對(duì)實(shí)驗(yàn)結(jié)果的影響。在沒(méi)有數(shù)據(jù)增強(qiáng)的情況下,隨著集成核數(shù)量的增加,模型性能表現(xiàn)出不斷增長(zhǎng)的趨勢(shì)。在有數(shù)據(jù)增強(qiáng)的情況下,圓核并沒(méi)有展現(xiàn)出性能的提升。

          4.5. 可視化

          可以看出圓核的可視化結(jié)果明顯比方核會(huì)更加精細(xì)、更容易區(qū)分物體、更加關(guān)注在圖片的主體內(nèi)容上。

          5. 總結(jié)

          基于人類的視覺(jué)感知原理,作者提出了一種更接近人類視覺(jué)感受的卷積核——圓形卷積核,作者也通過(guò)實(shí)驗(yàn)證明了,在沒(méi)有數(shù)據(jù)增強(qiáng)的情況下,圓形卷積核的表現(xiàn)確實(shí)比方形卷積核要好。但是有了數(shù)據(jù)增強(qiáng)之后,圓形卷積核的性能并沒(méi)有提升,反而下降了。更重要的一點(diǎn)是,沒(méi)有數(shù)據(jù)增強(qiáng)集成核的性能也沒(méi)有比用了數(shù)據(jù)增強(qiáng)方核性能要好,這就表明了,圓核帶來(lái)的效益沒(méi)有數(shù)據(jù)增強(qiáng)帶來(lái)的效益高,而且圓核的效益不能和數(shù)據(jù)增強(qiáng)的效益兼容。

          所以本質(zhì)上,這篇工作只是在這個(gè)方向上開了一個(gè)頭,還有很多工作可以基于本文繼續(xù)開拓。另外,個(gè)人覺(jué)得,由于圓形卷積核在各個(gè)方向都是對(duì)稱的,所以相比于方形卷積核,圓形確實(shí)更適合作為感受野的形狀。

          參考文獻(xiàn)

          [1]. Li, Duo, et al. "Involution: Inverting the inherence of convolution for visual recognition." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition . 2021.

          [2]. Wenjie Luo, Yujia Li, Raquel Urtasun, and Richard Zemel. Understanding the effective receptive field in
          deep convolutional neural networks. In Advances in Neural Information Processing Systems, volume 29,
          pages 4898–4906, 2016.


          如果覺(jué)得有用,就請(qǐng)分享到朋友圈吧!

          △點(diǎn)擊卡片關(guān)注極市平臺(tái),獲取最新CV干貨

          公眾號(hào)后臺(tái)回復(fù)“CVPR21檢測(cè)”獲取CVPR2021目標(biāo)檢測(cè)論文下載~


          極市干貨
          YOLO教程:一文讀懂YOLO V5 與 YOLO V4大盤點(diǎn)|YOLO 系目標(biāo)檢測(cè)算法總覽全面解析YOLO V4網(wǎng)絡(luò)結(jié)構(gòu)
          實(shí)操教程:PyTorch vs LibTorch:網(wǎng)絡(luò)推理速度誰(shuí)更快?只用兩行代碼,我讓Transformer推理加速了50倍PyTorch AutoGrad C++層實(shí)現(xiàn)
          算法技巧(trick):深度學(xué)習(xí)訓(xùn)練tricks總結(jié)(有實(shí)驗(yàn)支撐)深度強(qiáng)化學(xué)習(xí)調(diào)參Tricks合集長(zhǎng)尾識(shí)別中的Tricks匯總(AAAI2021
          最新CV競(jìng)賽:2021 高通人工智能應(yīng)用創(chuàng)新大賽CVPR 2021 | Short-video Face Parsing Challenge3D人體目標(biāo)檢測(cè)與行為分析競(jìng)賽開賽,獎(jiǎng)池7萬(wàn)+,數(shù)據(jù)集達(dá)16671張!



          極市平臺(tái)簽約作者#

          小馬

          廈門大學(xué)人工智能系20級(jí)碩士。
          研究領(lǐng)域:多模態(tài)內(nèi)容理解,專注于解決視覺(jué)模態(tài)和語(yǔ)言模態(tài)相結(jié)合的任務(wù),促進(jìn)Vision-Language模型的實(shí)地應(yīng)用。
          知乎:努力努力再努力

          作品精選
          CVPR2021最佳學(xué)生論文提名:Less is More
          Transformer一作又出新作!HaloNet:用Self-Attention的方式進(jìn)行卷積
          超越Swin,Transformer屠榜三大視覺(jué)任務(wù)!微軟推出新作:Focal Self-Attention

          投稿方式
          添加小編微信Fengcall(微信號(hào):fengcall19),備注:姓名-投稿

          △長(zhǎng)按添加極市平臺(tái)小編

          覺(jué)得有用麻煩給個(gè)在看啦~  
          瀏覽 79
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  日韩一级在线观看 | 丁香五月网站 | 蜜桃av在线播放 免费超碰在线观看 | 国产精品毛片视频 | 人妻无码视频 |