干貨 | 盤點(diǎn)卷積神經(jīng)網(wǎng)絡(luò)中 6 種經(jīng)典卷積操作
極市導(dǎo)讀
經(jīng)典的卷積操作都有哪些?本文總結(jié)了6種經(jīng)典卷積神經(jīng)網(wǎng)絡(luò)的一些鬼斧神工的卷積操作。 >>加入極市CV技術(shù)交流群,走在計(jì)算機(jī)視覺的最前沿
深度學(xué)習(xí)的模型大致可以分為兩類,一類是卷積神經(jīng)網(wǎng)絡(luò),另外一類循環(huán)神經(jīng)網(wǎng)絡(luò),在計(jì)算機(jī)視覺領(lǐng)域應(yīng)用最多的就是卷積神經(jīng)網(wǎng)絡(luò)(CNN)。CNN在圖像分類、對(duì)象檢測(cè)、語(yǔ)義分割等經(jīng)典的視覺任務(wù)中表現(xiàn)出色,因此也早就有一大批各種各樣的經(jīng)典卷積神經(jīng)網(wǎng)絡(luò)模型與一些鬼斧神工的卷積操作,今天小編就斗膽總結(jié)一波這些經(jīng)典的卷積操作都有哪些?(不完全版本,歡迎補(bǔ)充….)
01 正常的卷積與參數(shù)
一個(gè)正常的圖像卷積,其工作方式與原理如下圖所示:
可以看出其基本的參數(shù)有:
卷積核大小(Convolution filter)
圖-1中卷積核大小為ksize x ksize=3x3,步長(zhǎng)(stride) 這里指每次移動(dòng)的像素距離,步長(zhǎng)為1,表示卷積核每次移動(dòng)一個(gè)像素距離,依此類推。
填充(padding)
表示卷積核對(duì)邊緣的處理方式,常見的填充方式有兩種:same與valid,其中same表示根據(jù)卷積核大小填充ksize/2 。當(dāng)卷積核為3x3時(shí),填充1個(gè)像素;5x5時(shí),填充兩個(gè)像素,依此類推。Valid表示不填充。輸入與輸出通道數(shù)目從圖二可以看出輸入的6x6x3的圖像數(shù)據(jù),有三個(gè)通道輸入,通過兩個(gè)4x4x3的filter之后輸出的是3x3x2的圖像數(shù)據(jù),有兩個(gè)通道輸出。
02 空洞卷積(Dilated Convolution)
看到這些卷積與參數(shù),第一個(gè)變化就出現(xiàn)了,通過改變卷積核大小,擔(dān)心不改變參數(shù)數(shù)目,實(shí)現(xiàn)了卷積核的多尺度,從而實(shí)現(xiàn)了對(duì)特征多尺度提取,它就是空洞卷積。圖示如下:

在保持卷積核參數(shù)不變的情況下,擴(kuò)大了感受野區(qū)域??斩淳矸e在圖像分類、對(duì)象檢測(cè)、語(yǔ)義分割網(wǎng)絡(luò)模型中均有應(yīng)用。
03 轉(zhuǎn)置卷積(transposed convolution)
轉(zhuǎn)置卷積又被稱為反卷積,此反卷積跟不同于圖像處理中的反模糊卷積。2D轉(zhuǎn)置卷積的計(jì)算基本原理如下圖所示:
舉例說明,卷積操作為:
轉(zhuǎn)置卷積操作為:
最終圖示如下:
04 1x1卷積
1x1卷積在輸出指定通道數(shù)目特征圖,升降卷積神經(jīng)網(wǎng)絡(luò)的通道數(shù)上面有特殊用途,在Inception系列網(wǎng)絡(luò)中開始大量應(yīng)用,在網(wǎng)絡(luò)模型結(jié)構(gòu)設(shè)計(jì)有重要作用,F(xiàn)aster-RCNN中RPN網(wǎng)絡(luò)就是使用1x1實(shí)現(xiàn)指定通道輸出的典范。1x1卷積圖示如下:
1x1卷積的好處是可以升降維度通道數(shù)目,同時(shí)它還是一個(gè)channel-wise的卷積操作,可以降低卷積核的參數(shù)數(shù)目,減小模型規(guī)模。此外1x1卷積還有一個(gè)很高級(jí)隱藏應(yīng)用技巧就是做全局深度池化操作,實(shí)現(xiàn)基于通道數(shù)的池化操作。
05 組合卷積
組合卷積最早見AlexNet模型的相關(guān)論文,集大成者是ShuffleNet網(wǎng)絡(luò),關(guān)于組合卷積跟正常卷積的區(qū)別,見下圖:
組合卷積主要是基于filter分組,實(shí)現(xiàn)分組卷積,正常的卷積如下:
分組filter之后的分組卷積:
分組卷積的優(yōu)勢(shì)是可以更好的結(jié)構(gòu)化學(xué)習(xí),克服過擬合,減少參數(shù)、產(chǎn)生類似正則化效果,從而提升整個(gè)網(wǎng)絡(luò)的精度與效率。
06 深度可分離卷積
深度可分離卷積結(jié)構(gòu)是構(gòu)建輕量化網(wǎng)絡(luò)模型的利器之一,最早出現(xiàn)在相關(guān)的模型結(jié)構(gòu)是以MobileNet為代表的輕量級(jí)網(wǎng)絡(luò)模型,應(yīng)用于圖像分類、對(duì)象檢測(cè)、語(yǔ)義分割當(dāng)場(chǎng)景下。深度可分類卷積的圖示如下:
深度可分離卷積可以大幅減少卷積神經(jīng)網(wǎng)絡(luò)的參數(shù),因此它在模型層數(shù)不變而模型總參數(shù)量卻可以大幅下降而精度只會(huì)稍微損失,因此是模型小型化設(shè)計(jì)與輕量化模型推理的很好骨干網(wǎng)絡(luò)。
如果覺得有用,就請(qǐng)分享到朋友圈吧!
公眾號(hào)后臺(tái)回復(fù)“79”獲取CVPR 2021:TransT 直播鏈接~
# CV技術(shù)社群邀請(qǐng)函 #
備注:姓名-學(xué)校/公司-研究方向-城市(如:小極-北大-目標(biāo)檢測(cè)-深圳)
即可申請(qǐng)加入極市目標(biāo)檢測(cè)/圖像分割/工業(yè)檢測(cè)/人臉/醫(yī)學(xué)影像/3D/SLAM/自動(dòng)駕駛/超分辨率/姿態(tài)估計(jì)/ReID/GAN/圖像增強(qiáng)/OCR/視頻理解等技術(shù)交流群
每月大咖直播分享、真實(shí)項(xiàng)目需求對(duì)接、求職內(nèi)推、算法競(jìng)賽、干貨資訊匯總、與 10000+來自港科大、北大、清華、中科院、CMU、騰訊、百度等名校名企視覺開發(fā)者互動(dòng)交流~
