二、卷積神經(jīng)網(wǎng)絡

在介紹卷積神經(jīng)網(wǎng)絡之前我們先了解一下為什么不使用我們上一節(jié)介紹的神經(jīng)網(wǎng)絡（全連接層結構）來處理圖像。使用全連接層結構處理圖像時會出現(xiàn)以下問題：

卷積神經(jīng)網(wǎng)絡通過卷積層提取圖像特征，不僅大幅的減少了參數(shù)量，還保留了圖像的空間信息。

如上圖簡單的卷積神經(jīng)網(wǎng)絡所示，卷積神經(jīng)網(wǎng)絡主要架構是由卷積層、池化層、全連接層組成。

卷積層負責提取圖像中的局部特征，其原理是通過許多的卷積核(filter, kernel) 在圖片上進行滑動提取特征。

下圖是卷積滑動的過程，左中右分別為輸入層、卷積核、輸出層

卷積核 (filter, kernel)

卷積核里面的數(shù)字就是卷積層的權重，是經(jīng)由神經(jīng)網(wǎng)絡訓練學習而來的。而卷積核的大小 (kernel size) 及數(shù)量 (輸出 channel) 是可以調(diào)整的超參數(shù)，通常會設定為奇數(shù)，其原因有兩個：

輸出層為卷積運算后的結果，稱為特征圖 (feature map)

卷積運算

卷積運算的方式就是將滑動的窗口與卷積核進行點對點 (elementwise) 的相乘，再將乘完的值相加

卷積的參數(shù)

Kernel size: 定義卷積核的大小，影響卷積操作的感受野，一般使用3x3，5x5 等
Stride: 定義遍歷圖像時卷積核移動的步長
Channel: 定義卷積運算的輸入和輸出通道數(shù)
Padding: 定義如何處理樣本邊界的方式，分為不填充或者對邊界填充0，不填充的只對特征圖做卷積操作，會使得輸出的特征圖小于輸入的特征圖；對邊界填充0，可以使得輸入和輸出的特征圖保持一致

卷積的感受野

感受野是每一層卷積神經(jīng)網(wǎng)絡輸出的特征圖上的特征點映射到原始圖像上的區(qū)域的大小，即特征點可以“看到”的范圍。描述的原始圖像信息，能夠表達的信息越全面。

感受野的計算公式如下：

其中，L表示感受野的大小，是第k-1層的感受野大小，而是當前層的卷積核大小，是第i層的步長。卷積層（F0）的感受野大小等于其內(nèi)核k的大小。

F0層：L0 = f = 3

F1層：L1=3+(3-1)*1=5；

具體來說，當前特征圖的感受野與上層空間有關，與當前層核心的大小，與填充和步幅相關。感受野的大小可以大于網(wǎng)絡輸入的大小。

卷積的類型

常見的卷積類型有很多，根據(jù)其操作的區(qū)域大致可以分為兩類：通道相關性、空間相關性。

通道相關性的卷積核改變了卷積在channel維度操作，如：Group Convolution、Depthwise Separable Convolutions；
空間相關性的卷積核是改變了卷積在w,h維度的操作。除了這兩類近年來也出現(xiàn)了一些新的改進思路：如動態(tài)卷積，空洞卷積。

Group Convolution（分組卷積）

Group Convolution（分組卷積）就是對輸入feature map在channel維度進行分組，然后每組分別卷積。設分成G組，參數(shù)量減少為原來的1/G。如下圖所示：

Depthwise Convolution

當分組卷積分組數(shù)量等于輸入map數(shù)量，輸出map數(shù)量也等于輸入map數(shù)量，即G=C=N、N個卷積核每個尺寸為1?K?K時，Group Convolution就成了Depthwise Convolution（深度卷積）。

Depthwise Separable Convolution

Depthwise Separable Convolutions（深度可分離卷積）是由 Depthwise Separable Convolution是將一個完整的卷積運算分解為兩步進行，即Depthwise Convolution與Pointwise Convolution。

Pointwise Convolution的運算與常規(guī)卷積運算非常相似，它的卷積核的尺寸為 1×1×M，M為上一層的通道數(shù)。所以這里的卷積運算會將上一步的map在深度方向上進行加權組合，生成新的Feature map。有幾個卷積核就有幾個輸出Feature map。

池化層是用來大幅降低參數(shù)量(降維)、減少過擬合問題、緩解卷積層對位置的敏感度。空間池化層也被稱為子采樣或下采樣層，它降低了每個特征圖的維度但保留了重要信息，簡單來說池化層主要用來縮小特征圖的大小減少計算量。池化層主要有以下兩種類型：

上采樣

由于輸入圖像通過卷積神經(jīng)網(wǎng)絡(CNN)提取特征后，輸出的尺寸往往會變小，而有時我們需要將圖像恢復到原來的尺寸以便進行進一步的計算(如圖像的語義分割)，這個使圖像由小分辨率映射到大分辨率的操作，叫做上采樣，它的實現(xiàn)一般有三種方式：

插值，插值法不需要學習任何的參數(shù)，只是根據(jù)已知的像素點對未知的點進行預測估計，一般使用的是雙線性插值，其他插值方式還有最近鄰插值、三線性插值等；
轉(zhuǎn)置卷積又或是說反卷積，通過對輸入feature map間隔填充0，再進行標準的卷積計算，可以使得輸出feature map的尺寸比輸入更大；
Max Unpooling，在對稱的max pooling位置記錄最大值的索引位置，然后在unpooling階段時將對應的值放置到原先最大值位置，其余位置補0；