點擊下方卡片，關注“新機器視覺”公眾號

視覺/圖像重磅干貨，第一時間送達

轉自AI中國

關于CNN，

第1部分:卷積神經網絡的介紹

CNN是什么？：它們如何工作，以及如何在Python中從頭開始構建一個CNN。

在過去的幾年里，卷積神經網絡(CNN)引起了人們的廣泛關注，尤其是因為它徹底的改變了計算機視覺領域。在這篇文章中，我們將以神經網絡的基本背景知識為基礎，探索什么是CNN，了解它們是如何工作的，并在Python中從頭開始構建一個真正的CNN(僅使用numpy)。

準備好了嗎?讓我們開看看吧

1. 動機

CNN的經典用例是執(zhí)行圖像分類，例如查看寵物的圖像并判斷它是貓還是狗。這看起來是一個簡單的任務，那為什么不使用一個普通的神經網絡呢?

好問題！

原因1:圖像很大

現(xiàn)在用于計算機視覺問題的圖像通常是224x224或更大的。想象一下，構建一個神經網絡來處理224x224彩色圖像:包括圖像中的3個彩色通道(RGB)，得到224×224×3 = 150,528個輸入特征!在這樣的網絡中，一個典型的隱含層可能有1024個節(jié)點，因此我們必須為第一層單獨訓練150,528 x 1024 = 1.5 +億個權重。我們的網絡將是巨大的，幾乎不可能訓練的。

我們也不需要那么多權重。圖像的好處是，我們知道像素在相鄰的上下文中最有用。圖像中的物體是由小的局部特征組成的，比如眼睛的圓形虹膜或一張紙的方角。從第一個隱藏層中的每個節(jié)點來說，查看每個像素看起來不是很浪費嗎？

原因二:立場可以改變

如果你訓練一個網絡來檢測狗，你希望它能夠檢測狗，不管它出現(xiàn)在圖像的什么地方。想象一下，訓練一個網絡，它能很好地處理特定的狗的圖像，然后為它提供相同圖像的略微移位的版本。狗不會激活相同的神經元，因此網絡會有完全不同的反應！

我們很快就會看到CNN如何幫助我們解決這些問題。

2.數(shù)據(jù)集

在這篇文章中，我們將解決計算機視覺的"Hello，World！"：MNIST手寫數(shù)字分類問題。這很簡單：給定圖像，將其分類為數(shù)字。

MNIST數(shù)據(jù)集中的每個圖像都是28x28，并包含了一個以中心為中心的灰度數(shù)字。

說實話，一個正常的神經網絡實際上可以很好地解決這個問題。你可以將每個圖像視為一個28x28 = 784維的向量，將其提供給一個784-dim的輸入層，堆疊幾個隱藏層，最后的輸出層包含10個節(jié)點，每個數(shù)字對應一個節(jié)點。

因為MNIST數(shù)據(jù)集包含小圖像居中，所以我們不會遇到上述的大小或移動問題。然而，在這篇文章的整個過程中請記住，大多數(shù)現(xiàn)實世界中的圖像分類問題并沒有這么簡單。

那么，現(xiàn)在你已經有足夠的積累了。讓我們正式進入CNN的世界!

3.卷積

什么是卷積神經網絡？

它們基本上只是使用卷積層的神經網絡，即基于卷積數(shù)學運算的Conv層。Conv圖層由一組濾鏡組成，你可以將其看作是數(shù)字的二維矩陣。這里有一個例子3x3過濾器:

我們可以使用一個輸入圖像和一個過濾器通過將過濾器與輸入圖像進行卷積來生成一個輸出圖像。這包括

將過濾器覆蓋在圖像的某個位置上。
在過濾器中的值與其在圖像中的對應值之間執(zhí)行元素級乘法。
總結所有元素產品。這個和是輸出圖像中目標像素的輸出值。
對所有位置重復。

旁注:我們(以及許多CNN實現(xiàn))實際上在技術上使用的是互相關而不是卷積，但它們做的幾乎是一樣的。我不會在這篇文章中詳細討論它們之間的區(qū)別，因為這并不重要。

這四步描述有點抽象，我們來做個例子。看下這個微小的4x4灰度圖像和這個3x3濾鏡：

圖像中的數(shù)字表示像素強度，其中0為黑色，255為白色。我們將卷積輸入圖像和過濾器產生一個2x2輸出圖像:

首先，讓我們將濾鏡疊加在圖片的左上角：

接下來，我們在重疊圖像值和過濾器值之間執(zhí)行逐元素乘法。以下是結果，從左上角開始向右，然后向下：

接下來，我們總結所有的結果。這是很容易:

最后，我們將結果放入輸出圖像的目標像素中。由于我們的過濾器覆蓋在輸入圖像的左上角，我們的目標像素是輸出圖像的左上角像素:

我們做同樣的事情來生成輸出圖像的其余部分：

3.1這有什么用?

讓我們縮小一下，在更高的層次上看這個。將圖像與過濾器進行卷積會做什么?我們可以從我們一直使用的例子3x3過濾器開始，它通常被稱為垂直Sobel過濾器:

下面是一個垂直Sobel過濾器的例子:

同樣，還有一個水平Sobel過濾器:

看發(fā)生了什么?Sobel過濾器是一種邊緣檢測器。垂直Sobel過濾器檢測垂直邊緣，水平Sobel過濾器檢測水平邊緣。輸出圖像現(xiàn)在很容易解釋:輸出圖像中的亮像素(高值像素)表示在原始圖像中有一個強邊緣。

你能看出為什么邊緣檢測圖像可能比原始圖像更有用嗎？回想一下我們的MNIST手寫數(shù)字分類問題。在MNIST上訓練的CNN可以尋找數(shù)字1，例如，通過使用邊緣檢測過濾器并檢查圖像中心附近的兩個突出的垂直邊緣。通常，卷積有助于我們查找特定的本地化圖像特征（如邊緣），我們可以在以后的網絡中使用。

3.2填充

還記得以前將4x4輸入圖像與3x3濾波器卷積得到2x2輸出圖像嗎?通常，我們希望輸出圖像與輸入圖像的大小相同。為此，我們在圖像周圍添加零，這樣我們就可以在更多的地方覆蓋過濾器。一個3x3的過濾器需要1像素的填充:

這稱為"相同"填充，因為輸入和輸出具有相同的尺寸。不使用任何填充，這是我們一直在做的，并將繼續(xù)為這篇文章做，有時被稱為"有效"填充。

3.3 Conv層（Conv Layers）

現(xiàn)在我們知道了圖像卷積是如何工作的以及它為什么有用，讓我們看看它在CNN中的實際應用。如前所述，CNN包括conv層，它使用一組過濾器將輸入圖像轉換為輸出圖像。conv層的主要參數(shù)是它擁有的過濾器的數(shù)量。

對于MNIST CNN，我們將使用一個帶有8個過濾器的小conv層作為網絡的初始層。這意味著它將把28x28的輸入圖像轉換成26x26x8的容量：

提醒:輸出是26x26x8，而不是28x28x8，因為我們使用了有效的填充，這將輸入的寬度和高度降低了2。

conv層中的4個過濾器每個都產生一個26x26的輸出，因此它們疊加在一起構成一個26x26x8。所有這些都是因為3×3(過濾器大小)\ × 8(過濾器數(shù)量)= 72個權重!

3.4實施卷積

是時候把我們學到的東西寫進代碼里了!我們將實現(xiàn)conv層的前饋部分，它負責將過濾器與輸入圖像進行卷積以生成輸出卷。為了簡單起見，我們假設過濾器總是3x3(這并不是真的，5x5和7x7過濾器也很常見)。

讓我們開始實現(xiàn)一個conv層類:

Conv3x3類只接受一個參數(shù):過濾器的數(shù)量。在構造函數(shù)中，我們存儲過濾器的數(shù)量，并使用NumPy的randn()方法初始化一個隨機過濾器數(shù)組。

注意:如果初始值過大或過小，訓練網絡將無效。

接下來，實際的卷積:

iterate_regions()是一個輔助發(fā)生器的方法,收益率為我們所有有效3 x3的圖像區(qū)域。這對于以后實現(xiàn)該類的向后部分非常有用。

上面突出顯示了實際執(zhí)行卷積的代碼行。讓我們來分解一下:

我們有im_region，一個包含相關圖像區(qū)域的3x3數(shù)組。
我們有self.filters，一個3d數(shù)組。
我們做im_region * self.filters，它使用numpy的廣播機制以元素方式乘以兩個數(shù)組。結果是一個3d數(shù)組，其尺寸與self.filters相同。
我們np.sum（）上一步的結果使用axis =（1,2），它產生一個長度為num_filters的1d數(shù)組，其中每個元素包含相應過濾器的卷積結果。
我們將結果分配給輸出[i，j]，其中包含輸出中像素（i，j）的卷積結果。

對輸出中的每個像素執(zhí)行上面的序列，直到得到最終的輸出卷為止!讓我們測試一下我們的代碼:

目前看起來不錯。

注意:在Conv3x3實現(xiàn)中，為了簡單起見，我們假設輸入是一個2d numpy數(shù)組，因為MNIST圖像就是這樣存儲的。這對我們有用，因為我們使用它作為我們網絡的第一層，但大多數(shù)cnn有更多的Conv層。如果我們要構建一個更大的網絡，需要多次使用Conv3x3，那么我們必須將輸入設置為3d numpy數(shù)組。

4. 池化

圖像中的相鄰像素往往具有相似的值，因此conv層通常也會為輸出中的相鄰像素生成相似的值。因此，conv層輸出中包含的大部分信息都是多余的。例如，如果我們使用邊緣檢測過濾器，并在某個位置找到一個強邊緣，那么我們很可能也會在距離原始位置1像素的位置找到一個相對較強的邊緣。然而，這些都是相同的邊緣!我們沒有發(fā)現(xiàn)任何新東西。

池化層解決了這個問題。他們所做的就是減少（通過猜測）在輸入中匯總值的輸入大小。池化層通常由一個簡單的操作完成，比如max、min或average。下面是一個最大池層的例子，池的大小為2:

為了執(zhí)行最大池化，我們在2x2塊中輸入了圖像(因為池的大小= 2)，并將最大值放入對應像素處的輸出圖像中。就是這樣!

它將輸入的寬度和高度除以它的大小。對于MNIST CNN，我們將在初始conv層之后放置一個池大小為2的最大池化層。池化層將26x26x8輸入轉換為13x13x8輸出:

4.1 Implementing Pooling（實施池）

我們將實現(xiàn)一個MaxPool2類與我們的conv類相同的方法從上一節(jié):

這個類的工作原理類似于我們之前實現(xiàn)的Conv3x3類。關鍵行再次突出顯示:要從給定的圖像區(qū)域找到最大值，我們使用np.amax()， numpy的array max方法。我們設置axis=(0,1)，因為我們只想最大化前兩個維度(高度和寬度)，而不是第三個維度(num_filters)。

我們來試試吧！