卷積神經(jīng)網(wǎng)絡(luò)(CNN)概念解釋
點擊上方“小白學視覺”,選擇加"星標"或“置頂”
重磅干貨,第一時間送達
本文轉(zhuǎn)自:opencv學堂
傳統(tǒng)的模式識別神經(jīng)網(wǎng)絡(luò)(NN)算法基于梯度下降,基于輸入的大量樣本特征數(shù)據(jù)學習有能力識別與分類不同的目標樣本。這些傳統(tǒng)模式識別方法包括KNN、SVM、NN等方法、他們有一個無法避免的問題,就是必須手工設(shè)計算法實現(xiàn)從輸入圖像到提取特征,而在特征提取過程中要考慮各種不變性問題、最常見的需要考慮旋轉(zhuǎn)不變性、光照不變性、尺度不變性、通過計算圖像梯度與角度來實現(xiàn)旋轉(zhuǎn)不變性、通過歸一化來避免光照影響,構(gòu)建尺度金字塔實現(xiàn)尺度不變性,這其中SIFT與SURF是其這類特征的典型代表、此外還可以基于輪廓HOG特征、LBP特征等,然后把特征數(shù)據(jù)作為輸入,選擇適合的機器學習方法如KNN、SVM等方法實現(xiàn)分類或者識別。這些方法的一個最大的弊端就是特征提取設(shè)計過程完全依賴于人、人的因素太多,沒有發(fā)揮出機器主動學習、提取特征的能力。好處就是人可以完全控制特征提取的每個細節(jié)、每個特征數(shù)據(jù)。圖示如下:

以卷積神經(jīng)網(wǎng)絡(luò)(CNN)為代表的深度學習方法實現(xiàn)對象識別與分類,則是把特征提取完全交給機器、整個特征提取的過程無需手工設(shè)計、全部由機器自動完成。通過不同filter的卷積實現(xiàn)特征提取,這樣就可以對畸變與光照保持一定程度的不變性、通過最大池化層采樣實現(xiàn)尺度不變性,在保持傳統(tǒng)特征數(shù)據(jù)三個不變性的同時,在特征提取方法上盡量減少人工設(shè)計細節(jié),通過監(jiān)督學習把計算機的計算能力發(fā)揮出來,主動尋找合適的特征數(shù)據(jù)。完成了特征提取算法有傳統(tǒng)的白盒機制到以機器為主導(dǎo)的黑盒機制,實現(xiàn)了識別分類結(jié)果的最優(yōu)化求解。最早的卷積神經(jīng)網(wǎng)絡(luò)模型出現(xiàn)在1998年,主要是用來實現(xiàn)OCR(英文字母識別),它的名稱叫做LeNet-5網(wǎng)絡(luò),其結(jié)構(gòu)如下:

輸入層(Input Layer)表示輸入數(shù)據(jù)(圖像)
卷積層(Convolution Layer)通過5x5的卷積核實現(xiàn)特征提取,然 后通過2x大小最大池化,降采樣。上圖有兩個卷積層
全連接層(Full connection Layer),傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的多層感知器 (MLP)。上圖有兩個全連接層
輸出層(Output Layer)
首先要理解一下圖像卷積的概念,卷積是一種數(shù)學操作,簡單可以解釋如下圖:

而對與卷積神經(jīng)網(wǎng)絡(luò)的卷積層來說,我們一般定義輸入圖像是wxh像素寬高大小,定義K個mxn卷積核,對每個卷積核完成輸入圖像與之卷積得到生成k(w-m+1)(h-n+1)卷積圖像,降采樣之后則得到DMN (M=(w-m+1)/2, N=(h-n+1)/2), 其中D表示深度即feature map的個數(shù),輸出第一層卷積池化之后,繼續(xù)進行卷積操作的時候必須考慮圖像的深度,在深度方向完成三維卷積,圖示如下:

這樣就得到了卷積第二層,如果還有需要還可以進行第三層卷積到~N層,卷積層操作。在每個卷積層操作完成之后,還需要做些額外的數(shù)據(jù)處理ReLU,下圖是ReLU的數(shù)學表述與曲線

對比一下,ReLU操作之前與操作之后的Feature Map輸出

全連接層是傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)的多層感知器(MLP),通過激活函數(shù)實現(xiàn)到最終輸出層,全連接層是要對該層所有神經(jīng)元,鏈接到下個層每個神經(jīng)元,全連接層的目的是實現(xiàn)分類輸出到最終的輸出層。傳統(tǒng)的MLP網(wǎng)絡(luò)結(jié)構(gòu)如下:

卷積神經(jīng)網(wǎng)絡(luò)相比傳統(tǒng)特征提取與模式識別方法,具有以下幾個方面的優(yōu)勢
訓(xùn)練相對容易,無需復(fù)雜的特征提取過程,可以說降低了圖像識別的學習門檻,讓更多懂數(shù)據(jù)人找到了學習圖像處理與計算機視覺的捷徑。
卷積層通過共享權(quán)重參數(shù),相比傳統(tǒng)的神經(jīng)網(wǎng)絡(luò),減少參數(shù)個數(shù),對內(nèi)存要求降低
對圖像的扭曲、變形、像素遷移保持穩(wěn)定、具有一定不變性特征。
交流群
歡迎加入公眾號讀者群一起和同行交流,目前有SLAM、三維視覺、傳感器、自動駕駛、計算攝影、檢測、分割、識別、醫(yī)學影像、GAN、算法競賽等微信群(以后會逐漸細分),請掃描下面微信號加群,備注:”昵稱+學校/公司+研究方向“,例如:”張三 + 上海交大 + 視覺SLAM“。請按照格式備注,否則不予通過。添加成功后會根據(jù)研究方向邀請進入相關(guān)微信群。請勿在群內(nèi)發(fā)送廣告,否則會請出群,謝謝理解~

