<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          深度學(xué)習(xí)算法(第8期)----卷積神經(jīng)網(wǎng)絡(luò)通俗原理

          共 2873字,需瀏覽 6分鐘

           ·

          2020-08-03 23:31

          上一期,我們一起學(xué)習(xí)了深度學(xué)習(xí)中如何避免過擬合,

          深度學(xué)習(xí)三人行(第7期)----深度學(xué)習(xí)之避免過擬合(正則化)

          接下來我們一起學(xué)習(xí)下網(wǎng)紅網(wǎng)絡(luò)之卷積神經(jīng)網(wǎng)絡(luò)(CNN),我們多多交流,共同進(jìn)步。本期主要內(nèi)容如下:

          • 人的視覺機(jī)制

          • CNN之卷積層

          • CNN之卷積核

          • 特征圖的疊加

          • 小結(jié)

          盡管IBM的深藍(lán)計(jì)算機(jī)早在1996年就已經(jīng)打敗國(guó)際象棋世界冠軍Garry Kasparov。但是相當(dāng)一段時(shí)間內(nèi),計(jì)算機(jī)仍不能去識(shí)別一些簡(jiǎn)單的圖片或者口語(yǔ)識(shí)別。那么為什么這些對(duì)于我們看似簡(jiǎn)單的任務(wù),對(duì)于電腦就那么難呢?主要是這些認(rèn)知對(duì)于人類來說,發(fā)生在認(rèn)知領(lǐng)域內(nèi),包括視覺,聽覺和大腦內(nèi)的其他感知區(qū)域。當(dāng)這些信號(hào)到達(dá)我們的意識(shí)層面的時(shí)候,已經(jīng)被包裝成了高級(jí)的特征。比如,當(dāng)我們看到一只可愛的小狗的時(shí)候,我們已經(jīng)不能選擇不看到這個(gè)小狗,也不能不去注意它的可愛,所以當(dāng)我們意識(shí)到看到這個(gè)小狗的時(shí)候,它已經(jīng)被包裝了。顯然這不能解釋我們是怎么認(rèn)識(shí)小狗的。因此,對(duì)于這個(gè)問題,我們不能用主觀的意識(shí)經(jīng)驗(yàn),而是要從感知模塊出發(fā),研究其原理,才能明白是如何認(rèn)知的。

          卷積神經(jīng)網(wǎng)絡(luò)受人大腦視覺皮層原理的啟發(fā)而被發(fā)現(xiàn),并且在上個(gè)世紀(jì)80年代用在圖像識(shí)別中。由于最近幾年,計(jì)算機(jī)計(jì)算能力的大幅度提升,數(shù)據(jù)量的暴增以及前幾期我們學(xué)到的技術(shù)的發(fā)展。卷積神經(jīng)網(wǎng)絡(luò)在很多方面的表現(xiàn)已經(jīng)超過了人。比方說圖像搜索,自動(dòng)駕駛,自動(dòng)影視分類等,不僅于此,CNN已經(jīng)不再限制于圖像領(lǐng)域了,對(duì)于語(yǔ)音識(shí)別,自然語(yǔ)言處理等方面也有很優(yōu)秀的變現(xiàn)。當(dāng)然,這期,我們只關(guān)注圖像方面。



          一. 人的視覺機(jī)制

          David H. Hubel 和Torsten Wiesel在上個(gè)世紀(jì)50年代末在貓和猴子上面做了一系列實(shí)驗(yàn),在視覺皮層上方面得出了關(guān)鍵的結(jié)論,并在1981年獲得了諾貝爾生理學(xué)獎(jiǎng)。他們發(fā)現(xiàn),視覺皮層的很多神經(jīng)元都有一個(gè)小的局部感受野,也就意味著,神經(jīng)元只對(duì)有限區(qū)域的感受野上的刺激物做出反應(yīng)。如下圖,局部感受野就是圖中五個(gè)虛線的小圓圈。

          不同的感受野可以重疊,他們共同鋪滿整個(gè)視野。并且他們發(fā)現(xiàn),一些神經(jīng)元僅僅對(duì)橫線有反應(yīng),有一些神經(jīng)元對(duì)其他方向的線條有反應(yīng)。有些神經(jīng)元的感受野比較大,能夠整合比較低級(jí)的pattern。這個(gè)發(fā)現(xiàn)直接導(dǎo)致了一個(gè)觀點(diǎn),那就是高級(jí)別的神經(jīng)元的刺激是源于相鄰低級(jí)別神經(jīng)元的反應(yīng)。這種強(qiáng)有力的視覺構(gòu)架使得能夠去檢測(cè)視野中的復(fù)雜的pattern。

          這項(xiàng)視覺機(jī)制的研究在上個(gè)世紀(jì)80年代產(chǎn)生了感知機(jī),后面逐漸發(fā)展成了現(xiàn)在的卷積神經(jīng)網(wǎng)絡(luò)。1998年Yann LeCun等的一篇介紹LeNet-5構(gòu)架的論文是卷積神經(jīng)網(wǎng)絡(luò)發(fā)展中的一個(gè)里程碑。這個(gè)網(wǎng)絡(luò)構(gòu)架廣泛用于手寫字體識(shí)別,網(wǎng)絡(luò)中有一些是之前學(xué)習(xí)過的,比方說全連接層,sigmoid激活函數(shù)。也有一些我們即將學(xué)到的新的構(gòu)架如卷積層和池化層等。

          為什么不用簡(jiǎn)單的有全連接層的dnn網(wǎng)絡(luò)去識(shí)別圖片呢?當(dāng)然對(duì)于小的圖片還好,但是對(duì)于稍微大一點(diǎn)的圖片來說,這就是一個(gè)災(zāi)難。比方說對(duì)于一個(gè)100x100的圖片,那么共有10000個(gè)輸入,假如第一層有1000個(gè)神經(jīng)元(已經(jīng)被嚴(yán)重限制)的話,那么將會(huì)有1000萬個(gè)連接。然而,這僅僅是第一層。而CNN用部分連接的方式來解決這個(gè)問題。



          二. CNN之卷積層

          CNN中最重要的一部分就是卷積層,第一個(gè)卷積層并不是連接輸入圖像的所有像素,只是與感受野中的像素相連,如下圖:

          接著第二個(gè)卷積層上的神經(jīng)元連接第一個(gè)卷積層的一個(gè)局部區(qū)域。這種構(gòu)架使得網(wǎng)絡(luò)在第一層的時(shí)候?qū)W⒂趫D像的低級(jí)特征,而在下一層的時(shí)候整合一些高級(jí)別的特征,依次類推。這種構(gòu)架方式和人現(xiàn)實(shí)世界中視覺認(rèn)知方式類似,所以CNN在圖像識(shí)別領(lǐng)域表現(xiàn)優(yōu)異。在全連接層的DNN中,連接層是由一個(gè)長(zhǎng)條形式的神經(jīng)元組成,在training的時(shí)候需要將二維圖像展成一維的數(shù)據(jù)輸入給網(wǎng)絡(luò)。然而在CNN中,每一層都是二維的,所以輸入輸出的連接就比較方便了。

          那么在卷積神經(jīng)網(wǎng)絡(luò)中,神經(jīng)元是怎么連接的呢?一個(gè)在已知層的(i, j)位置上的神經(jīng)元和上一層的誰相連呢?,如下:

          其中f_h和f_w分別為感受野的高和寬。如下圖:

          正如圖中所示,為了保證輸入輸出的大小一致,通常會(huì)在輸入的邊界進(jìn)行0擴(kuò)充。

          當(dāng)然也通過跳躍感受野,使得一個(gè)小的卷積層連接一個(gè)大的輸入層也是可行的,如下圖:

          兩個(gè)連續(xù)感受野的舉例叫做stride,上圖中,一個(gè)5x7的輸入層連接了一個(gè)3x4的層。這里用了3x3的感受野,stride=2。這樣的話上層的(i,j)位置的神經(jīng)元是連接前一層的哪個(gè)位置呢?如下:

          其中s_h和s_w分別為水平和豎直的stride。



          三. CNN之卷積核

          一個(gè)神經(jīng)元的權(quán)重可以看做是一個(gè)感受野大小的圖像,比如下圖:

          上圖顯示了兩個(gè)可能的權(quán)重叫做過濾器,也稱作卷積核。左邊的卷積核可以看成一個(gè)豎直的線條,神經(jīng)元用這些權(quán)重的時(shí)候,將會(huì)重點(diǎn)關(guān)注豎線條部分,如左上圖得到的特征圖1,對(duì)豎線條有增強(qiáng)作用。而右邊的卷積核可以看作是橫線條,重點(diǎn)關(guān)注橫線條區(qū)域,如有上圖的特征圖2,對(duì)橫線條有增強(qiáng)左右。因此一層神經(jīng)元用同一個(gè)卷積核,將得到一個(gè)特征圖,該特征圖將增強(qiáng)與卷積核相似的區(qū)域。在訓(xùn)練的時(shí)候,CNN去尋找最有用的卷積核,并且通過不同的組合得到更復(fù)雜的pattern。



          四. 特征圖的疊加

          目前為止,我們明白了二維圖像的卷積層的原理,事實(shí)上,卷積層通常是有幾個(gè)尺寸一樣的特征圖組合而成,因此更為精確的展示如下3D圖:

          在一個(gè)特征圖中,所有神經(jīng)元共享著相同的參數(shù)(權(quán)重和偏置項(xiàng)),但是不同的特征圖有著不同的參數(shù)。神經(jīng)元的感受野和之前的是一樣的,但是它擴(kuò)展到了前面層的所有特征圖。簡(jiǎn)單的說,一個(gè)卷積層同時(shí)對(duì)輸入應(yīng)用多個(gè)卷積核。使之有能力在輸入層上檢測(cè)多個(gè)特征。此外,輸入圖像通常也是有多層組成,比如一張簡(jiǎn)單的彩色圖就包括RGB三層,灰度圖有一層,一些特殊圖像可能會(huì)有紅外紫外光等多層。注意到不同特征圖的相同位置的神經(jīng)元都是與上一層的相同位置的神經(jīng)元相連接的。用一個(gè)公式來表示就是:

          上公示中的z表示當(dāng)前卷積層中的第k張?zhí)卣鲌D中的i行j列的位置的輸出,f_h和f_w是為感受野的尺寸,s_w和s_h為stride的大小,f_n'為上一個(gè)卷積層的特征圖的個(gè)數(shù)。x為上一個(gè)卷積層中第k'張?zhí)卣鲌D中i'行j'列位置的輸出,b為當(dāng)前層中特征圖k的權(quán)重,w為當(dāng)前層的第k張?zhí)卣鲌D的神經(jīng)元與上一層中特征圖k'的u行v列的位置相連的權(quán)重值。如此,我們將特征圖進(jìn)行疊加相連。



          五. 小結(jié)

          今天,我們從人類視覺的感受機(jī)制出發(fā),一起學(xué)習(xí)了卷積層的原理,卷積核如何產(chǎn)生特征圖的以及特征圖是如何進(jìn)行疊加的相關(guān)知識(shí)。學(xué)習(xí)的路上,多謝有你。

          (如需更好的了解相關(guān)知識(shí),歡迎加入智能算法社區(qū),在“智能算法”公眾號(hào)發(fā)送“社區(qū)”,即可加入算法微信群和QQ群)

          瀏覽 45
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  日本少妇 ╳乄 黑人 | 老熟仑妇乱一区二区AV | 国产精品成人7777777 | 亚洲第一综合网站 | 五月色 亚洲 |