<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          神經(jīng)網(wǎng)絡(luò)RNN圖解!

          共 1579字,需瀏覽 4分鐘

           ·

          2021-11-14 21:30

          點(diǎn)擊下方卡片,關(guān)注“新機(jī)器視覺”公眾號

          視覺/圖像重磅干貨,第一時(shí)間送達(dá)

          作者:zhenguo

          來源:Python與算法社區(qū)

          轉(zhuǎn)自:機(jī)器學(xué)習(xí)實(shí)驗(yàn)室


          神經(jīng)網(wǎng)絡(luò)是深度學(xué)習(xí)的載體,而神經(jīng)網(wǎng)絡(luò)模型中,最經(jīng)典非RNN模型所屬,盡管它不完美,但它具有學(xué)習(xí)歷史信息的能力。后面不管是encode-decode 框架,還是注意力模型,以及自注意力模型,以及更加強(qiáng)大的Bert模型家族,都是站在RNN的肩上,不斷演化、變強(qiáng)的。


          這篇文章,闡述了RNN的方方面面,包括模型結(jié)構(gòu),優(yōu)缺點(diǎn),RNN模型的幾種應(yīng)用,RNN常使用的激活函數(shù),RNN的缺陷,以及GRU,LSTM是如何試圖解決這些問題,RNN變體等。


          這篇文章最大特點(diǎn)是圖解版本,其次語言簡練,總結(jié)全面。

          概述

          傳統(tǒng)RNN的體系結(jié)構(gòu)。Recurrent neural networks,也稱為RNNs,是一類允許先前的輸出用作輸入,同時(shí)具有隱藏狀態(tài)的神經(jīng)網(wǎng)絡(luò)。它們通常如下所示:

          對于每一時(shí)步 , 激活函數(shù)   ,輸出  被表達(dá)為:

          這里  是時(shí)間維度網(wǎng)絡(luò)的共享權(quán)重系數(shù)

           是激活函數(shù)


          下表總結(jié)了典型RNN架構(gòu)的優(yōu)缺點(diǎn):

          優(yōu)點(diǎn)缺點(diǎn)
          處理任意長度的輸入計(jì)算速度慢
          模型形狀不隨輸入長度增加難以獲取很久以前的信息
          計(jì)算考慮了歷史信息無法考慮當(dāng)前狀態(tài)的任何未來輸入
          權(quán)重隨時(shí)間共享

          RNNs應(yīng)用

          RNN模型主要應(yīng)用于自然語言處理和語音識別領(lǐng)域。下表總結(jié)了不同的應(yīng)用:

          RNN 類型圖解例子
          1對1 

          傳統(tǒng)神經(jīng)網(wǎng)絡(luò)
          1對多

          音樂生成
          多對1

          情感分類
          多對多

          命名實(shí)體識別
          多對多

          機(jī)器翻譯

          損失函數(shù)

          對于RNN網(wǎng)絡(luò),所有時(shí)間步的損失函數(shù)  是根據(jù)每個(gè)時(shí)間步的損失定義的,如下所示:

          時(shí)間反向傳播

          在每個(gè)時(shí)間點(diǎn)進(jìn)行反向傳播。在時(shí)間步,損失相對于權(quán)重矩陣的偏導(dǎo)數(shù)表示如下:

          處理長短依賴

          常用激活函數(shù)

          RNN模塊中最常用的激活函數(shù)描述如下:

          SigmoidTanhRELU



          梯度消失/爆炸

          在RNN中經(jīng)常遇到梯度消失和爆炸現(xiàn)象。之所以會發(fā)生這種情況,是因?yàn)楹茈y捕捉到長期的依賴關(guān)系,因?yàn)槌朔ㄌ荻瓤梢噪S著層的數(shù)量呈指數(shù)遞減/遞增。

          梯度修剪

          梯度修剪是一種技術(shù),用于執(zhí)行反向傳播時(shí),有時(shí)遇到的梯度爆炸問題。通過限制梯度的最大值,這種現(xiàn)象在實(shí)踐中得以控制。


          門的類型

          為了解決消失梯度問題,在某些類型的RNN中使用特定的門,并且通常有明確的目的。它們通常標(biāo)注為,等于:

          其中,是特定于門的系數(shù),是sigmoid函數(shù)。主要內(nèi)容總結(jié)如下表:

          門的種類作用應(yīng)用
          更新門 過去對現(xiàn)在有多重要?GRU, LSTM
          關(guān)聯(lián)門 丟棄過去信息?GRU, LSTM
          遺忘門 是不是擦除一個(gè)單元?LSTM
          輸出門 暴露一個(gè)門的多少?LSTM

          GRU/LSTM

          Gated Recurrent Unit(GRU)和長-短期記憶單元(LSTM)處理傳統(tǒng)RNNs遇到的消失梯度問題,LSTM是GRU的推廣。下表總結(jié)了每種結(jié)構(gòu)的特征方程:


          注:符號表示兩個(gè)向量之間按元素相乘。

          RNN的變體

          下表總結(jié)了其他常用的RNN模型:

          Bidirectional (BRNN)Deep (DRNN)


          參考文獻(xiàn):


          https://stanford.edu/~shervine/teaching/cs-230/cheatsheet-recurrent-neural-networks

          —版權(quán)聲明—

          僅用于學(xué)術(shù)分享,版權(quán)屬于原作者。

          若有侵權(quán),請聯(lián)系微信號:yiyang-sy 刪除或修改!


          —THE END—
          瀏覽 53
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評論
          圖片
          表情
          推薦
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  蜜桃视频网 | 一级国产黄片 | av最新版天堂资源在线 | 国产免看一级a一片成人aⅴ | 无码中文字幕在线观看 |