<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          強(qiáng)推 | 人人都能看懂的LSTM介紹及反向傳播算法推導(dǎo)(非常詳細(xì))

          共 2276字,需瀏覽 5分鐘

           ·

          2020-11-11 15:12

          ↑↑↑點(diǎn)擊上方藍(lán)字,回復(fù)資料,10個(gè)G的驚喜

          作者:陳楠?來源:知乎
          鏈接:https://zhuanlan.zhihu.com/p/83496936
          著作權(quán)歸作者所有,本文僅作學(xué)術(shù)分享,若侵權(quán),請聯(lián)系后臺刪文處理




          1.長短期記憶網(wǎng)絡(luò)LSTM





          LSTM(Long short-term memory)通過刻意的設(shè)計(jì)來避免長期依賴問題,是一種特殊的RNN。長時(shí)間記住信息實(shí)際上是 LSTM 的默認(rèn)行為,而不是需要努力學(xué)習(xí)的東西!

          所有遞歸神經(jīng)網(wǎng)絡(luò)都具有神經(jīng)網(wǎng)絡(luò)的鏈?zhǔn)街貜?fù)模塊。在標(biāo)準(zhǔn)的RNN中,這個(gè)重復(fù)模塊具有非常簡單的結(jié)構(gòu),例如只有單個(gè)tanh層,如下圖所示。

          圖1 RNN結(jié)構(gòu)圖

          LSTM具有同樣的結(jié)構(gòu),但是重復(fù)的模塊擁有不同的結(jié)構(gòu),如下圖所示。與RNN的單一神經(jīng)網(wǎng)絡(luò)層不同,這里有四個(gè)網(wǎng)絡(luò)層,并且以一種非常特殊的方式進(jìn)行交互。

          圖2 LSTM結(jié)構(gòu)圖


          ? 1.1 LSTM--遺忘門



          圖3 遺忘門

          LSTM 的第一步要決定從細(xì)胞狀態(tài)中舍棄哪些信息。這一決定由所謂“遺忘門層”的 S 形網(wǎng)絡(luò)層做出。它接收??和??,并且對細(xì)胞狀態(tài)??中的每一個(gè)數(shù)來說輸出值都介于 0 和 1 之間。1 表示“完全接受這個(gè)”,0 表示“完全忽略這個(gè)”。

          ? 1.2 LSTM--輸入門


          圖4 輸入門

          下一步就是要確定需要在細(xì)胞狀態(tài)中保存哪些新信息。這里分成兩部分。第一部分,一個(gè)所謂“輸入門層”的 S 形網(wǎng)絡(luò)層確定哪些信息需要更新。第二部分,一個(gè)??形網(wǎng)絡(luò)層創(chuàng)建一個(gè)新的備選值向量——??,可以用來添加到細(xì)胞狀態(tài)。在下一步中我們將上面的兩部分結(jié)合起來,產(chǎn)生對狀態(tài)的更新。


          ? 1.3 LSTM--細(xì)胞狀態(tài)更新



          圖5 細(xì)胞狀態(tài)更新

          現(xiàn)在更新舊的細(xì)胞狀態(tài)??更新到??。先前的步驟已經(jīng)決定要做什么,我們只需要照做就好。

          我們對舊的狀態(tài)乘以??,用來忘記我們決定忘記的事。然后我們加上??,這是新的候選值,根據(jù)我們對每個(gè)狀態(tài)決定的更新值按比例進(jìn)行縮放。

          ? 1.4 LSTM--輸出門


          圖6 輸出門

          最后,我們需要確定輸出值。輸出依賴于我們的細(xì)胞狀態(tài),但會(huì)是一個(gè)“過濾的”版本。首先我們運(yùn)行 S 形網(wǎng)絡(luò)層,用來確定細(xì)胞狀態(tài)中的哪些部分可以輸出。然后,我們把細(xì)胞狀態(tài)輸入 tanh(把數(shù)值調(diào)整到 ?1 和 1 之間)再和 S 形網(wǎng)絡(luò)層的輸出值相乘,部這樣我們就可以輸出想要輸出的分。





          2. LSTM的變種以及前向、反向傳播





          目前所描述的還只是一個(gè)相當(dāng)一般化的 LSTM 網(wǎng)絡(luò)。但并非所有 LSTM 網(wǎng)絡(luò)都和之前描述的一樣。事實(shí)上,幾乎所有文章都會(huì)改進(jìn) LSTM 網(wǎng)絡(luò)得到一個(gè)特定版本。差別是次要的,但有必要認(rèn)識一下這些變種。


          ? 2.1 帶有"窺視孔連接"的LSTM


          一個(gè)流行的 LSTM 變種由 Gers 和 Schmidhuber 提出,在 LSTM 的基礎(chǔ)上添加了一個(gè)“窺視孔連接”,這意味著我們可以讓門網(wǎng)絡(luò)層輸入細(xì)胞狀態(tài)。

          圖7 添加“窺視孔連接”的LSTM

          上圖中我們?yōu)樗虚T添加窺視孔,但許多論文只為部分門添加。為了更直觀的推導(dǎo)反向傳播算法,將上圖轉(zhuǎn)化為下圖:

          圖8 轉(zhuǎn)化后的窺視孔LSTM

          前向傳播:在t時(shí)刻的前向傳播公式為:


          反向傳播:對反向傳播算法了解不夠透徹的,請參考陳楠:反向傳播算法推導(dǎo)過程(非常詳細(xì)),這里有詳細(xì)的推導(dǎo)過程,本文將直接使用其結(jié)論。

          已知:??,求某個(gè)節(jié)點(diǎn)梯度時(shí),首先應(yīng)該找到該節(jié)點(diǎn)的輸出節(jié)點(diǎn),然后分別計(jì)算所有輸出節(jié)點(diǎn)的梯度乘以輸出節(jié)點(diǎn)對該節(jié)點(diǎn)的梯度,最后相加即可得到該節(jié)點(diǎn)的梯度。如計(jì)算??時(shí),找到??節(jié)點(diǎn)的所有輸出節(jié)點(diǎn)???,然后分別計(jì)算輸出節(jié)點(diǎn)的梯度(如??)與輸出節(jié)點(diǎn)對??的梯度的乘積(如??),最后相加即可得到節(jié)點(diǎn)??的梯度:


          同理可得t時(shí)刻其它節(jié)點(diǎn)的梯度:


          對參數(shù)的梯度:


          ? 2.2 GRU


          一個(gè)更有意思的 LSTM 變種稱為 Gated Recurrent Unit(GRU),由 Cho 等人提出。LSTM通過三個(gè)門函數(shù)輸入門、遺忘門和輸出門分別控制輸入值、記憶值和輸出值。而GRU中只有兩個(gè)門:更新門?和重置門??,如下圖所示。更新門用于控制前一時(shí)刻的狀態(tài)信息被帶入到當(dāng)前狀態(tài)中的程度,更新門的值越大說明前一時(shí)刻的狀態(tài)信息帶入越多;重置門控制前一時(shí)刻狀態(tài)有多少信息被寫入到當(dāng)前的候選集??上,重置門越小,前一狀態(tài)的信息被寫入的越少。這樣做使得 GRU 比標(biāo)準(zhǔn)的 LSTM 模型更簡單,因此正在變得流行起來。

          圖9 GRU

          為了更加直觀的推導(dǎo)反向傳播公式,將上圖轉(zhuǎn)化為如下形式:

          圖10 轉(zhuǎn)換后的GRU

          GRU的前向傳播:在t時(shí)刻的前向傳播公式為:


          GRU的反向傳播:t時(shí)刻其它節(jié)點(diǎn)的梯度:


          對參數(shù)的梯度:


          ? 2.3 遺忘門與輸入門相結(jié)合的LSTM



          另一個(gè)變種把遺忘和輸入門結(jié)合起來。同時(shí)確定要遺忘的信息和要添加的新信息,而不再是分開確定。當(dāng)輸入的時(shí)候才會(huì)遺忘,當(dāng)遺忘舊信息的時(shí)候才會(huì)輸入新數(shù)據(jù)。

          圖11 遺忘門與輸入門相結(jié)合的LSTM

          前向與反向算法與上述變種相同,這里不再做過多推導(dǎo)。
          參考資料:【翻譯】理解 LSTM 網(wǎng)絡(luò) - xuruilong100 - 博客園
          歡迎勾搭老胡↑↑↑

          自 學(xué) 機(jī) 器 學(xué) 習(xí) 十 誡

          眾所周知,YouTube是個(gè)學(xué)習(xí)網(wǎng)站

          2020年度最佳的23個(gè)的機(jī)器學(xué)習(xí)項(xiàng)目

          經(jīng)典教材《統(tǒng)計(jì)學(xué)習(xí)導(dǎo)論》Python版


          老鐵,三連支持一下,好嗎?↓↓↓

          瀏覽 71
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評論
          圖片
          表情
          推薦
          點(diǎn)贊
          評論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  精品欧美操屄网 | 欧美 日本 国产 | 亚洲色河| 影音先锋成人片 | 无码精品一区二区在线 |