<kbd id="afajh"><form id="afajh"></form></kbd><strong id="afajh"><dl id="afajh"></dl></strong>

<del id="afajh"><form id="afajh"></form></del>

<th id="afajh"><progress id="afajh"></progress></th>

<b id="afajh"><abbr id="afajh"></abbr></b>

<th id="afajh"><progress id="afajh"></progress></th>

人人都能看懂的 LSTM

共 1889字，需瀏覽 4分鐘

·

2020-10-17 22:08

來自 |?知乎? 作者 |?陳誠

鏈接 | https://zhuanlan.zhihu.com/p/32085405

編輯 | 深度學(xué)習(xí)這件小事公眾號

本文僅作學(xué)術(shù)交流，如有侵權(quán)，請聯(lián)系后臺刪除

這是在看了臺大李宏毅教授的深度學(xué)習(xí)視頻之后的一點總結(jié)和感想。看完介紹的第一部分RNN尤其LSTM的介紹之后，整個人醍醐灌頂。本篇博客就是對視頻的一些記錄加上了一些個人的思考。

???0. 從RNN說起

循環(huán)神經(jīng)網(wǎng)絡(luò)（Recurrent Neural Network，RNN）是一種用于處理序列數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò)。相比一般的神經(jīng)網(wǎng)絡(luò)來說，他能夠處理序列變化的數(shù)據(jù)。比如某個單詞的意思會因為上文提到的內(nèi)容不同而有不同的含義，RNN就能夠很好地解決這類問題。

???1. 普通RNN

先簡單介紹一下一般的RNN。

其主要形式如下圖所示（圖片均來自臺大李宏毅教授的PPT）：

這里：

?為當前狀態(tài)下數(shù)據(jù)的輸入，??表示接收到的上一個節(jié)點的輸入。

?為當前節(jié)點狀態(tài)下的輸出，而??為傳遞到下一個節(jié)點的輸出。

通過上圖的公式可以看到，輸出?h'?與?x?和?h?的值都相關(guān)。

而?y?則常常使用?h'?投入到一個線性層（主要是進行維度映射）然后使用softmax進行分類得到需要的數(shù)據(jù)。

對這里的y如何通過?h'?計算得到往往看具體模型的使用方式。

通過序列形式的輸入，我們能夠得到如下形式的RNN。

???2. LSTM

2.1 什么是LSTM

長短期記憶（Long short-term memory, LSTM）是一種特殊的RNN，主要是為了解決長序列訓(xùn)練過程中的梯度消失和梯度爆炸問題。簡單來說，就是相比普通的RNN，LSTM能夠在更長的序列中有更好的表現(xiàn)。

LSTM結(jié)構(gòu)（圖右）和普通RNN的主要輸入輸出區(qū)別如下所示。

相比RNN只有一個傳遞狀態(tài)??，LSTM有兩個傳輸狀態(tài)，一個??（cell state），和一個?（hidden state）。（Tips：RNN中的??對于LSTM中的??）

其中對于傳遞下去的??改變得很慢，通常輸出的??是上一個狀態(tài)傳過來的??加上一些數(shù)值。

而??則在不同節(jié)點下往往會有很大的區(qū)別。

2.2 深入LSTM結(jié)構(gòu)

下面具體對LSTM的內(nèi)部結(jié)構(gòu)來進行剖析。

首先使用LSTM的當前輸入?

?和上一個狀態(tài)傳遞下來的?

?拼接訓(xùn)練得到四個狀態(tài)。

其中，?

?，?

?，

?是由拼接向量乘以權(quán)重矩陣之后，再通過一個?

?激活函數(shù)轉(zhuǎn)換成0到1之間的數(shù)值，來作為一種門控狀態(tài)。而?

?則是將結(jié)果通過一個?

?激活函數(shù)將轉(zhuǎn)換成-1到1之間的值（這里使用?

?是因為這里是將其做為輸入數(shù)據(jù)，而不是門控信號）。

下面開始進一步介紹這四個狀態(tài)在LSTM內(nèi)部的使用。（敲黑板）

?是Hadamard Product，也就是操作矩陣中對應(yīng)的元素相乘，因此要求兩個相乘矩陣是同型的。?

?則代表進行矩陣加法。

LSTM內(nèi)部主要有三個階段：

1. 忘記階段。這個階段主要是對上一個節(jié)點傳進來的輸入進行選擇性忘記。簡單來說就是會 “忘記不重要的，記住重要的”。

具體來說是通過計算得到的?

?（f表示forget）來作為忘記門控，來控制上一個狀態(tài)的?

?哪些需要留哪些需要忘。

2. 選擇記憶階段。這個階段將這個階段的輸入有選擇性地進行“記憶”。主要是會對輸入?

?進行選擇記憶。哪些重要則著重記錄下來，哪些不重要，則少記一些。當前的輸入內(nèi)容由前面計算得到的?

?表示。而選擇的門控信號則是由?

?（i代表information）來進行控制。

將上面兩步得到的結(jié)果相加，即可得到傳輸給下一個狀態(tài)的??。也就是上圖中的第一個公式。

3. 輸出階段。這個階段將決定哪些將會被當成當前狀態(tài)的輸出。主要是通過??來進行控制的。并且還對上一階段得到的??進行了放縮（通過一個tanh激活函數(shù)進行變化）。

與普通RNN類似，輸出??往往最終也是通過??變化得到。

???3. 總結(jié)

以上，就是LSTM的內(nèi)部結(jié)構(gòu)。通過門控狀態(tài)來控制傳輸狀態(tài)，記住需要長時間記憶的，忘記不重要的信息；而不像普通的RNN那樣只能夠“呆萌”地僅有一種記憶疊加方式。對很多需要“長期記憶”的任務(wù)來說，尤其好用。

但也因為引入了很多內(nèi)容，導(dǎo)致參數(shù)變多，也使得訓(xùn)練難度加大了很多。因此很多時候我們往往會使用效果和LSTM相當?shù)珔?shù)更少的GRU來構(gòu)建大訓(xùn)練量的模型。

轉(zhuǎn)自：AI有道

瀏覽 52

點贊

收藏

分享

舉報

評論

圖片

表情

人人都能看懂的LSTM

【深度學(xué)習(xí)】人人都能看懂的LSTM

熟悉深度學(xué)習(xí)的朋友知道，LSTM是一種RNN模型，可以方便地處理時間序列數(shù)據(jù)，在NLP等領(lǐng)域有廣泛應(yīng)用。在看了臺大李宏毅教授的深度學(xué)習(xí)視頻后，特別是介紹的第一部分RNN以及LSTM，整個人醍醐灌頂。本文就是對視頻的記錄加上了一些個人的思考。0. 從RNN說起循環(huán)神經(jīng)網(wǎng)絡(luò)（Recurrent Neur

人人都能看懂的DPO數(shù)學(xué)原理

一、DPO在做一件什么事在文章的開始，我們來思考一個問題：如果想讓你訓(xùn)練一個能聽得懂人類問題，并給出人類滿意答案的模型，你會怎么設(shè)計大致的訓(xùn)練步驟？一口吃成一個大胖子是困難的，所以不如讓我們循序漸進地來設(shè)計這個訓(xùn)練過程：首先，你的模型必須要有充足的知識儲備，以應(yīng)對你可能提出的任何問題其次，你的模型需

人人都能看懂的EM算法推導(dǎo)

數(shù)據(jù)派THU

人人都能看懂的Matplotlib繪圖原理

人人都能看懂的 Python 裝飾器入門教程！

人人都能看懂的 Python 裝飾器入門教程！

人人都能看懂的 Python 裝飾器入門教程！

菜鳥學(xué)Python

強推 | 人人都能看懂的LSTM介紹及反向傳播算法推導(dǎo)（非常詳細）

機器學(xué)習(xí)算法與Python實戰(zhàn)

小朋友都能看懂的 HTTPS

點贊

收藏

分享

舉報

<kbd id="afajh"><form id="afajh"></form></kbd><strong id="afajh"><dl id="afajh"></dl></strong>

<del id="afajh"><form id="afajh"></form></del>

<th id="afajh"><progress id="afajh"></progress></th>

<b id="afajh"><abbr id="afajh"></abbr></b>

<th id="afajh"><progress id="afajh"></progress></th>

色拍拍网站 | 亚洲优优色在线 | 淫色在线视频 | 日韩免费操逼 | 亚洲日本一级片 |