LSTM 备忘

本文地址：https://blog.lucien.ink/archives/504
摘自邱锡鹏老师《神经网络与深度学习》的 6.6.1 节。

长短期记忆网络（Long Short-Term Memory Network，LSTM）[Gers et al., 2000; Hochreiter et al., 1997] 是循环神经网络的一个变体，可以有效地解决简单循环神经网络的梯度爆炸或消失问题。

1. 新的内部状态

LSTM 网络引入一个新的内部状态（internal state） ct∈RD 专门进行线性的循环信息传递，同时（非线性地）输出信息给隐藏层的外部状态 ht∈RD。内部状态 ct 通过下面公式计算：

(6.51)ct=ft⊙ct−1+it⊙c~t(6.52)ht=ot⊙tanh⁡(ct)

其中 ft∈[0,1]D、it∈[0,1]D 和 ot∈[0,1]D 为三个门（gate）来控制信息传递的路径；⊙ 为向量元素乘积；ct−1 为上一时刻的记忆单元；c~t∈RD 是通过非线性函数得到的候选状态：

(6.53)c~t=tanh⁡(Wcxt+Ucht−1+bc)

在每个时刻 t，LSTM 网络的内部状态 ct 记录了到当前时刻为止的历史信息。

2. 门控机制

在数字电路中，门（gate）为一个二值变量 0,1，0 代表关闭状态，不许任何信息通过；1 代表开放状态，允许所有信息通过。

LSTM 网络引入门控机制（Gating Mechanism）来控制信息传递的路径。公式（6.51）和公式（6.52）中三个“门”分别为输入门 it、遗忘门 ft 和输出门 ot。这三个门的作用为：

遗忘门 ft 控制上一时刻的内部状态 ct−1 需要遗忘多少信息。
输入门 it 控制当前时刻的候选状态 c~t 有多少信息需要保存。
输出门 ot 控制当前时刻的内部状态 ct 有多少信息需要输出给外部状态 ht。

当 f=0,i=1 时，记忆单元将历史信息清空，并将候选状态向量 c~t 写入。但此时记忆单元 ct 依然和上一时刻的历史信息相关。当 ft=1,it=0 时，记忆单元将复制上一时刻的内容，不写入新的信息。

LSTM 网络中的“门”是一种“软”门，取值在 (0,1) 之间，表示以一定的比例允许信息通过。三个门的计算方式为：

(6.54)it=σ(Wixt+Uiht−1+bi)(6.55)ft=σ(Wfxt+Ufht−1+bf)(6.56)ot=σ(Woxt+Uoht−1+bo)

其中 σ(⋅) 为 Logistic 函数，其输出区间为 (0,1)，xt 为当前时刻的输入，ht−1 为上一时刻的外部状态。

循环神经网络中的隐状态 h 存储了历史信息，可以看作一种记忆（Memory）。在简单循环网络中，隐状态每个时刻都会被重写，因此可以看作一种短期记忆（Short-Term Memory）。在神经网络中，长期记忆（Long-Term Memory）可以看作网络参数，隐含了从训练数据中学到的经验，其更新周期要远远慢于短期记忆。而在 LSTM 网络中，记忆单元 c 可以在某个时刻捕捉到某个关键信息，并有能力将此关键信息保存一定的时间间隔。记忆单元 c 中保存信息的生命周期要长于短期记忆 h，但又远远短于长期记忆，因此称为长短期记忆（Long Short-Term Memory）。

一般在深度网络参数学习时，参数初始化的值一般都比较小。但是在训练 LSTM 网络时，过小的值会使得遗忘门的值比较小。这意味着前一时刻的信息大部分都丢失了，这样网络很难捕捉到长距离的依赖信息。并且相邻时间间隔的梯度会非常小，这会导致梯度弥散问题。因此遗忘的参数初始值一般都设得比较大，其偏置向量 bf 设为 1 或 2。

最后修改：2020 年 06 月 02 日 11 : 40 PM

谢谢老板！

LSTM 备忘

LSTM 备忘

1. 新的内部状态

2. 门控机制

Recommend

Researchers figured out how the human brain makes memories

Apple’s 27-inch iMac disappears from its store with no fanfare or replacement

Debian 10 apt 使用阿里云镜像

百度与吉利深化战略合作

Everything Apple announced at its March 8 event

在 CentOS 8 中使用 KVM 安装 Windows 10

中文互联网上严肃讨论的消失：不同用户眼中的过去与未来

Fixing GCC's Implementation of memory_order_consume

Understanding continuous integration, delivery and deployment

加密货币未能帮助俄罗斯寡头规避制裁

About Joyk