1

LSTM 备忘

 2 years ago
source link: https://blog.lucien.ink/archives/504/
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

LSTM 备忘

本文地址:https://blog.lucien.ink/archives/504
摘自邱锡鹏老师《神经网络与深度学习》的 6.6.1 节。

长短期记忆网络(Long Short-Term Memory Network,LSTM)[Gers et al., 2000; Hochreiter et al., 1997] 是循环神经网络的一个变体,可以有效地解决简单循环神经网络的梯度爆炸或消失问题。

1. 新的内部状态

LSTM 网络引入一个新的内部状态(internal state) ct∈RD 专门进行线性的循环信息传递,同时(非线性地)输出信息给隐藏层的外部状态 ht∈RD。内部状态 ct 通过下面公式计算:

(6.51)ct=ft⊙ct−1+it⊙c~t(6.52)ht=ot⊙tanh⁡(ct)

其中 ft∈[0,1]D、it∈[0,1]D 和 ot∈[0,1]D 为三个门(gate)来控制信息传递的路径;⊙ 为向量元素乘积;ct−1 为上一时刻的记忆单元;c~t∈RD 是通过非线性函数得到的候选状态

(6.53)c~t=tanh⁡(Wcxt+Ucht−1+bc)

在每个时刻 t,LSTM 网络的内部状态 ct 记录了到当前时刻为止的历史信息。

2. 门控机制

在数字电路中,(gate)为一个二值变量 0,1,0 代表关闭状态,不许任何信息通过;1 代表开放状态,允许所有信息通过。

LSTM 网络引入门控机制(Gating Mechanism)来控制信息传递的路径。公式(6.51)和公式(6.52)中三个“门”分别为输入门 it、遗忘门 ft 和输出门 ot。这三个门的作用为:

  1. 遗忘门 ft 控制上一时刻的内部状态 ct−1 需要遗忘多少信息。
  2. 输入门 it 控制当前时刻的候选状态 c~t 有多少信息需要保存。
  3. 输出门 ot 控制当前时刻的内部状态 ct 有多少信息需要输出给外部状态 ht。

当 f=0,i=1 时,记忆单元将历史信息清空,并将候选状态向量 c~t 写入。但此时记忆单元 ct 依然和上一时刻的历史信息相关。当 ft=1,it=0 时,记忆单元将复制上一时刻的内容,不写入新的信息。

LSTM 网络中的“门”是一种“软”门,取值在 (0,1) 之间,表示以一定的比例允许信息通过。三个门的计算方式为:

(6.54)it=σ(Wixt+Uiht−1+bi)(6.55)ft=σ(Wfxt+Ufht−1+bf)(6.56)ot=σ(Woxt+Uoht−1+bo)

其中 σ(⋅) 为 Logistic 函数,其输出区间为 (0,1),xt 为当前时刻的输入,ht−1 为上一时刻的外部状态。

循环神经网络中的隐状态 h 存储了历史信息,可以看作一种记忆(Memory)。在简单循环网络中,隐状态每个时刻都会被重写,因此可以看作一种短期记忆(Short-Term Memory)。在神经网络中,长期记忆(Long-Term Memory)可以看作网络参数,隐含了从训练数据中学到的经验,其更新周期要远远慢于短期记忆。而在 LSTM 网络中,记忆单元 c 可以在某个时刻捕捉到某个关键信息,并有能力将此关键信息保存一定的时间间隔。记忆单元 c 中保存信息的生命周期要长于短期记忆 h,但又远远短于长期记忆,因此称为长短期记忆(Long Short-Term Memory)。

一般在深度网络参数学习时,参数初始化的值一般都比较小。但是在训 练 LSTM 网络时,过小的值会使得遗忘门的值比较小。这意味着前一时刻的信息大部分都丢失了,这样网络很难捕捉到长距离的依赖信息。并且相邻时间间隔的梯度会非常小,这会导致梯度弥散问题。因此遗忘的参数初始值一般都设得比较大,其偏置向量 bf 设为 1 或 2。

最后修改:2020 年 06 月 02 日 11 : 40 PM
谢谢老板!

About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK