【NLP】RNN、LSTM、GRU

时间：2020-07-17 19:40:13 阅读：72 评论：0 收藏：0 [点我收藏+]

标签：解码 mda ash because dash 状态 block log detail

RNN

循环神经网络。像之前的CNN只能处理单独的输入，前一个输入与后一个输入没有关系。但例如NLP中，我们需要前后文的信息。所以RNN应运而生。

标准的RNN中，1）N input -- N output 2）权值共享，W、U、V每个都是一样的。

实际中，这一种结构无法解决所有问题。所以也有了以下变形：

1）输入序列 N，输出一个。例如文本情感分类

技术图片

2）输入序列M，输出序列N，不等长。

这种结构又叫做Encoder-Decoder，也可称为Seq2Seq模型。其结构原理是先编码后解码。左侧的RNN用来编码得到 C，再由右侧的RNN对 C 进行解码。

技术图片

其中得到 C 的方法有很多种：

技术图片

RNN的训练方法——BPTT

BPTT 即 Back-propagation through time 基于时间反向传播，本质还是BP算法，只不过要基于时间反向传播。

在最朴素的RNN，也即 N - N 的场景下：

技术图片

其中 X 是输入序列，S 是状态序列（记忆），X 是输入序列， O 是输出序列。下文中 O 以 E 代替，因为参考的博客中写的是E，方便截图公式：P

技术图片

RNN的公式如下：

技术图片

Z = V * S_t

技术图片

因为RNN中损失是累加的，所以总损失需要求和。

Just like we sum up the errors, we also sum up the gradients at each time step for one training example

例如：

技术图片

以第 3 时刻为例，对 V 求导（最简单，因为只依赖当前时刻，求导到 Z 就结束了，没有到 S）。其中 Z₃ = V * S₃

技术图片

对 W 求导（与对 U 求导类似），他们都依赖于前面的时刻，因为需要经过 S：

技术图片

然而 S₃ 又依赖于前一时刻的 S₂ 和 W，不能把 S₃ 当成简单的常数看待，需要继续打开链式法则：

技术图片

于是展开求和得：

技术图片

We sum up the contributions of each time step to the gradient. In other words, because $技术图片$ is used in every step up to the output we care about, we need to backpropagate gradients from $技术图片$ through the network all the way to $技术图片$ :