RNN和LSTM详解-CFANZ编程社区

RNN和LSTM详解

Recurrent Neural Networks(RNN)

1. 模型

在这里插入图片描述
$h_t = tanh[W_{hx}X_t + W_{hh}h_{t-1}+b_h]$
$z_t=f(W_{hy}h_t+b_z)$

$\frac{exp(2v)-1}{exp(2v)+1}$
$W_{hh},W_{xh},W_{hy}$ 都是可训练的权重矩阵。
$b_h,b_z$ 都是可训练的偏差向量。
$X_t$ 和 $z_t$ 分别是时间 $t$ 的输入和输出。

2.损失函数

$L_\tau(\theta) = \sum_{t\in\tau}L(y_t,z_t)$
这里的 $\tau$ 是输出序列。

3.不同形态的RNN

在这里插入图片描述
应用场景：

One-to-many: image captioning;
Many-to-one: text sentiment classification;
Many-to-many: machine translation.

4. 多层RNN

回想一下单层RNN：
$h_t = tanh[W_{hx}X_t + W_{hh}h_{t-1}+b_h]=tanh\begin{bmatrix}W\begin{pmatrix}X_t\\h_{t-1}\\1\end{pmatrix}\end{bmatrix}$

多层RNN是单层RNN堆叠而来的：
在这里插入图片描述

$h_t^l =tanh\begin{bmatrix}W\begin{pmatrix}h_t^{l-1}\\h_{t-1}\\1\end{pmatrix}\end{bmatrix}$

高层的隐含状态 $h_t^l$ 由老的状态 $h_{t-1}^l$ 和低层的隐含状态 $h_t^(l-1)$ 决定。

5. RNN存在的问题

普通RNN的一个显著缺点是，当序列长度很大时，RNN难以捕获序列数据中的长依赖项。这有时是梯度消失/爆炸造成的。
在下面的例子中，计算 $\frac{\partial L_\tau}{\partial h_1}$ 时，根据链式求导法则，我们需要计算 $\prod_{t=1}^3(\frac{\partial h_{t+1}}{\partial h_t})$ 。
在这里插入图片描述
如果序列很长，这个乘积将是许多雅可比矩阵的乘积，这通常会得到指数大或指数小的奇异值。

LSTM/GRU

0 条评论