Deep Learning Book 第十章--序列模型：循环和递归网络

时间：2016-05-06 15:26:07 阅读：512 评论：0 收藏：0 [点我收藏+]

标签：

10.1 计算图展开
a. 最简单形式： $s^{(t)}=f(s^{(t-1)};\theta)$ ， $s^{(t)}$ 表示系统状态。

图10.1
b. 系统状态为隐层单元：

h(t)=f(h(t?1),x(t);θ) $h^{(t)}=f(h^{(t-1)},x^{(t)};\theta)$ ，对应展开图：
技术分享

图10.2

10.2 RNN
RNN设计模式范例：

a. 下面的网络是在计算RNN的训练代价， $x$ 表示输入序列， $o$ 是输出， $y$ 是目标值， $L$ 是代价函数， $U、V、W$ 是对应权值矩阵。

图10.3
前向传播：

a(t)=b+Wh(t?1)+Ux(t) $a^{(t)}=b+Wh^{(t-1)}+Ux^{(t)}$

h(t)=tanh(a(t)) $h^{(t)}=tanh(a^{(t)})$

o(t)=c+Vh(t) $o^{(t)}=c+Vh^{(t)}$

y^(t)=softmax(o(t)) $\hat{y}^{(t)}=softmax(o^{(t)})$

输入序列和输出序列的长度相同。总代价为：
技术分享

时间复杂度

o(τ) $o(\tau)$ ，反向传播求梯度时需要用到前向传播的计算结果，所以空间复杂度也是

o(τ) $o(\tau)$ 。反向传播算法：BPTT（back-propagation through time）。

b. 另一种网络形式，输出和隐层节点之间存在循环关联，由于输出包含的历史信息较少，所以这种网络不够有效：

图10.4

c. 单一输出网络：

图10.5

10.2.2 RNN 梯度计算（BPTT）
首先看RNN网络中有哪些参数和节点，需要对所有节点求导数 $\nabla_NL$ 。
参数： $U,V,W,b,c$ ;
节点： $x^{(t)},h^{(t)},o^{(t)},L^{(t)}$ ;

a. 下面是一个有固定输入的RNN网络，例子是根据图像生成描述。

图10.9

b. 下面是条件RNN，区别于图10.3只能对条件分布建模，这里可以是任意分布。

图10.10

c. 典型的双向RNN。

图10.11

10.3 双向RNNs
如图10.11，分前向和后向RNN，扩展到二维图像上就需要四个RNNs，每个RNN代表一个方向，那么每个像素点对应的输出就包含该像素点周围的信息。

10.4 网络结构：编码-解码，序列-序列
输入序列与输出序列长度不一定相等，应用有：语音识别，机器翻译，机器问答。通常把RNN的输入称为“context”，记为C，它可以是矢量或者矢量序列 $X=(x^{(1)},x^{(2)},...,x^{(n)})$ .

图10.12
输入x，输出y，训练最大化

logP(y(1),y(2),...,y(ny)|x(1),x(2),...,x(nx)) $logP(y^{(1)},y^{(2)},...,y^{(n_y)}|x^{(1)},x^{(2)},...,x^{(n_x)})$

10.5 深度循环网络

Deep Learning Book 第十章--序列模型：循环和递归网络

标签：

原文地址：http://blog.csdn.net/lt2fish/article/details/51324212

踩

(0)

评论一句话评论（0）

分享档案

更多>

周排行