cs231n spring 2017 lecture4 听课笔记

时间：2017-10-15 22:23:42 阅读：188 评论：0 收藏：0 [点我收藏+]

1. Backpropagation：沿着computational graph利用链式法则求导。每个神经元有两个输入x、y，一个输出z，好多层这种神经元连接起来，这时候已知?L/?z，可以求出?L/?x = ?L/?z * ?z/?x，?L/?y = ?L/?z * ?z/?y。靠这种方式可以计算出最终的loss function相对于最开始的输入的导数。

这种方法的好处是，每个神经元都是很简单的运算（比如加、减、乘、除、指数、sigmoid等），它们导数的解析式是很容易求解的，用链式法则连乘起来就得到了我们需要的导数。如果直接求的话会很复杂很难求。

2. Add(x, y)是gradient distributor，把后面神经元的导数反向传递给x和y。

Max(x, y)是gradient router，它只会反向传递给x、y中大的那一个。可以这么直观的理解，由于只有x、y中大的那个数被传递到后面的神经元对最后结果产生影响，所以在反向传递的时候，也只会评估x、y中大的那个数。

Mul(x, y)是gradient switcher，它把后面神经元的导数分别传递给x和y，传给x的部分乘以y，传给y的部分乘以x。

想想求导公式就明白了。

3. 对于一个输入x，两个输出y、z的神经元，反向传递求导的时候，是把从y和z两路反向传递过来的导数求和。

4. 如果x、y、z等元素都不是标量，而是向量，则求导全部都变成了雅克比矩阵。对于一个4096维输入，4096维输出的系统，雅克比大小为4096*4096，如果minibatch里100个采样，则雅克比变成了409600*409600大小，运算很麻烦。但如果知道输出的某个元素只和输入的某些元素相关，则求偏导的时候只有相关项有值，其他都是0，这个性质可以被用来加速计算。极端的情况，如果输入和输出一一对应，则雅克比是对角矩阵。

5. 深度学习框架（比如Caffe等）的API里，会定义不同的layer，每种layer就是搭神经网络的积木（也就是上文说的神经元节点），每种layer会有自己的forward()/backward()函数，分别用来正向的从输入求出输出，和反向的求loss funciton对这个节点输入的导数。

6. 神经网络，从函数的角度说就是复合函数，把简单函数一层层堆叠起来。例如线性函数f=Wx，则两层的神经网络可能是f=W₂max(0,W₁x)，三层的网络可能是f=W₃max(0, W₂max(0,W₁x))。直观地说，比如在物体分类的问题中，第一层网络训练出的权重可能是一个红色的车的template，而第二层网络的权重可能是不同的颜色，这样两层网络就实现了泛化预测各种颜色的车的目的。

7. 从生物学的角度看，sigmoid函数是非常有道理的，它意味着输入进来的信号不够强的时候输出为0，神经元没有被激活，足够强之后，神经元被激活从而产生输出。ReLU：f(x) = max(0, x)也是同样的想法。这些都是“激活函数”。所以深度学习中实际构造的神经元，通常是一个线性单元复合一个激活函数sigmoid(Wx+b)。

8. 虽然深度学习从脑科学得到了很多启发，但是我们要谨慎的把两者做直接类比，因为生物神经元要复杂的多。

cs231n spring 2017 lecture4 听课笔记

标签：链式 sub 三层运算生物节点 route 向量一个

原文地址：http://www.cnblogs.com/zonghaochen/p/7674324.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行