1. 梯度下降法介绍 1.1 梯度 在多元函数微分学中,我们都接触过梯度(Gradient)的概念。 回顾一下,什么是梯度? 梯度的本意是一个向量(矢量),表示某一函数在该点处的方向导数沿着该方向取得最大值,即函数在该点处沿着该方向(此梯度的方向)变化最快,变化率最大(为该梯度的模)。 这是百度百科 ...
分类:
其他好文 时间:
2019-12-03 21:51:04
阅读次数:
104
1.梯度下降的场景假设: 假如你想从山顶下山,但是迷雾重重,你看不清楚前方的路,假设你每一步走的距离是一样的,你想要尽快下山,那么你该怎么走? 这个问题就相当于梯度下降,每走一步,直接找坡度最大的方向,在步长一定的情况下,下降的高度是最多的,所以下山最快。 这里坡度最大的方向其实就是梯度下降的方向。 ...
分类:
其他好文 时间:
2019-11-30 14:06:02
阅读次数:
91
另外一种线性回归,它是利用矩阵求导的方式来实现梯度下降算法一样的效果。1. 矩阵的求导首先定义表示m×n的矩阵,那么对该矩阵进行求导可以用下式表示,可以看出求导后的矩阵仍然为m×n这里要用到矩阵迹的特性,trace. 对于一个n阶的方阵(n×n),它的迹(tr)为对角线元素之和:1. 对于一个实数,... ...
分类:
其他好文 时间:
2019-11-29 15:44:48
阅读次数:
82
梯度下降是线性回归的一种(Linear Regression),首先给出一个关于房屋的经典例子, 面积(feet2)房间个数价格(1000$) 21043400 16003330 24003369 14162232 30004540 ........ 上表中面积和房间个数是输入参数,价格是所要输出的... ...
分类:
其他好文 时间:
2019-11-29 15:40:37
阅读次数:
73
在Andrew Ng的机器学习课程里面,讲到使用梯度下降的时候应当进行特征缩放(Feature Scaling)。进行缩放后,多维特征将具有相近的尺度,这将帮助梯度下降算法更快地收敛。 为了解释为什么特征缩放会帮助梯度下降算法更快地收敛,Andrew给了两幅图来解释:Feature ScalingI... ...
分类:
其他好文 时间:
2019-11-29 10:45:09
阅读次数:
215
本文采用 正规方程 、 梯度下降 、 带有正则化的岭回归 三种方法对BOSTON房价数据集进行分析预测,比较三种方法之间的差异 正规方程求解方式回归系数 [[ 0.10843933 0.13470414 0.00828142 0.08736748 0.2274728 0.25791114 0.018 ...
分类:
其他好文 时间:
2019-11-27 23:11:20
阅读次数:
155
我们从上一篇博客中知道了关于单变量线性回归的相关问题,例如:什么是回归,什么是代价函数,什么是梯度下降法。 本节我们讲一下多变量线性回归。依然拿房价来举例,现在我们对房价模型增加更多的特征,例如房间数楼层等,构成一个含有多个变量的模型,模型中的特征为(x0 ,x1 ,...,xn )。 增添更多特征 ...
分类:
系统相关 时间:
2019-11-26 22:43:03
阅读次数:
154
优化目标函数:$L(\theta) = \mathbb{E}_{(x,y) \sim p_{data}} L(f(x, \theta), y)$ 找到平均损失最小的模型参数,也就是求解优化问题:$\theta^{ } = \mathop{\arg \min} L(\theta)$ 经典梯度下降 采用 ...
分类:
其他好文 时间:
2019-11-24 15:54:13
阅读次数:
86
原理 聚类、高维可视化、数据压缩、特征提取 自组织映射神经网络本质上是一个两层的神经网络,包含输入层和输出层(竞争层)输出层中神经元的个数通常是聚类的个数 训练时采用“竞争学习”方式,每个输入在输出层中找到一个和它最匹配的节点,称为激活节点。紧接着用随机梯度下降法更新激活节点的参数,同时,激活节点临 ...
分类:
其他好文 时间:
2019-11-24 15:45:03
阅读次数:
87
系列博客,原文在笔者所维护的github上:https://aka.ms/beginnerAI, 点击star加星不要吝啬,星越多笔者越努力。 第2章 神经网络中的三个基本概念 2.0 通俗地理解三大概念 这三大概念是:反向传播,梯度下降,损失函数。 神经网络训练的最基本的思想就是:先“猜”一个结果 ...
分类:
其他好文 时间:
2019-11-22 13:38:55
阅读次数:
76