学习率learning_rate: 学习率表示每次参数更新的幅度 1.表达式:Wn+1 = Wn - learning_rate * ▽ Wn+1:更新后的参数 Wn:当前参数 learning_rate:学习率 ▽:损失函数的梯度(导数) 也就是参数的更新向着梯度下降的方向 2.定义损失函数 lo ...
分类:
其他好文 时间:
2019-09-09 11:42:19
阅读次数:
241
在第二章中我们学习到感知机模型的相关知识, 感知机模型是当数据线性可分时,如何利用一个超平面区分两类不同的数据。 对于以上情况,支持向量机和感知机是非常相似的,两者的差别在于 损失函数的不同 。当线性不可分的情况下,SVM可以用 核函数 来实现对线性不可分的数据进行分类。 思维导图 硬间隔最大化和软 ...
分类:
其他好文 时间:
2019-09-07 22:11:59
阅读次数:
114
常用的损失函数有: 1.均方误差: tf.reduce_mean(tf.square(真实值 - 预测值)) 2.自定义损失函数: 3.交叉熵:tf.nn.softmax_cross_entropy_with_logits(lables = lables, logits = logits) 通过预测 ...
分类:
其他好文 时间:
2019-09-05 18:25:35
阅读次数:
101
torch.nn (1)用于搭建网络结构的序列容器:torch.nn.Sequential (2)线性层:torch.nn.Linear (3)激活函数:torch.nn.ReLU (4)损失函数:torch.nn.MSELoss(均方误差函数),troch.nn.L1Loss(平均绝对误差函数), ...
分类:
其他好文 时间:
2019-09-04 13:05:16
阅读次数:
122
Q:为什么会提及关于代价函数的理解? A:在 ML 中线性回归、逻辑回归等总都是绕不开代价函数。 理解代价函数:是什么?作用原理?为什么代价函数是这个? 1、代价函数是什么? 代价函数就是用于找到最优解的目的函数,这也是代价函数的作用。 损失函数(Loss Function )是定义在单个样本上的, ...
分类:
其他好文 时间:
2019-09-01 16:21:19
阅读次数:
98
1、GBDT模型介绍; 2、GBDT回归算法 3、GBDT分类算法 4、GBDT的损失函数 5、正则化 6、GBDT的梯度提升与梯度下降法的梯度下降的关系; 7、GBDT的优缺点 1、GBDT模型介绍; GBDT(Gradient Boosting Decision Tree) 又名:MART(Mu ...
分类:
其他好文 时间:
2019-09-01 14:45:08
阅读次数:
697
使用autograd来自动求导 在机器学习中,我们通常使用梯度下降来更新模型参数从而求解。损失函数关于模型参数的梯度指向一个可以降低损失函数值的方向,我们不断地沿着梯度的方向更新模型从而最小化损失函数。虽然梯度计算比较直观,但对于复杂的模型,例如多达数十层的神经网络,手动计算梯度非常困难。 为此MX ...
分类:
其他好文 时间:
2019-09-01 13:03:57
阅读次数:
121
@[TOC] "A pure L1 norm principal component analysis" 虽然没有完全弄清楚其中的数学内涵,但是觉得有趣,记录一下. 问题 众所周知,一般的PCA(论文中以$L_2 PCA$表示)利用二范数构造损失函数并求解,但是有一个问题就是会对异常值非常敏感. 所 ...
分类:
其他好文 时间:
2019-08-31 21:03:36
阅读次数:
59
今日完成 今天是做的demonstration 这一周主要做的是超参数(hyper parameter)搜寻,神经网络架构(architecture)调整,损失函数(loss function)调整 使用的架构是两层隐层,每层隐层十个节点 拟合效果不好,loss function下不去,最低只能到6 ...
分类:
其他好文 时间:
2019-08-30 19:11:40
阅读次数:
55
直观理解反向传播法 反向传播算法其实就是 链式求导法则 的应用。按照机器学习的通用套路,我们先确定神经网络的目标函数,然后用 随机梯度下降优化算法 去求目标函数最小值时的参数值。 反向传播算法 损失函数与正则化项 假设我们有一个固定样本集$\{(x^{(1)},y^{(1)}),···,(x^{(m ...
分类:
其他好文 时间:
2019-08-28 12:57:41
阅读次数:
96