一、随机梯度下降法基础 # 梯度中的每一项计算:,要计算所有样本(共 m 个); # 批量梯度下降法的思路:计算损失函数的梯度,找到优化损失函数的最近距离,或者称最直接的方向; # 批量梯度下降法的梯度计算:每一次都对数据集中的所有样本的所有数据进行计算; # 特点: # 计算每一个 theta 值 ...
分类:
其他好文 时间:
2018-06-06 15:29:22
阅读次数:
181
#coding:utf-8 #设损失函数 loss=(w+1)^2,令w初值是常数10.反向传播就是求最优w,即求最小loss对应的w值 #使用指数衰减学习率,在迭代初期得到较高的下降速度,可以在较小的训练轮数下取得更有效收敛度 import tensorflow as tf LEARNING_RA... ...
分类:
其他好文 时间:
2018-06-04 22:34:45
阅读次数:
271
使用Keras训练神经网络备忘录小书匠 深度学习 文章太长,放个目录:1.优化函数的选择2.损失函数的选择2.2常用的损失函数2.2自定义函数2.1实践2.2将损失函数自定义为网络层3.模型的保存3.1同时保持结构和权重3.2模型结构的保存3.3模型权重的保存3.5选择网络层载入4.训练历史的保存4... ...
分类:
其他好文 时间:
2018-06-04 22:30:49
阅读次数:
1202
来源:中国大学MOOC 损失函数有三种:均方误差、自定义、交叉熵 均方误差: ...
分类:
其他好文 时间:
2018-06-04 20:12:45
阅读次数:
166
1、异(加下划线是工程上的不同) (1)两者损失函数不一样 (2)LR无约束、SVM有约束 (3)SVM仅考虑支持向量。 (4)LR的可解释性更强,SVM先投影到更高维分类再投影到低维空间。 (5)SVM不能给出概率结果。 (6)SVM是自带有约束条件的正则,泛化能力比LR好。LR是无约束正则。 ( ...
分类:
其他好文 时间:
2018-06-03 17:36:07
阅读次数:
234
center loss来自ECCV2016的一篇论文:A Discriminative Feature Learning Approach for Deep Face Recognition。 论文链接:http://ydwen.github.io/papers/WenECCV16.pdf 代码链接 ...
分类:
其他好文 时间:
2018-05-25 21:11:07
阅读次数:
1976
Softmax交叉熵损失函数(Softmax cross-entropy loss)是作用于非归一化的输出结果只针对单个目标分类的计算损失。通过softmax函数将输出结果转化成概率分布,然后计算真值概率分布的损失: 输出:[ 1.16012561] 稀疏Softmax交叉熵损失函数(Sparse ...
分类:
其他好文 时间:
2018-05-25 21:05:23
阅读次数:
170
摘自《统计学习方法》 李航 第五章 决策树学习通常包括3个步骤:特征选择、决策树的生成、决策树的剪枝 决策树学习本质上是从训练集中归纳出一组分类规则。 决策树学习的损失函数通常是正则化的极大似然函数。 决策树的学习算法通常是采用启发式的方法,近似求解最优化问题 特征选择问题 特征选择在于选取对训练数 ...
分类:
其他好文 时间:
2018-05-23 00:01:55
阅读次数:
169
有时间近期学习一下。 调模型出现NAN的情况: https://github.com/lc222/MPCNN sentence similarity tensorflow 一个样例。 另外 之前在pair wise的损失函数(自己手写)时也出现过NAN。 个人感觉一个容易出现NAN的地方在于loss ...
分类:
数据库 时间:
2018-05-17 21:10:39
阅读次数:
279
梯度下降法(Gradient Descendent) 是机器学习的核心算法之一, 自动微分 则是梯度下降法的核心; 梯度下降法用于求损失函数的最优值,前面的文章中我们说过 梯度下降 是通过计算参数与损失函数的梯度并在梯度的方向不断迭代求得极值;但是在机器学习、深度学习中很多求导往往是很复杂的,手动使 ...
分类:
其他好文 时间:
2018-05-17 11:47:20
阅读次数:
176