均值是所有训练样本的均值,减去之后再进行训练会提高其速度和精度。 1、caffe下的均值 数据格式是二进制的binaryproto,作者提供了计算均值的文件compute_image_mean, 计算均值时调用: 生成的均值文件保存在mean_binaryproto。 2、python格式下的均值( ...
分类:
其他好文 时间:
2016-11-10 02:02:16
阅读次数:
253
%% 【Input】:s_train(输入样本数据,行数为样本数,列为维数);s_group(训练样本类别);s_sample(待判别数据)%% 【Output】:Cla(预测类别) function Cla = fun_panbie(s_train,s_group,s_sample,index ) ...
分类:
其他好文 时间:
2016-11-04 01:55:12
阅读次数:
307
分类器是数据挖掘中对样本进行分类的方法的统称,包含决策树、逻辑回归、朴素贝叶斯、神经网络等算法。 分类器的构造和实施步骤: 选定样本(正负样本),分成训练样本和测试样本两部分。 在训练样本上执行分类器算法,生成分类模型。 在测试样本上执行分类模型,生成预测结果。 根据预测结果,计算必要的评估指标,评 ...
分类:
其他好文 时间:
2016-10-26 13:58:07
阅读次数:
139
1。相对于容易过度拟合训练样本的人工神经网络,支持向量机对于未见过的测试样本具有更好的推广能力。 2.SVM更偏好解释数据的简单模型 二维空间中的直线,三维空间中的平面和更高维空间中的超平面。 3.SVM正是从线性可分情况下的最优分类面发展而来,主要思想就是寻找能够成功分开两类样本并且有最大分类间隔 ...
分类:
其他好文 时间:
2016-10-09 17:31:50
阅读次数:
194
支持向量机 1.间隔与支持向量 分类学习的基本想法就是基于训练集D在样本空间找到一个划分超平面,将不同的类别进行区分,我们的关键是如何能够找到一个合适的超平面(泛化性能最好) 下面的式子表示样本空间到超平面的距离。 若存在超平面将训练样本正确分类,则对(xi,yi),若yi = 1,则有wTx + ...
分类:
其他好文 时间:
2016-10-05 17:32:11
阅读次数:
115
一、损失函数和风险函数 损失函数(loss function)是度量模型一次预测的好坏,风险函数度量平均意义下模型预测好坏。 期望风险是模型关于联合分布的期望损失,经验风险是模型关于训练样本集的平均损失。根据大数定理,当样本容量N趋于无穷大时,经验风险Remp趋于期望风险Rexp。当用经验风险去预测 ...
分类:
其他好文 时间:
2016-09-28 15:47:12
阅读次数:
106
算法很简单,取训练样本每种类别的平均值当做聚类中心点,待分类的样本离哪个中心点近就归属于哪个聚类 。 在《白话大数据与机器学习》里使用了sklearn里的NearestCentroid来处理数据: 训练模型 clf = NearestCentroid().fit(x, y) 预测数据 clf.pre ...
分类:
其他好文 时间:
2016-09-17 23:32:54
阅读次数:
169
首先,假设你知道训练集和测试集的关系。简单来讲是我们要在训练集上学习一个模型,然后拿到测试集去用,效果好不好要根据测试集的错误率来衡量。但很多时候,我们只能假设测试集和训练集的是符合同一个数据分布的,但却拿不到真正的测试数据。这时候怎么在只看到训练错误率的情况下,去衡量测试错误率呢? 由于训练样本很 ...
分类:
其他好文 时间:
2016-09-14 01:55:10
阅读次数:
154
KNN的算法工作原理: 存在一个训练样本集合,样本集中每个数据都有确定的标签(分类),即我们知道样本集中每一数据与所属分类的对应关系。输人没有标签的新数据后,将新数据的每个特征与样本集中数据对应的特征进行比较,然后算法提取样本集中特征最相似数据(最近邻)的分类标签。一般来说,我们只选择样本数据集中前 ...
分类:
其他好文 时间:
2016-09-03 16:26:32
阅读次数:
106
支持向量机是一种二分类模型,它的基本思想就是基于训练集D在样本空间中找到一个划分超平面,将不同类别的样本分开。但是,能将训练样本分开的划分超平面可能有很多,因此,我们应该致力于找位于两类训练样本“正中间”的划分超平面,因为这样的划分超平面对训练样本局部扰动的容忍性最好。支持向量机学习算法主要有三种, ...
分类:
其他好文 时间:
2016-08-20 14:25:43
阅读次数:
811