K临近算法是基于实例的学习,使用算法的时候我们必须要有接近分类结果的实例训练样本数据。优点:精度高,对异常值不敏感缺点:时间复杂度和空间复杂度比较大。(如果训练样本数据集比较大,需要大量的空间来保存数据,并且需要待预测数据和训练样本数据集每条数据的距离,耗费时间。)无法给出任何数据的基础结构信息,因...
分类:
编程语言 时间:
2015-12-10 21:58:44
阅读次数:
362
提升方法(boosting)是一种常用的统计学习方法,应用广泛且有效。在分类问题中,它通过改变训练样本的权重,学习多个分类器,并将这些分类器进行线性组合,提高分类的性能。 本章首先介绍提升方法的思路和代表性的提升算法AdaBoost,然后通过训练误差分析探讨AdaBoost为什么能够提高学习精度,....
分类:
其他好文 时间:
2015-12-04 14:45:46
阅读次数:
287
一.Learning with Different Output Space Y二.Learning with Different Data Label yn监督式学习,每个训练样本都有对应的label,相当于每个x都有一个y对应非监督式学习,每个训练样本是没有label的,需要电脑自己划分,类似于...
分类:
其他好文 时间:
2015-11-09 01:37:31
阅读次数:
305
线性回归回归就是对已知公式的未知参数进行估计。比如已知公式是y=a?x+b,未知参数是a和b,利用多真实的(x,y)训练数据对a和b的取值去自动估计。估计的方法是在给定训练样本点和已知的公式后,对于一个或多个未知参数,机器会自动枚举参数的所有可能取值,直到找到那个最符合样本点分布的参数(或参数组合)...
分类:
其他好文 时间:
2015-11-03 22:48:47
阅读次数:
389
Boosting思想基本思想:1) 先赋予每个训练样本相同的概率。2) 然后进行T次迭代,每次迭代后,对分类错误的样本加大权重(重采样),使得在下一次的迭代中更加关注这些样本。
分类:
其他好文 时间:
2015-11-01 22:39:17
阅读次数:
192
为什么要用参数估计?在贝叶斯方法中,要事先估计先验概率和条件密度函数,然后再设计分类器。但是多数情况下训练样本数总是太少,而且当用于表示特征维数较高时,对条件密度函数的估计就会计算复杂度较高。因此,如果我们已经事先知道参数的个数,并且先验知识允许我们能够把条件概率密度参数化,就可以使问题难度显著降低...
分类:
其他好文 时间:
2015-10-26 22:16:15
阅读次数:
166
首先下载训练集数据ex2Data.zip, 里面有50个训练样本,x为50位小朋友的年龄,年龄段为2岁至8岁,y为对应小朋友的身高,年龄和身高都可以表示为小数形式,现在的需求是根据这50位小朋友的样本数据预测3.5...
分类:
其他好文 时间:
2015-10-19 17:42:57
阅读次数:
340
1.原理 通过计算每个训练数据到待分类元组的距离,取和待分类元组距离最近的K个训练数据,K个数据中哪个类别的训练数据占多数,则待分类元组就属于哪个类别。 训练样本用n维数值属性描述。每个样本代表n维空间的一个点。所有的训练样本都放在n维模式空间中。给定一个样本,k-最临近分类法搜索模式空间,找出.....
分类:
编程语言 时间:
2015-10-14 23:33:15
阅读次数:
203
本文简单介绍了熵、信息增益的概念,以及如何使用信息增益对监督学习的训练样本进行评估,评估每个字段的信息量。 1、熵的介绍 在信息论里面,熵是对不确定性的测量。通俗来讲,熵就是衡量随机变量随机性的指标。比如一个随机变量X的状态有{1,2,...,n},如果X取1的概率为1,其他状态为0,那么这个随机....
分类:
其他好文 时间:
2015-10-13 15:15:10
阅读次数:
268
SVM1.普通SVM的分类函数可表示为:其中ai为待优化参数,物理意义即为支持向量样本权重,yi用来表示训练样本属性,正样本或者负样本,为计算内积的核函数,b为待优化参数。其优化目标函数为:其中||w||用来描述分界面到支持向量的宽度,越大,则分界面宽度越小。C用来描述惩罚因子,而 则是用来解决不可...
分类:
其他好文 时间:
2015-10-13 10:26:23
阅读次数:
227