Chapter 1 :Classification
1.1 Gaussian-Mixture-Models
1.add_sample_class_gmm
功能:把一个训练样本添加到一个高斯混合模型的训练数据上。
2.classify_class_gmm
功能:通过一个高斯混合模型来计算一个特征向量的类。
3. clear_all_class_gmm
功能:清除所有高斯混合模型。...
分类:
其他好文 时间:
2015-08-28 17:51:25
阅读次数:
636
1:算法是简单的叙述说明 由于训练数据样本和标签,为测试数据的示例,从最近的距离k训练样本,此k练样本中所属类别最多的类即为该測试样本的预測标签。简称kNN。通常k是不大于20的整数,这里的距离通常是欧式距离。2:python代码实现创建一个kNN.py文件,将核心代码放在里面了。(1)创建数据#创...
分类:
其他好文 时间:
2015-08-21 21:16:21
阅读次数:
201
选取N幅同类目标物体的二维图像,并用上一篇博文的方法标注轮廓点,这样就得到训练样本集: 由于图像中目标物体的形状和位置存在较大偏差,因此所得到的数据并不具有仿射不变性,需要对其进行归一化处理。这里采用Procrustes分析方法对样本集中的所有形状集合进行归一化。形状和位置的载体还是样本点的空...
分类:
其他好文 时间:
2015-08-20 18:22:46
阅读次数:
11520
python中的sklean已经集成SVM算法,其中包含fit(), predict()等,我们只要输入训练样本和标记,以及模型参数,就可得到分类的结果。
关于这个的代码实现已有很多,SVC 参数详见:
详址:http://scikit-learn.org/stable/modules/generated/sklearn.svm.SVC.html#sklearn.svm.SVC
但对于libsvm之中实现的隶属度计算仍未找到相似讲解与示例,先给出源码如下。...
分类:
编程语言 时间:
2015-08-13 15:53:09
阅读次数:
160
训练样本大小选取的问题模型学习的准确度与数据样本大小有关,那么如何展示更多的样本与更好的准确度之间的关系呢?我们可以通过不断增加训练数据,直到模型准确度趋于稳定。这个过程能够很好让你了解,你的系统对样本大小及相应调整有多敏感。所以,训练样本首先不能太少,太少的数据不能代表数据的整体分布情况,而且容易过拟合。数据当然也不是越多越好,数据多到一定程度效果就不明显了。不过,这里假设数据是均匀分布增加的。然...
分类:
编程语言 时间:
2015-08-12 14:38:42
阅读次数:
200
VC维在有限的训练样本情况下,当样本数 n 固定时,此时学习机器的 VC 维越高学习机器的复杂性越高。VC 维反映了函数集的学习能力,VC 维越大则学习机器越复杂(容量越大)。
所谓的结构风险最小化就是在保证分类精度(经验风险)的同时,降低学习机器的 VC 维,可以使学习机器在整个样本集上的期望风险得到控制。
经验风险和实际风险之间的关系,注意引入这个原因是...
分类:
其他好文 时间:
2015-08-06 11:12:06
阅读次数:
165
一、批量学习 在监督学习的批量方法中,多层感知器的突出权值的调整在训练样本集合的所有N个例子都出现后进行,这构成了训练的一个回合。换句话说,批量学习的代价函数是由平均误差能量定义的。多层感知器的突触权值的调整是以回合-回合为基础的。相应地,学习曲线的一种实现方式是通过描绘平均误差能量对回合数的图形....
分类:
其他好文 时间:
2015-08-03 18:52:59
阅读次数:
427
尽管神经网络的研究和应用已经取得巨大成功,但在网络的开发设计方面至今仍没有一套完善的理论做指导,应用中采取的主要设计方法是,在充分了解待解决问题的基础上将经验与试探相结合,通过多次改进性试验,最终选出一个较好的设计方案。下面是在开发神经网络中常用的基本方法和实用技术。
(1) 网络信息容量与训练样本数
多层神经网络的分类能力与网络信息容量相关,如果网络的权值和阈值总数nw表征网络信息容量,研...
分类:
其他好文 时间:
2015-08-01 22:10:14
阅读次数:
755
k近邻是一种特别简单的有监督学习算法。给定一个带标签的训练数据集,从中选择与预测样本最近的k个训练样本,用这k个样本投票决定预测样本标签。
k近邻法三要素:距离度量,k值选择和分类决策规则为了提高k近邻搜索效率,比较常用的就是线性扫描和kd树(二叉树)
kd树构造:对每个维度的特征依次寻找中位数划分子集,并以此中位数作为节点
代码:
pass
kd树搜索代码:
主要就是舍弃当前兄弟节点与...
分类:
其他好文 时间:
2015-07-29 19:17:31
阅读次数:
125
这一课主要是从如何判断一个机器学习分类算法里拟合的参数是最佳参数引出函数间隔和几何间隔的定义。
1、函数间隔
假设假想函数,,那么可以知道y=1;反之则y=0
。所以当,我们可以很确定的认为y=1;当,可以很确定地认为y=0。所以在分类算法中,我们在训练样本时得到这两个结果的时候,就可以知道选择的参数能很好的拟合数据,能很有自信地认为我们的分类器是符合数据事实的。因此我们数据...
分类:
其他好文 时间:
2015-07-24 16:16:25
阅读次数:
3441