1 统计模式识别 图像-增强图像-特征提取-分类 训练样本-有规则的学习-误差检测-改进规则-分类 1.1 决策理论方法 ①线性判别 将待分类图像X投影到N个提取的特征上,形成Y向量,系数向量为W,判别函数D(X)= Y’W 通过分别计算i、j两类的D(X),比较大小,判断类别。Di(X)-Dj(X ...
分类:
其他好文 时间:
2017-04-20 22:43:32
阅读次数:
155
在自然语言处理中,经常要计算单词序列(句子)出现的概率估计。我们知道,算法在训练时,语料库不可能包含所有可能出现的序列。 因此,为了防止对训练样本中未出现的新序列概率估计值为零,人们发明了好多改善估计新序列出现概率的算法,即数据平滑算法。 Laplace 法则 最简单的算法是Laplace法则,思路 ...
分类:
编程语言 时间:
2017-03-26 21:11:59
阅读次数:
402
在训练图像识别的深度神经网络时,使用大量更多的训练数据,可能会使网络得到更好的性能,例如提高网络的分类准确率,防止过拟合等。获取更多的训练样本其实是很好的想法。不幸的是,这个方法的代价很大,在实践中常常是很难达到的。不过还有一种方法能够获得类似的效果,那就是人为扩展训练数据(Artificially ...
分类:
其他好文 时间:
2017-03-17 17:39:59
阅读次数:
368
一、如何学习大规模数据集? 在训练样本集很大的情况下,我们可以先取一小部分样本学习模型,比如m=1000,然后画出对应的学习曲线。如果根据学习曲线发现模型属于高偏差,则应在现有样本上继续调整模型,具体调整策略参见第六节的高偏差时模型如何调整;如果发现模型属于高方差,则可以增加训练样本集。 二、随机梯 ...
分类:
系统相关 时间:
2017-03-06 14:33:41
阅读次数:
177
提升方法(boosting)详解 提升方法(boosting)是一种常用的统计学习方法,应用广泛且有效。在分类问题中,它通过改变训练样本的权重,学习多个分类器,并将这些分类器进行线性组合,提高分类的性能。 本章首先介绍提升方法的思路和代表性的提升算法AdaBoost,然后通过训练误差分析探讨AdaB ...
分类:
其他好文 时间:
2017-02-15 00:44:41
阅读次数:
138
我们使用一些传统的监督学习方法做分类的时候,往往是训练样本规模越大,分类的效果就越好。但是在现实生活的很多场景中,标记样本的获取是比较困难的,这需要领域内的专家来进行人工标注,所花费的时间成本和经济成本都是很大的。而且,如果训练样本的规模过于庞大,训练的时间花费也会比较多。那么有没有办法,能够使用较 ...
分类:
其他好文 时间:
2017-01-15 19:22:36
阅读次数:
189
(上接第二章) 2.3 分类算法:朴素贝叶斯 2.3.1 贝叶斯公式推导(略) 分类的流程: 第一阶段:训练数据生成训练样本集:TF-IDF 第二阶段:对每个类别计算p(yi)。 第三个阶段:对每个特征属性计算所有划分的条件概率 第四个阶段:对每个类别计算P(x|yi)P(yi)。 第五个阶段:以P ...
分类:
编程语言 时间:
2016-12-29 19:24:43
阅读次数:
242
注:最近开始学习《人工智能》选修课,老师提纲挈领的介绍了一番,听完课只了解了个大概,剩下的细节只能自己继续摸索。 从本质上讲:机器学习就是一个模型对外界的刺激(训练样本)做出反应,趋利避害(评价标准)。 1. 什么是逻辑回归? 许多人对线性回归都比较熟悉,但知道逻辑回归的人可能就要少的多。从大的类别 ...
分类:
其他好文 时间:
2016-12-27 07:30:47
阅读次数:
276
一、mnist数据集 mnist是一个手写数字数据库,由Google实验室的Corinna Cortes和纽约大学柯朗研究院的Yann LeCun等人建立,它有60000个训练样本集和10000个测试样本集。mnist数据库官方网址为:http://yann.lecun.com/exdb/mnist ...
分类:
Windows程序 时间:
2016-12-15 20:16:31
阅读次数:
2937
监督学习:简单来说就是给定一定的训练样本(这里一定要注意,样本是既有数据,也有数据对应的结果),利用这个样本进行训练得到一个模型(可以说是一个函数),然后利用这个模型,将所有的输入映射为相应的输出,之后对输出进行简单的判断从而达到了分类(或者说回归)的问题。简单做一个区分,分类就是离散的数据,回归就 ...
分类:
其他好文 时间:
2016-12-12 23:05:02
阅读次数:
142