1、C4.5机器学习中,决策树是一个预测模型;他代表的是对象属性与对象值之间的一种映射关系。树中每个节点表示某个对象,而每个分叉路径则代表的某个可能的 属性值,而每个叶结点则对应从根节点到该叶节点所经历的路径所表示的对象的值。决策树仅有单一输出,若欲有复数输出,可以建立独立的决策树以处理不同输 出。...
分类:
其他好文 时间:
2014-07-22 22:49:55
阅读次数:
228
word2vec 是 Google 于 2013 年开源推出的一个用于获取 word vector 的工具包,它简单、高效,因此引起了很多人的关注。由于 word2vec 的作者 Tomas Mikolov 在两篇相关的论文 [3,4] 中并没有谈及太多算法细节,因而在一定程度上增加了这个工具包的神秘感。一些按捺不住的人于是选择了通过解剖源代码的方式来一窥究竟,出于好奇,我也成为了他们中的一员。读完代码后,觉得收获颇多,整理成文,给有需要的朋友参考。...
分类:
其他好文 时间:
2014-07-19 23:42:39
阅读次数:
363
word2vec 是 Google 于 2013 年开源推出的一个用于获取 word vector 的工具包,它简单、高效,因此引起了很多人的关注。由于 word2vec 的作者 Tomas Mikolov 在两篇相关的论文 [3,4] 中并没有谈及太多算法细节,因而在一定程度上增加了这个工具包的神秘感。一些按捺不住的人于是选择了通过解剖源代码的方式来一窥究竟,出于好奇,我也成为了他们中的一员。读完代码后,觉得收获颇多,整理成文,给有需要的朋友参考。...
分类:
其他好文 时间:
2014-07-19 23:41:39
阅读次数:
425
1:算法简单描述
给定训练数据样本和标签,对于某测试的一个样本数据,选择距离其最近的k个训练样本,这k个训练样本中所属类别最多的类即为该测试样本的预测标签。简称kNN。通常k是不大于20的整数,这里的距离一般是欧式距离。
2:python代码实现
创建一个kNN.py文件,将核心代码放在里面了。
(1) 创建数据
#创造数据集
def createDataSet():
...
分类:
其他好文 时间:
2014-07-19 23:24:39
阅读次数:
300
word2vec 是 Google 于 2013 年开源推出的一个用于获取 word vector 的工具包,它简单、高效,因此引起了很多人的关注。由于 word2vec 的作者 Tomas Mikolov 在两篇相关的论文 [3,4] 中并没有谈及太多算法细节,因而在一定程度上增加了这个工具包的神秘感。一些按捺不住的人于是选择了通过解剖源代码的方式来一窥究竟,出于好奇,我也成为了他们中的一员。读完代码后,觉得收获颇多,整理成文,给有需要的朋友参考。...
分类:
其他好文 时间:
2014-07-19 23:13:39
阅读次数:
301
word2vec 是 Google 于 2013 年开源推出的一个用于获取 word vector 的工具包,它简单、高效,因此引起了很多人的关注。由于 word2vec 的作者 Tomas Mikolov 在两篇相关的论文 [3,4] 中并没有谈及太多算法细节,因而在一定程度上增加了这个工具包的神秘感。一些按捺不住的人于是选择了通过解剖源代码的方式来一窥究竟,出于好奇,我也成为了他们中的一员。读完代码后,觉得收获颇多,整理成文,给有需要的朋友参考。...
分类:
其他好文 时间:
2014-07-19 23:12:39
阅读次数:
332
机器学习书籍资料推荐本文为转载,源地址为:http://blog.chinaunix.net/uid-10314004-id-3594337.html机器学习的资料较多,初学者可能会不知道怎样去有效的学习,所以对这方面的资料进行了一个...
分类:
其他好文 时间:
2014-07-19 23:11:51
阅读次数:
283
Accuracy不是评估分类器的有效性的唯一度量。另外两个有用的指标是precision和recall。这两个度量可提供二元分类器的性能特征的更多视角。
分类器的 Precision
Precision度量一个分类器的正确性。较高的精确度意味着更少的误报,而较低精度意味着更多的误报。这是经常与recall相反,作为一种简单的方法来提高精度,以减少召回。
分类器的 Re...
分类:
其他好文 时间:
2014-07-19 11:26:04
阅读次数:
1829
当你的分类模型有数百个或数千个特征,由于是文本分类的情况下,许多(如果不是大多数)的特点是低信息量的,这是一个不错的选择。这些特征对所有类都是通用的,因此在分类过程中作出很小贡献。个别是无害的,但汇总的话,低信息量的特征会降低性能。
通过消除噪声数据给你的模型清晰度,这样就去除了低信息量特征。它可以把你从过拟合和维数灾难中救出来。当你只使用更高的信息特征,可以提高性能,同时也降低了模型的大小...
分类:
其他好文 时间:
2014-07-19 11:22:54
阅读次数:
507
C++与机器学习算法
尝试用最简单的语言描述机器学习算法。...
分类:
编程语言 时间:
2014-07-17 19:15:46
阅读次数:
379