构建决策树的目的是对已有的数据进行分类,得到一个树状的分类规则,然后就可以拿这个规则对未知的数据进行分类预测。
决策树归纳是从有类标号的训练元祖中学习决策树。
决策树是一种类似于流程图的树结构,其中每个内部节点(非树叶结点)表示一个属性上的测试,每个分支代表该测试上的一个输出,而每个树叶结点(或终端结点)存放一个类标号。树的最顶层结点是根结点。一个典型的决策树如下图所示,...
分类:
其他好文 时间:
2014-12-31 11:24:56
阅读次数:
208
ID3使用信息增益作为属性选择度量。该度量基于香农在研究消息的值或”信息内容“的信息论方面的先驱工作。该结点N代表或存放分区D的元组。选择具有最高信息增益的属性作为结点N的分裂属性。该属性使结果分区中对元祖分类所需要的信息量最小,并反映这些分区中的最小随机性或”不纯性“。这种方法使得对一个对象分类所需要的期望测试数目最小,并确保找到一颗简单的(但不必是最简单的)树。...
分类:
编程语言 时间:
2014-12-31 11:22:42
阅读次数:
147
新浪微博数据挖掘食谱之四: 保存篇 (json text格式)...
分类:
Web程序 时间:
2014-12-31 07:38:15
阅读次数:
276
继续上一课最后的问题,当数据是非线性可分的时候需要把数据转化到 Z 空间(线性可分)才可以利用 SVM ,因此需要知道 Z 空间是什么。这节课解决了不用知道具体的 Z 空间就可以利用 SVM 进行分类。
最后,该课程介绍了如何因对过拟化的问题。思想跟十一课介绍的相同,就是设置一个限制条件。...
分类:
其他好文 时间:
2014-12-31 01:08:36
阅读次数:
191
展示如何用R处理稀疏矩阵和利用GLMNET包...
分类:
Web程序 时间:
2014-12-30 17:05:41
阅读次数:
1054
Classification And Regression Tree(CART)是一种很重要的机器学习算法,既可以用于创建分类树(Classification Tree),也可以用于创建回归树(Regression Tree),本文介绍了CART用于离散标签分类决策和连续特征回归时的原理。决策树创建过程分析了信息混乱度度量Gini指数、连续和离散特征的特殊处理、连续和离散特征共存时函数的特殊处理和后剪枝;用于回归时则介绍了回归树和模型树的原理、适用场景和创建过程。个人认为,回归树和模型树可以被看做“群落分类...
分类:
编程语言 时间:
2014-12-30 13:40:48
阅读次数:
767
R语言:利用相关性分析对复杂数据进行数据探索...
分类:
编程语言 时间:
2014-12-30 13:38:13
阅读次数:
300
用R语言将数据转换成 Vowpal Wabbit Format...
分类:
编程语言 时间:
2014-12-30 11:47:48
阅读次数:
226
原文:SSAS系列——【01】准备知识 关于SQL Server 产品,我从2004年就开始使用了,SQL Server 2K,2K5,2K8,到如今已经准6年了,说来惭愧,这六年来所涉及的内容都是在数据库引擎部分,最近有一个机会需要用到多维数据、数据挖掘技术,借此机会把自己的数据库的知识面扩充一下...
分类:
其他好文 时间:
2014-12-30 09:57:15
阅读次数:
202
新浪微博数据挖掘菜谱之三: 搜索篇 (selenium)...
分类:
其他好文 时间:
2014-12-30 07:04:37
阅读次数:
310