与数据挖掘有关或者有帮助的R包和函数的集合。1、聚类常用的包: fpc,cluster,pvclust,mclust基于划分的方法: kmeans, pam, pamk, clara基于层次的方法: hclust, pvclust, agnes, diana基于模型的方法: mclust基于密度的方...
分类:
其他好文 时间:
2014-09-10 00:13:09
阅读次数:
297
Weka算法Classifier-tree-RandomForest源码分析(二)代码实现...
分类:
其他好文 时间:
2014-09-09 23:05:59
阅读次数:
262
入门:数据挖掘入门的书籍,中文的大体有这些:JiaweiHan的《数据挖掘概念与技术》IanH.Witten/EibeFrank的《数据挖掘实用机器学习技术》TomMitchell的《机器学习》TOBYSEGARAN的《集体智慧编程》AnandRajaraman的《大数据》Pang-NingTan的...
分类:
其他好文 时间:
2014-09-09 22:55:09
阅读次数:
405
Apriori算法也属于无监督学习,它强调的是“从数据X中能够发现什么”。从大规模的数据集中寻找物品之间隐含关系被称为关联分析或者称为关联规则学习。这里的主要问题在于,寻找物品的不同组合是一项十分耗时的任务,所需的计算代价很高,蛮力搜索并不能解决这个问题。因此此处介绍使用Apriorio算法来解决上述问题。
1:简单概念描述
(1) 频繁项集:指经常出现在一块的物品的...
分类:
其他好文 时间:
2014-09-09 20:11:19
阅读次数:
313
scikit-learn机器学习库介绍(翻译tutorial)...
分类:
其他好文 时间:
2014-09-09 18:21:48
阅读次数:
261
前面的7次笔记介绍的都是分类问题,本次开始介绍聚类问题。分类和聚类的区别在于前者属于监督学习算法,已知样本的标签;后者属于无监督的学习,不知道样本的标签。下面我们来讲解最常用的kmeans算法。
1:kmeans算法
Kmeans中文称为k-均值,步骤为:(1)它事先选定k个聚类中心,(2)然后看每个样本点距离那个聚类中心最近,则该样本就属于该聚类中心。(3)求每个聚类中心的样本...
分类:
其他好文 时间:
2014-09-09 16:17:19
阅读次数:
234
在大学毕业前立志要读完的四本书:
《模式分类》
《人工智能——一种现代方法》
《一种新科学》
《神经网络与机器学习》
现在感觉到压力山大了……顺便占个坑,不定期过来更新书单。...
分类:
其他好文 时间:
2014-09-09 16:15:48
阅读次数:
140
Weka算法Classifier-tree-J48源码分析(四)总结...
分类:
其他好文 时间:
2014-09-09 13:20:08
阅读次数:
248
Weka算法Classifier-tree-RandomForest源码分析(一)算法...
分类:
其他好文 时间:
2014-09-09 13:03:08
阅读次数:
398
机器学习(2)之线性回归上一章介绍了梯度下降算法的线性回归,本章将介绍另外一种线性回归,它是利用矩阵求导的方式来实现梯度下降算法一样的效果。1. 矩阵的求导首先定义表示m×n的矩阵,那么对该矩阵进行求导可以用下式表示,可以看出求导后的矩阵仍然为m×n这里要用到矩阵迹的特性,trace. 对于一个n阶...
分类:
其他好文 时间:
2014-09-09 11:49:28
阅读次数:
182