与数据挖掘有关或者有帮助的R包和函数的集合。1、聚类常用的包: fpc,cluster,pvclust,mclust基于划分的方法: kmeans, pam, pamk, clara基于层次的方法: hclust, pvclust, agnes, diana基于模型的方法: mclust基于密度的方...
分类:
其他好文 时间:
2014-09-10 00:13:09
阅读次数:
297
入门:数据挖掘入门的书籍,中文的大体有这些:JiaweiHan的《数据挖掘概念与技术》IanH.Witten/EibeFrank的《数据挖掘实用机器学习技术》TomMitchell的《机器学习》TOBYSEGARAN的《集体智慧编程》AnandRajaraman的《大数据》Pang-NingTan的...
分类:
其他好文 时间:
2014-09-09 22:55:09
阅读次数:
405
决策树是对数据进行分类,以此达到预測的目的。该决策树方法先依据训练集数据形成决策树,假设该树不能对全部对象给出正确的分类,那么选择一些例外添?到训练集数据中,反复该过程一直到形成正确的决策集。决策树代表着决策集的树形结构。决策树由决策结点、分支和叶子组成。决策树中最上面的结点为根结点,每一个分支是一...
分类:
其他好文 时间:
2014-09-09 17:44:29
阅读次数:
215
Python 批量获取Google用户动态 (分页)...
分类:
编程语言 时间:
2014-09-07 09:51:35
阅读次数:
624
对于PageRank算法,维基百科和网上很多大牛的博客已经讲得很详细了,这里附上一个自己写的PageRank算法C++实现版本...
分类:
编程语言 时间:
2014-09-05 18:12:41
阅读次数:
192
Python 获取Google+特定用户最新动态...
分类:
编程语言 时间:
2014-09-04 08:28:08
阅读次数:
281
虚拟变量 ( Dummy Variables) 又称虚设变量、名义变量或哑变量,用以反映质的属性的一个人工变量,是量化了的自变量,通常取值为0或1。引入哑变量可使线形回归模型变得更复杂,但对问题描述更简明,一个方程能达到俩个方程的作用,而且接近现实。...
分类:
其他好文 时间:
2014-09-04 01:43:57
阅读次数:
547
下面是一些长篇的讨论,这里我把大数据的核心价值理解为核心商业价值。
“很多人还没搞清楚什么是PC互联网,移动互联网来了,我们还没搞清楚移动互联的时候,大数据时代又来了。”——马云卸任演讲
本文尝试从三大产业的角度将大数据的核心商业价值分类讨论。
首先例举一些大数据的典型应用,然后解释大数据的定义,最后总结大数据的价值。...
分类:
其他好文 时间:
2014-09-03 16:58:57
阅读次数:
416
先说一说问题,不知道大家有没有这样的经验,反正我是经常碰到。 举例1,某些网站每隔几天就发邮件给我,每次发的邮件内容都是一些我根本不感兴趣的东西,我不甚其扰,对其深恶痛绝。 举例2,添加具有某功能的一个msn机器人,每天都有几次突然蹦出一个窗口,推荐一堆我根本不想知道的内容,烦不烦啊, 我只好将你阻...
分类:
Web程序 时间:
2014-09-03 00:16:15
阅读次数:
477
当影响Y值的因素不唯一时,我们可以使用多元线性回归模型:...
分类:
其他好文 时间:
2014-09-02 01:35:34
阅读次数:
189