社会网络分析(Social Network Analysis,SNA)逐步成为数据挖掘领域的又一新宠。SNA的本质是利用各样本间的关系(故也成为关系网络)来分析整体样本的群落现象,并分析出样本点在群落形成的作用以及群落间的关系。利用R语言中的igraph包实现SNA。...
分类:
编程语言 时间:
2015-01-03 15:56:31
阅读次数:
664
数据挖掘:
数据挖掘从字面上就已经很好理解了,就是从一堆数据中,挖掘出一些有用的信息来的过程。比如说,我们的搜索数据,如果某个地区大部分人都在搜索MH370,表示他们在关注这个事情。我们就可以推荐一些安全知识,飞机知识过去。同样的也可能会有蜡烛销售高潮,提前给他们提供便利。这个就是数据挖掘的工作内容。
数据挖掘这些书的主要内容,数据有多少种,什么是有效数据,数...
分类:
其他好文 时间:
2015-01-03 14:42:59
阅读次数:
471
http://www.cnblogs.com/chaosimple/p/3227271.html数据标准化(归一化)处理是数据挖掘的一项基础工作,不同评价指标往往具有不同的量纲和量纲单位,这样的情况会影响到数据分析的结果,为了消除指标之间的量纲影响,需要进行数据标准化处理,以解决数据指标之间的可比性...
分类:
其他好文 时间:
2015-01-03 14:33:32
阅读次数:
125
scikit-learn是一个用于机器学习的 Python 模块,建立在SciPy基础之上.主要特点:操作简单、高效的数据挖掘和数据分析无访问限制,在任何情况下可重新使用建立在NumPy、SciPy 和 matplotlib基础上使用商业开源协议——BSD许可证重要链接:官方源代码报告:https:...
分类:
其他好文 时间:
2015-01-03 14:31:43
阅读次数:
157
背景 支持向量机(SVM)背后的数学知识比较复杂,之前尝试过在网上搜索一些资料自学,但是效果不佳。所以,在我的数据挖掘工具箱中,一直不会使用SVM这个利器。最近,台大林轩田老师在Coursera上的机器学习技法课程上有很详细的讲授SVM的原理,所以机会难得,一定要好好把握这次机会,将SVM背后的原理...
分类:
其他好文 时间:
2015-01-02 22:25:56
阅读次数:
350
一、聚类:聚类也称之为自动分类,是一种无监督的学习方法。算法的原则是基于度量数据对象之间的相似性或相异性,将数据对象集划分为多个簇;相比较于分类技术,聚类只需要较少的专家知识(领域知识),就可以自动发掘数据集中的群组。
二、基本的聚类方法包括:
1、划分方法:该方法通常基于距离使用迭代重定位技术,通过将一个对象移入另外一个簇并更新簇心,典型的算法有K-均值算法和K-中心点算法(二者的主要区别在...
分类:
编程语言 时间:
2015-01-02 17:37:52
阅读次数:
193
新浪微博数据挖掘食谱之六: 元素篇 (提取微博元素)...
分类:
其他好文 时间:
2015-01-02 11:04:00
阅读次数:
172
新浪微博数据挖掘食谱之五: 保存篇 (json mongodb格式)...
分类:
数据库 时间:
2015-01-01 08:59:39
阅读次数:
350