1.1.1 笛卡尔坐标系在二维空间中,笛卡尔坐标系被定义成两个坐标轴成直角相交并且用单位长度标出。水平轴称为x 轴,而垂直轴称为y 轴,两个轴的交点称为原点,如图1.1 所示。如图1.1所示,每个坐标轴端点的箭头表示它们在每个方向上无限延伸。假想有一张无限大的纸,上面有x 轴和y 轴,纸就表示 xy...
分类:
其他好文 时间:
2014-07-28 11:18:30
阅读次数:
485
在Eclipse中安装StatET插件
1.概述
众所周知,很多人进行数据挖掘最喜欢使用的语言是R语言,而可以选择的IDE确有很多种,例如Emacs + ESS,RStudio等等。
今天,我所写的是使用Eclipse + StatET来搭建R语言环境。
2.安装Eclipse
我使用的是Ubuntu13.10的系统,在 http://download.ec...
分类:
系统相关 时间:
2014-07-28 00:15:09
阅读次数:
385
算法简介:
K-Means算法是输入聚类个数k,以及包含n个数据对象的数据库,输出满足方差最小标准的k个聚类。并使得所获得的聚类满足:同一聚类中的对象相似度较高;而不同聚类中
对象相似度较小。
算法假设:
均方误差是计算群组分散度的最佳参数。
算法输入:
聚类个数k;...
分类:
其他好文 时间:
2014-07-28 00:03:39
阅读次数:
343
数据质量
数据挖掘使用的数据通常是为其他用途收集或者收集的时候还没有明确目的。因此数据常常不能在数据的源头控制质量。为了避免数据质量的问题,所以数据挖掘着眼于两个方面:数据质量问题的检测和纠正(数据清理);使用可以容忍低质量数据的算法。
测量和数据收集问题
完美的数据在实际中几乎是不存在的,对于存在的数据质量问题,我们先定义测量误差和数据收集错误,然后考虑测量误差的各种问题:噪声...
分类:
其他好文 时间:
2014-07-26 15:26:11
阅读次数:
235
机器学习与数据挖掘中的十大经典算法背景:top10算法的前期背景是吴教授在香港做了一个关于数据挖掘top10挑战的一个报告,会后有一名内地的教授提出了一个类似的想法。吴教授觉得非常好,开始着手解决这个事情。找了一系列的大牛(都是数据挖掘的大牛),都觉得想法很好,但是都不愿自己干。原因估计有一下几种:...
分类:
其他好文 时间:
2014-07-26 01:15:56
阅读次数:
248
今天在linux中打开Weka时,打开基因数据文件的时候出现如题所示的错误,说内存不足,需要设定一个更大的内存空间,只要执行以下命令sudo java -Xmx1024m -jar /usr/lib/R/library/RWekajars/java/weka.jar后,问题就解决了。不过这个命令分....
分类:
其他好文 时间:
2014-07-25 10:54:41
阅读次数:
268
Python 提取Twitter转发推文的元素(比如用户名)...
分类:
编程语言 时间:
2014-07-24 10:33:35
阅读次数:
371
数据类型
数据集的不同表现在很多方面。例如:描述数据对象的属性可有具有不同的类型——定量的或者定性的。并且数据集可能还具有特定的性质,如包含时间序列或者彼此相关联。这因为如此,数据的类型决定我们应使用何种工具和技术来分析数据。此外,数据挖掘的研究也是为了适应新的应用领域和新的数据类型。
数据的质量
数据通常远非完美,尽管大部分的数据挖掘技术都容忍不完美的数据,但注重理解和提高...
分类:
其他好文 时间:
2014-07-24 10:25:33
阅读次数:
321
——转 聚类的目标是使同一类对象的相似度尽可能地小;不同类对象之间的相似度尽可能地大。目前聚类的方法很多,根据基本思想的不同,大致可以将聚类算法分为五大类:层次聚类算法、分割聚类算法、基于约束的聚类算法、机器学习中的聚类算法和用于高维度的聚类算法。摘自 数据挖掘中的聚类分析研究综述 这篇论文。--....
分类:
其他好文 时间:
2014-07-23 15:24:26
阅读次数:
316