数据类型
数据集的不同表现在很多方面。例如:描述数据对象的属性可有具有不同的类型——定量的或者定性的。并且数据集可能还具有特定的性质,如包含时间序列或者彼此相关联。这因为如此,数据的类型决定我们应使用何种工具和技术来分析数据。此外,数据挖掘的研究也是为了适应新的应用领域和新的数据类型。
数据的质量
数据通常远非完美,尽管大部分的数据挖掘技术都容忍不完美的数据,但注重理解和提高...
分类:
其他好文 时间:
2014-07-24 10:25:33
阅读次数:
321
——转 聚类的目标是使同一类对象的相似度尽可能地小;不同类对象之间的相似度尽可能地大。目前聚类的方法很多,根据基本思想的不同,大致可以将聚类算法分为五大类:层次聚类算法、分割聚类算法、基于约束的聚类算法、机器学习中的聚类算法和用于高维度的聚类算法。摘自 数据挖掘中的聚类分析研究综述 这篇论文。--....
分类:
其他好文 时间:
2014-07-23 15:24:26
阅读次数:
316
在文本分类和聚类种,都会对文本进行切词分词,然后转化为向量,最后求其TFIDF值,余弦相似性等。
本文将介绍了WEKA源码中StringToWordVector中的源码知识,自己也可以基于这个类构建符合自己需求的StringToWordVector类。...
分类:
其他好文 时间:
2014-07-22 23:58:49
阅读次数:
640
卷积神经网络的一个Java实现,对DeepLearnToolbox进行了改进,卷积核与采样块都不再要求是方阵,在Minist数据集上准确率97%.
分类:
其他好文 时间:
2014-07-22 23:18:37
阅读次数:
414
数据仓库可以作为数据挖掘和OLAP等分析工具的资料来源,由于存放于数据仓库中的资料,必需经过筛选与转换,因此可以避免分析工具使用错误的资料,而得到不正确的分析结果。数据挖掘和OLAP同为分析工具,其差别在于OLAP提供用户一便利的多维度观点和方法,以有效率的对数据进行复杂的查询动作,其预设查询条件由...
分类:
其他好文 时间:
2014-07-22 22:46:53
阅读次数:
248
一篇关于决策树算法ID3的好文.包括原理讲解和算法的C++实现实例....
分类:
编程语言 时间:
2014-07-22 17:56:51
阅读次数:
614
Mahout0.9+Hadoop-2.2.0贝叶斯分类纯java实战代码,希望能给搞大数据数据挖掘的java粉们有所帮助,也希望大家提出建议。也希望Mahout社区大牛,帮忙看看我遇到的问题,先在这里谢过了。。...
分类:
其他好文 时间:
2014-07-21 22:47:27
阅读次数:
365
本文讲解了大数据聚类算法中的一种clara.并通过matalb实例代码实现验证算法...
分类:
其他好文 时间:
2014-07-21 22:28:27
阅读次数:
248