此文用matlab实现了k-means聚类算法,虽然代码仍然有bug,但是就结果来说还是很正确的.通读此文对kmeans聚类算法有了更清晰的认识....
分类:
其他好文 时间:
2014-07-21 16:47:54
阅读次数:
312
WEKA学习: CSVLoader按照自己需要加载文本数据,并且经StringToWordVector处理,应用于文本的分类和聚类。...
分类:
其他好文 时间:
2014-07-21 16:25:13
阅读次数:
433
学习方式根据数据类型的不同,对一个问题的建模有不同的方式。在机器学习或者人工智能领域,人们首先会考虑算法的学习方式。在机器学习领域,有几种主要的学习方式。将算法按照学习方式分类是一个不错的想法,这样可以让人们在建模和算法选择的时候考虑能根据输入数据来选择最合适的算法来获得最好的结果。监督式学习:在监...
分类:
其他好文 时间:
2014-07-21 08:08:39
阅读次数:
327
数据挖掘导论读书笔记之绪论
数据挖掘的前提:数据收集和数据存储技术的快速进步。
数据挖掘是一种技术,它将传统的数据分析方法与处理大量数据的复杂算法相结合。为探查和分析新的数据类型以及用新方法分析就有数据类型提供了令人振奋的机会。
数据挖掘是在大型数据存储库中,自动的发现有用信息的过程。
数据挖掘与知识发现
数据挖掘是数据库中知识发现不可缺少的一部分(knowled...
分类:
其他好文 时间:
2014-07-20 22:32:24
阅读次数:
284
一篇基于最大最小分类算法的好文章.简单明了.有所改进...
分类:
其他好文 时间:
2014-07-20 22:12:43
阅读次数:
265
不论是做数据挖掘也好,数据分析,数据可视化也罢,就是把混乱杂糅的数据理清给人看。我经常觉得,如果不能把自己身边的数据“整理清楚”,又怎敢去折腾什么大数据呢?由于一直以来的习惯,我特别热衷于对知识、文件分类整理。例如电脑桌面一定要用fences整理;一定要建立文件夹归纳chrome浏览器的书签;收藏的...
分类:
其他好文 时间:
2014-07-18 17:35:42
阅读次数:
236
从广义上看,脏数据是指没有进行过数据预处理而直接接收到的、处于原始状态的数据;
从狭义上看,是不符合研究要求,以及不能够对其直接进行相应的数据分析。
脏数据依据不同的分析目的有不同的定义,如在常见的数据挖掘工作中,脏数据是指不完整、含噪声、不一致的数据;而在问卷分析中,脏数据则是指不符合问卷要求的数据。
开发中:
脏数据是指源系统中的数据不在给定的范围内或对...
分类:
其他好文 时间:
2014-07-18 15:14:27
阅读次数:
447
Python 收集Twitter时间序列数据...
分类:
编程语言 时间:
2014-07-18 11:21:15
阅读次数:
239
// remove instances with missing class Instances newData = new Instances(data); newData.deleteWithMissingClass(); m_structure = new Instance...
分类:
其他好文 时间:
2014-07-17 22:19:19
阅读次数:
332
最近几年日志分析这方面的人才需求越来越多,主要伴随数据挖掘的快速发展而迅速增长的。碰巧又在工作中又接触到一些日志记录方面的工作,就顺便了解一下日志系统的整个流程。下面这篇文章转自百度同学的一篇文章,针对大规模日志分析,联系到hadoop,hive的解决方案,阐述的比较全面。
另外就是阿里已经开发出类似的系统odps—通过sql语言进行数据的分析处理,详情见:http://102.alibab...
分类:
其他好文 时间:
2014-07-17 20:15:30
阅读次数:
301