前言之前一直没有接触数据库的学习,只是本科时候修了一本数据库基本知识的课。当时只对C++感兴趣,天真的认为其它的课都没有用,数据库也是半懂不懂,胡乱就考试过了。现在学习大数据分析,接触了数据挖掘,才感觉到数据库是不可跨越的坎。直到现在才感觉到《操作系统》、《编译原理》、《计算机组成原理》等等课程的重...
分类:
数据库 时间:
2015-01-24 21:18:48
阅读次数:
295
这一节课主要讲述机器学习中应该注意的事项,包括:Occam's Razor、Sampling Bias、Data Snooping....
分类:
其他好文 时间:
2015-01-24 17:23:34
阅读次数:
328
我的数据挖掘算法代码:https://github.com/linyiqun/DataMiningAlgorithm
介绍
Apriori算法是一个经典的数据挖掘算法,Apriori的单词的意思是"先验的",说明这个算法是具有先验性质的,就是说要通过上一次的结果推导出下一次的结果,这个如何体现将会在下面的分析中会慢慢的体现出来。Apriori算法的用处是挖掘频繁项集的,频繁项集粗俗的理解就是找...
分类:
编程语言 时间:
2015-01-23 23:09:12
阅读次数:
628
R语言,一种自由软件编程语言与操作环境,主要用于统计分析、绘图、数据挖掘。R本来是由来自新西兰奥克兰大学的Ross Ihaka和Robert Gentleman开发(也因此称为R),现在由“R开发核心团队”负责开发。R是基于S语言的一个GNU计划项目,所以也可以当作S语言的一种实现,通常用S语言编写...
分类:
其他好文 时间:
2015-01-23 18:07:01
阅读次数:
178
mahout作为开源软件包,集成了很多机器学习和数据挖掘算法,详细可见 mahout官网 。
关于LDA,这里就不说了,详见大神的
LDA数学八卦 。这里只是想吐嘈mahout官网lda的使用文档:根本就没什么文档嘛!
在mahout-0.9及以前版本,只支持hadoop1.0 . 支持hadoop2.0的mahout只有1.0-SNAPSHOT , 不过是可以用的。现...
分类:
其他好文 时间:
2015-01-23 13:28:21
阅读次数:
214
Apriori algorithm是关联规则里一项大数据基本算法。是由Rakesh Agrawal和Ramakrishnan Srikant两位博士在1994年提出的关联规则挖掘算法。关联规则的目的就是在一个数据集中找出项与项之间的关系,也被称为购物蓝分析 (Market Basket analys...
分类:
编程语言 时间:
2015-01-23 13:20:54
阅读次数:
160
数据挖掘有什么用途?数据挖掘和数据仓库之间有什么样的联系?数据挖掘和市场调研、数据分析又有什么样的联系?……一扫盲篇研究结果表明,企业处理的数据每5年就会成倍增长,导致企业数据过度的重复和不一致,如何在这些数据中获取有利信息就促进数据挖掘技术发展。1、数据挖掘的相关概念谢邦昌教授在《数据挖掘 cle...
分类:
其他好文 时间:
2015-01-23 13:16:36
阅读次数:
255
前段时间,由于项目中用到了序列挖掘的算法,师兄推荐我用用SPMF。在此做个记录。 首先简单介绍一下SPMF: SPMF是一个采用Java开发的开源数据挖掘平台。 它提供了51种数据挖掘算法实现,用于: 序列模式挖掘, 关联规则挖掘, frequent itemset 挖掘, 顺序规则挖掘, 聚类 H...
分类:
编程语言 时间:
2015-01-22 20:08:51
阅读次数:
415
商务智能产品 数据挖掘主要侧重解决四类问题:分类、聚类、关联、预测(关于这四类问题后文会详细阐述),而常规数据分析则侧重于解决除此之外的其他数据分析问题:如描述性统计、交叉报表、假设检验等。数据挖掘非常清晰的界定了它所能解决的几类问题。这是一个高度的归纳,数据挖掘的应用就是把这几类问题演绎的一个过....
分类:
其他好文 时间:
2015-01-22 19:58:14
阅读次数:
176
课程简介 :
主要介绍了 RBF 模型及其与最近邻算法、神经网络、Kernel Method 的比较。最后介绍了 RBF 模型的 regularization 问题。...
分类:
其他好文 时间:
2015-01-21 16:37:38
阅读次数:
248