1、 统计学与数据挖掘的区别: 统计学主要利用概率论建立数学模型,是研究随机现象的常用数学工具之一。 数据挖掘分析大量数据,发现其中的内在联系和知识,并以模型或规则表达这些知识。 虽然两者采用的某些分析方法(如回归分析)是相同的,但是数据挖掘和统计学是有本质区别的: 一个主要差别在于处理对象(数据集...
分类:
其他好文 时间:
2014-07-06 21:40:15
阅读次数:
217
国际权威的学术组织the IEEE International Conference on Data Mining (ICDM) 2006年12月评选出了数据挖掘领域的十大经典算法:C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, kNN, N...
分类:
其他好文 时间:
2014-07-06 19:26:24
阅读次数:
221
一、 在SAS中进行随机抽样:1、 在实际数据处理中常常需要进行样本抽样,在实践中主要有两种情况:(1)简单无重复抽样(2)分层抽样 a.等比例分层抽样b. 不等比例分层抽样;2、SAS 中可以利用PROC suveryselect 过程实现各种抽样:其一般形式是: PROC SURVEYSELE....
分类:
其他好文 时间:
2014-07-06 19:07:23
阅读次数:
373
我们为什么数要数据可视化,如何用图表讲故事?#大家经常需要做数据可视化,然后用PPT来说服高层或者做各类决策,今天分享一些做PPT的技巧!温馨提示:用派代APP看的派友,请在有WIFI的网络下观看,图多会打开比较慢哦~先看个数据可视化视频:------------------------------...
分类:
其他好文 时间:
2014-07-05 16:47:02
阅读次数:
2692
近期在做数据挖掘的课程设计,须要将数据分析的结果非常直观的展现给用户,这就要用到数据统计图,要实现这个功能就须要几个第三方包了:1. jfreechart-1.0.13.jar2. jcommon-1.0.16.jar3. gnujaxp.jar先来看一下,终于效果图:主要是jfreechart-1...
分类:
编程语言 时间:
2014-07-05 16:45:37
阅读次数:
192
贝叶斯分类器 贝叶斯分类器的分类原理是通过某对象的先验概率,利用贝叶斯公式计算出其后验概率,即该对象属于某一类的概率,选择具有最大后验概率的类作为该对象所属的类。眼下研究较多的贝叶斯分类器主要有四种,各自是:Naive Bayes、TAN、BAN和GBN。 贝叶斯网络是一个带有概率...
分类:
其他好文 时间:
2014-07-03 22:53:16
阅读次数:
246
Python 对Twitter tweet的元素 (Word, Screen Name, Hash Tag)的词汇多样性分析...
分类:
编程语言 时间:
2014-07-03 18:48:39
阅读次数:
222
一、什么是Oracle
在学习DRP系统之前,很多次提到过Oracle,也了解过,那么Oracle是什么?今天我终于揭开了它的神秘面纱。
Oracle:是一个公司,当然我在这里说的是Oracle数据库,与之前学到的SQLserver一样,都是一种关系型数据库管理系统。由于Oracle对大型的数据处理快速,所以称之为企业级数据库,而SQLserver是中小型的数...
分类:
数据库 时间:
2014-07-03 18:01:38
阅读次数:
295
Coprocessor是HBase 0.92.0引入的特性。使用Coprocessor,可以将一些计算逻辑下推到HBase节点,HBase由一个单纯的存储系统升级为分布式数据处理平台。
Coprocessor分为两种:Observer和Endpoint。Observer能修改扩展已有的客户端操作功能,而Endpoint能引入新的客户端操作。
Observer
Observer的作用类似于数据...
分类:
其他好文 时间:
2014-07-03 15:35:50
阅读次数:
247