在Eclipse中安装StatET插件
1.概述
众所周知,很多人进行数据挖掘最喜欢使用的语言是R语言,而可以选择的IDE确有很多种,例如Emacs + ESS,RStudio等等。
今天,我所写的是使用Eclipse + StatET来搭建R语言环境。
2.安装Eclipse
我使用的是Ubuntu13.10的系统,在 http://download.ec...
分类:
系统相关 时间:
2014-07-28 00:15:09
阅读次数:
385
算法简介:
K-Means算法是输入聚类个数k,以及包含n个数据对象的数据库,输出满足方差最小标准的k个聚类。并使得所获得的聚类满足:同一聚类中的对象相似度较高;而不同聚类中
对象相似度较小。
算法假设:
均方误差是计算群组分散度的最佳参数。
算法输入:
聚类个数k;...
分类:
其他好文 时间:
2014-07-28 00:03:39
阅读次数:
343
数据质量
数据挖掘使用的数据通常是为其他用途收集或者收集的时候还没有明确目的。因此数据常常不能在数据的源头控制质量。为了避免数据质量的问题,所以数据挖掘着眼于两个方面:数据质量问题的检测和纠正(数据清理);使用可以容忍低质量数据的算法。
测量和数据收集问题
完美的数据在实际中几乎是不存在的,对于存在的数据质量问题,我们先定义测量误差和数据收集错误,然后考虑测量误差的各种问题:噪声...
分类:
其他好文 时间:
2014-07-26 15:26:11
阅读次数:
235
-------------------------------------------------------------------------------------------1、查询当前日志组21:43:00sys@TESTDB11>select*fromv$log;1136524288005121NOCURRENT13498242、查询日志文件21:42:44sys@TESTDB11>select*fromv$logfile;GROUP#STATUSTYPE..
分类:
其他好文 时间:
2014-07-26 03:13:08
阅读次数:
226
机器学习与数据挖掘中的十大经典算法背景:top10算法的前期背景是吴教授在香港做了一个关于数据挖掘top10挑战的一个报告,会后有一名内地的教授提出了一个类似的想法。吴教授觉得非常好,开始着手解决这个事情。找了一系列的大牛(都是数据挖掘的大牛),都觉得想法很好,但是都不愿自己干。原因估计有一下几种:...
分类:
其他好文 时间:
2014-07-26 01:15:56
阅读次数:
248
数据化运营讨论(2)数据化运营的理念与技术对企业来说是革命性的,它能将现在“卖方市潮商业状态变成为“买方市潮。“穷则思变”古话说的好,在当下传统营销方式手段很难明显提升业绩和市场竞争力时“数据化运营”的理念和技术就成为企业未来打破竞争,提升自我强有力地商业武..
分类:
其他好文 时间:
2014-07-24 23:52:24
阅读次数:
220
数据化运营讨论(3)2010年和2013年分别提出各自的数据化运营的战略方针,大数据的运营时代已经来到,而如何整合海量数据成为关键任务。业内,对数据化运营的定义有区别,但核心和要素都是一样的,那就是“以大数据分析挖掘为基础支撑企业以更加精细化的运营制度和战略”。落实..
分类:
其他好文 时间:
2014-07-24 23:52:04
阅读次数:
189
内容简介《IDA Pro代码破解揭秘》阐述了IDA Pro逆向工程代码破解的精髓,细致而全面地讲述了如何利用IDA Pro挖掘并分析软件中的漏洞。同时也展示了如何对病毒、蠕虫和木马程序的源代码进行分析,从而达到破解的目的。《IDA Pro代码破解揭秘》注重实践,有大量图示和示例代码供参考使用,可读性...
分类:
其他好文 时间:
2014-07-24 21:47:42
阅读次数:
399
话题 看了百度争鸣第87期,《"抄袭者"小米神话终结?》,主要是针对小米发布会,米4的一些争论。可以说角度不同,认知也不同,所以很多东西留给历史验证吧。总结 将网上很多想法总结一下,于是得到了这个图。正方、反方各执一词,而且有理有据。于是找了一下雷总的总结,发现还是有很多东西可以挖掘。想法 我其实算...
分类:
移动开发 时间:
2014-07-24 17:03:25
阅读次数:
235
Python 提取Twitter转发推文的元素(比如用户名)...
分类:
编程语言 时间:
2014-07-24 10:33:35
阅读次数:
371