1、大数据、数据库、数理统计、数据分析、数据挖掘 中国统计网:http://www.itongji.cn/ 统计之都:http://cos.name/ 火光摇曳:http://www.flickering.cn/ 统计211:http://www.tj211.com/port...
分类:
Web程序 时间:
2014-07-29 12:05:56
阅读次数:
285
算法简介
NBC是应用最广的分类算法之一。朴素贝叶斯模型发源于古典数学理论,有着坚实的数学基础,以及稳定的分类效率。同时,NBC模型所需估计的参数很少,对缺失数据不太敏感,算法也比较简单。
算法假设
给定目标值时属性之间互相条件独立。
算法输入
训练数据 T={(x1,y1),(x2,y2),……,(xn,yn)}
待分类数据x0=(x0(1),x0(2),……,x0(n)...
分类:
其他好文 时间:
2014-07-28 16:17:13
阅读次数:
412
【小记】:大胆尝试才能突破,某个中医药大学有一批图片需要处理(ORC),然后进行数据挖掘。之前没有接触过ORC这个东西,但是还是应允了。在网上搜索一番,关于中文图片识别,最终敲定为基于微软的OneNote,其识别率相对较高。网上这个技术点的资料真心不多,后来于博客园找到一篇博文,但是那个程序还是bu...
分类:
数据库 时间:
2014-07-28 11:20:30
阅读次数:
381
在Eclipse中安装StatET插件
1.概述
众所周知,很多人进行数据挖掘最喜欢使用的语言是R语言,而可以选择的IDE确有很多种,例如Emacs + ESS,RStudio等等。
今天,我所写的是使用Eclipse + StatET来搭建R语言环境。
2.安装Eclipse
我使用的是Ubuntu13.10的系统,在 http://download.ec...
分类:
系统相关 时间:
2014-07-28 00:15:09
阅读次数:
385
算法简介:
K-Means算法是输入聚类个数k,以及包含n个数据对象的数据库,输出满足方差最小标准的k个聚类。并使得所获得的聚类满足:同一聚类中的对象相似度较高;而不同聚类中
对象相似度较小。
算法假设:
均方误差是计算群组分散度的最佳参数。
算法输入:
聚类个数k;...
分类:
其他好文 时间:
2014-07-28 00:03:39
阅读次数:
343
从来不喜欢说自己的感受。为什么呢,因为在现在这个社会,没有人会真正的去听你的感受。绝大多数人都只看重结果。所以即使有人问,我也不愿说。
一直以来,总喜欢给自己很大的压力。我是一个很怕被甩到后面的人。自尊心强,要面子。原来的脾气在来到这个社会上的时候被一点一点的收敛。或许是成熟了。
但是我讨厌这种成熟,因为快乐少了很多。明明是个90后,现在看起来却像个大叔了。甚至很多人以为我已经结婚了。今天去理发,又被问到是八几年的。我很淡定,没有责怪别人。因为我自己都觉得自己看起来像个80后。理发师说我脑袋上快出现...
分类:
Web程序 时间:
2014-07-27 23:42:19
阅读次数:
387
数据质量
数据挖掘使用的数据通常是为其他用途收集或者收集的时候还没有明确目的。因此数据常常不能在数据的源头控制质量。为了避免数据质量的问题,所以数据挖掘着眼于两个方面:数据质量问题的检测和纠正(数据清理);使用可以容忍低质量数据的算法。
测量和数据收集问题
完美的数据在实际中几乎是不存在的,对于存在的数据质量问题,我们先定义测量误差和数据收集错误,然后考虑测量误差的各种问题:噪声...
分类:
其他好文 时间:
2014-07-26 15:26:11
阅读次数:
235
机器学习与数据挖掘中的十大经典算法背景:top10算法的前期背景是吴教授在香港做了一个关于数据挖掘top10挑战的一个报告,会后有一名内地的教授提出了一个类似的想法。吴教授觉得非常好,开始着手解决这个事情。找了一系列的大牛(都是数据挖掘的大牛),都觉得想法很好,但是都不愿自己干。原因估计有一下几种:...
分类:
其他好文 时间:
2014-07-26 01:15:56
阅读次数:
248
数据化运营讨论(3)2010年和2013年分别提出各自的数据化运营的战略方针,大数据的运营时代已经来到,而如何整合海量数据成为关键任务。业内,对数据化运营的定义有区别,但核心和要素都是一样的,那就是“以大数据分析挖掘为基础支撑企业以更加精细化的运营制度和战略”。落实..
分类:
其他好文 时间:
2014-07-24 23:52:04
阅读次数:
189