今晚在数据挖掘研究院看到的一篇文章《自动推荐系统效果为什么不好》,为什么朋友推荐的书总是让我满意,难道朋友在推荐书的时候作了比计算机所能进行的运算还要复杂的大脑活动了吗?用户的诉求和心理很微妙,很多时候你自己都不知道自己的诉求,前1分钟你想吃肯德基,后1分钟你可能放弃这个想法,正如keso说的我.....
分类:
其他好文 时间:
2015-03-10 00:07:17
阅读次数:
192
1.什么是数据挖掘 数据挖掘是在大型数据存储库中,自动地发现有用信息的过程。数据挖掘技术用来探查大型数据库,发现先前未知的有用模式。数据挖掘还可以预测未来观测结果。 VS 信息检索(information retrieval)2.数据挖掘与知识发现 数据挖掘是数据库中知识发现(knowledg...
分类:
其他好文 时间:
2015-03-09 23:56:58
阅读次数:
196
作者:daniel-D 在机器学习和数据挖掘中,我们经常需要知道个体间差异的大小,进而评价个体的相似性和类别。最常见的是数据分析中的相关分析,数据挖掘中的分类和聚类算法,如 K 最近邻(KNN)和 K 均值(K-Means...
分类:
其他好文 时间:
2015-03-09 21:02:05
阅读次数:
236
现有一份数据集,包含专家对于是否可以使用隐形眼镜的诊断记录(来自《数据挖掘》),尝试用R语言实现规则的提取。构造> spectacle = factor(rep(c(rep("myope",4),rep("hypermetrop",3)),3))> age = factor(c(rep("young...
分类:
其他好文 时间:
2015-03-09 16:09:22
阅读次数:
209
KNN即K-Nearest Neighbor,是数据挖掘中一种最简单的分类方法,即要判断某一个样本属于已知样本种类中的哪一类时,通过计算找出所有样本中与测试样本最近或者最相似的K个样本,统计这K个样本中哪一种类最多则把测试样本归位该类。如何衡量两个样本的相似度?可以用向量的p-范数来定义。
假设有两个样本X=(x1, x2, ..., xn),Y=(y1, y2, ..., yn),则他们之间的相似度可以用以下向量p-范数定义:...
分类:
其他好文 时间:
2015-03-08 17:22:38
阅读次数:
208
什么是RedisRedis是一个开源的使用ANSI C语言编写、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库,并提供多种语言的API。从2010年3月15日起,Redis的开发工作由VMware主持。从2013年5月开始,Redis的开发由Pivotal赞助。Memcached和...
分类:
其他好文 时间:
2015-03-08 12:55:02
阅读次数:
207
Mahout 是一个很强大的数据挖掘工具,是一个分布式机器学习算法的集合,包括:被称为Taste的分布式协同过滤的实现、分类、聚类等。Mahout最大的优点就是基于hadoop实现,把很多以前运行于单机上的算法,转化为了MapReduce模式,这样大大提升了算法可处理的数据量和处理性能。
一、Mahout安装、配置
1、下载并解压Mahout
http://archive.apac...
分类:
其他好文 时间:
2015-03-07 17:15:35
阅读次数:
554
图1 聚类算法分类图聚类分析是按照一定的性质和规律将事物进行分类的,就是将类内相似性最大化,将类间相似性最小化的一种数据基本分析方法。
分类:
编程语言 时间:
2015-03-05 22:08:55
阅读次数:
119
收集web日志的目的 Web日志挖掘是指采用数据挖掘技术,对站点用户访问Web服务器过程中产生的日志数据进行分析处理,从而发现Web用户的访问模式和兴趣爱好等,这些信息对站点建设潜在有用的可理解的未知信息和知识,用于分析站点的被访问情况,辅助站点管理和决策支持等。 1、以改进web站点设计为目标,通过挖掘用户聚类和用户的频繁访问路径,修改站点的页面之间的链接关系,以适应用户的访问习惯,并且同时...
分类:
Web程序 时间:
2015-03-05 19:33:07
阅读次数:
171
收集web日志的目的Web日志挖掘是指采用数据挖掘技术,对站点用户访问Web服务器过程中产生的日志数据进行分析处理,从而发现Web用户的访问模式和兴趣爱好等,这些信息对站点建设潜在有用的可理解的未知信息和知识,用于分析站点的被访问情况,辅助站点管理和决策支持等。1、以改..
分类:
Web程序 时间:
2015-03-05 17:16:15
阅读次数:
134