对于文本信息的向量化,Mahout 已经提供了工具类,它基于 Lucene 给出了对文本信息进行分析,然后创建文本向量。mahout提供下面两个命令来将文本转成向量形式(转化成向量后可以聚类):1.mahout seqdirectory:将文本文件转成SequenceFile文件,SequenceF...
分类:
其他好文 时间:
2015-04-26 21:00:05
阅读次数:
154
之前介绍的apriori算法中因为存在许多的缺陷,例如进行大量的全表扫描和计算量巨大的自然连接,所以现在几乎已经不再使用
在mahout的算法库中使用的是PFP算法,该算法是FPGrowth算法的分布式运行方式,其内部的算法结构和FPGrowth算法相差并不是十分巨大
所以这里首先介绍在单机内存中运行的FPGrowth算法
还是使用apriori算法的购物车数据作为例子,如下图所示:...
分类:
编程语言 时间:
2015-04-24 14:22:49
阅读次数:
185
Mahout学习之Mahout简介、安装、配置、入门程序测试...
分类:
其他好文 时间:
2015-04-22 22:22:31
阅读次数:
231
1.首先在解压缩的mahout文件中可以看到core包,该包是调用mahout api必须引入的jar包,另外,该包里的driver.classes.default.props中记录了每个命令跟调用类的映射对应关系。1.1 打开mahout源码包(可以通过maven部署在elicpse上),分析一下...
在用Mahout做推荐引擎,用到数据库连接池,在eclipse下,遇到配置问题,其实很简单,但花了不少时间,做个笔记配置连接池将以下内容保存(相应位置做相应修改)为context.xml(自己新建),放在web项目下的META-INF文件夹下: name 指定Resource的JND...
分类:
其他好文 时间:
2015-04-20 12:46:35
阅读次数:
138
贝叶斯分类是一类分类算法的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类
对于分类问题,其实谁都不会陌生,每个人生活中无时不刻的在进行着分类。例如,走在大马路上看到女孩子,你会下意识的将她分为漂亮和不漂亮(漂亮当然就多看几眼啦)。在比如,在路上遇到一只狗,你会根据这只狗的毛发脏不脏,然后想到这是一只流浪狗还是家养的宠物狗。这些其实都是生活中的分类操作。
而贝叶斯分类是在生活中分类的...
分类:
编程语言 时间:
2015-04-17 11:30:47
阅读次数:
257
在使用mahout之前要安装并启动hadoop集群将mahout的包上传至linux中并解压即可mahout下载地址:点击打开链接mahout中的算法大致可以分为三大类:聚类,协同过滤和分类其中常用聚类算法有:canopy聚类,k均值算法(kmeans),模糊k均值,层次聚类,LDA聚类等常用分类算...
分类:
编程语言 时间:
2015-04-15 21:13:03
阅读次数:
170
canopy是聚类算法的一种实现它是一种快速,简单,但是不太准确的聚类算法canopy通过两个人为确定的阈值t1,t2来对数据进行计算,可以达到将一堆混乱的数据分类成有一定规则的n个数据堆由于canopy算法本身的目的只是将混乱的数据划分成大概的几个类别,所以它是不太准确的但是通过canopy计算出...
分类:
编程语言 时间:
2015-04-15 21:00:35
阅读次数:
230
canopy是聚类算法的一种实现
它是一种快速,简单,但是不太准确的聚类算法
canopy通过两个人为确定的阈值t1,t2来对数据进行计算,可以达到将一堆混乱的数据分类成有一定规则的n个数据堆
由于canopy算法本身的目的只是将混乱的数据划分成大概的几个类别,所以它是不太准确的
但是通过canopy计算出来的n个类别可以用在kmeans算法中的k值的确定(因为人为无法准确的确定k值到底要...
分类:
编程语言 时间:
2015-04-11 19:32:07
阅读次数:
183