码迷,mamicode.com
首页 >  
搜索关键字:mahout    ( 315个结果
hadoop家族学习路线图(转)
主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa,新增加的项目包括,YARN, Hcatalog, Oozie, Cassandra, Hama, Whirr, ...
分类:其他好文   时间:2017-06-01 11:19:26    阅读次数:252
mahout 随机森林RF算法
在随机森林中的随机性体现在:1.训练数据的随机性 2. 选择分割属性的随机性 能解决分类与回归问题,并且都有很好的估计表现 1.生成数据说明文件 mahout describe -p input.csv -f input.info-d2 I 3 N I 5 N I 3 C L(执行describe生 ...
分类:编程语言   时间:2017-05-31 23:07:51    阅读次数:299
Mahout--(一)数据承载
mahout API英文解释:https://builds.apache.org/job/Mahout-Quality/javadoc/ 推荐数据的处理是大规模的,在集群环境下一次要处理的数据可能是数GB,所以Mahout针对推荐数据进行了优化。 Preference 在Mahout中,用户的喜好被 ...
分类:其他好文   时间:2017-05-29 12:53:49    阅读次数:268
Mahout推荐算法API具体解释【一起学Mahout】
阅读导读: 1.mahout单机内存算法实现和分布式算法实现分别存在哪些问题? 2.算法评判标准有哪些? 3.什么会影响算法的评分? 1. Mahout推荐算法介绍 Mahout推荐算法,从数据处理能力上,能够划分为2类: 单机内存算法实现 基于Hadoop的分步式算法实现 1). 单机内存算法实现 ...
分类:编程语言   时间:2017-05-28 11:53:50    阅读次数:304
Fp关联规则算法计算置信度及MapReduce实现思路
说明:參考Mahout FP算法相关相关源代码。算法project能够在FP关联规则计算置信度下载:(仅仅是单机版的实现,并没有MapReduce的代码)使用FP关联规则算法计算置信度基于以下的思路:1. 首先使用原始的FP树关联规则挖掘出全部的频繁项集及其支持度;这里须要注意,这里是输出全部的频繁 ...
分类:编程语言   时间:2017-05-12 13:17:31    阅读次数:269
【甘道夫】通过Mahout构建贝叶斯文本分类器案例具体解释
背景&目标: 1、sport.tar 是体育类的文章,一共同拥有10个类别。 用这些原始材料构造一个体育类的文本分类器,并測试对照bayes和cbayes的效果; 记录分类器的构造过程和測试结果。 2、user-sport.tar 是用户浏览的文章,每一个目录相应一个用户。 利用上题构造的文本分类器 ...
分类:其他好文   时间:2017-04-25 19:18:40    阅读次数:299
No node available for block: blk
刚才利用hadoop和mahout运行kmean是算法,一开始利用了10个节点,一个master,9个slave,运行了7分钟,我为了看速度的变化,就改用伪分布的形式,但是一开始运行就报错了: 意思就是针对文件块block,没有可用的节点,我一开始以为是节点没=没有启动,但是后来看了一下webUI, ...
分类:其他好文   时间:2017-04-08 12:09:21    阅读次数:382
如何运行Hadoop自带的例子
输出文件不能实现存在,比如说/WordCount这样是不行的 虽然他是第一级文件夹 但是已存在了,不可用 ...
分类:其他好文   时间:2017-02-27 13:02:16    阅读次数:245
[转]hadoop,spark,storm,pig,hive,mahout等到底有什么区别和联系?
摘自知乎大神的论述 作者:Xiaoyu Ma链接:https://www.zhihu.com/question/27974418/answer/38965760来源:知乎著作权归作者所有,转载请联系作者获得授权。 大数据本身是个很宽泛的概念,Hadoop生态圈(或者泛生态圈)基本上都是为了处理超过单 ...
分类:其他好文   时间:2017-02-11 21:48:25    阅读次数:258
Hadoop与Spark比较
先看这篇文章:http://www.huochai.mobi/p/d/3967708/?share_tid=86bc0ba46c64&fmid=0 直接比较Hadoop和Spark有难度,因为它们处理的许多任务都一样,但是在一些方面又并不相互重叠。 比如说,Spark没有文件管理功能,因而必须依赖H ...
分类:其他好文   时间:2016-12-21 07:41:41    阅读次数:596
315条   上一页 1 ... 4 5 6 7 8 ... 32 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!