主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa,新增加的项目包括,YARN, Hcatalog, Oozie, Cassandra, Hama, Whirr, ...
分类:
其他好文 时间:
2017-06-01 11:19:26
阅读次数:
252
在随机森林中的随机性体现在:1.训练数据的随机性 2. 选择分割属性的随机性 能解决分类与回归问题,并且都有很好的估计表现 1.生成数据说明文件 mahout describe -p input.csv -f input.info-d2 I 3 N I 5 N I 3 C L(执行describe生 ...
分类:
编程语言 时间:
2017-05-31 23:07:51
阅读次数:
299
mahout API英文解释:https://builds.apache.org/job/Mahout-Quality/javadoc/ 推荐数据的处理是大规模的,在集群环境下一次要处理的数据可能是数GB,所以Mahout针对推荐数据进行了优化。 Preference 在Mahout中,用户的喜好被 ...
分类:
其他好文 时间:
2017-05-29 12:53:49
阅读次数:
268
阅读导读: 1.mahout单机内存算法实现和分布式算法实现分别存在哪些问题? 2.算法评判标准有哪些? 3.什么会影响算法的评分? 1. Mahout推荐算法介绍 Mahout推荐算法,从数据处理能力上,能够划分为2类: 单机内存算法实现 基于Hadoop的分步式算法实现 1). 单机内存算法实现 ...
分类:
编程语言 时间:
2017-05-28 11:53:50
阅读次数:
304
说明:參考Mahout FP算法相关相关源代码。算法project能够在FP关联规则计算置信度下载:(仅仅是单机版的实现,并没有MapReduce的代码)使用FP关联规则算法计算置信度基于以下的思路:1. 首先使用原始的FP树关联规则挖掘出全部的频繁项集及其支持度;这里须要注意,这里是输出全部的频繁 ...
分类:
编程语言 时间:
2017-05-12 13:17:31
阅读次数:
269
背景&目标: 1、sport.tar 是体育类的文章,一共同拥有10个类别。 用这些原始材料构造一个体育类的文本分类器,并測试对照bayes和cbayes的效果; 记录分类器的构造过程和測试结果。 2、user-sport.tar 是用户浏览的文章,每一个目录相应一个用户。 利用上题构造的文本分类器 ...
分类:
其他好文 时间:
2017-04-25 19:18:40
阅读次数:
299
刚才利用hadoop和mahout运行kmean是算法,一开始利用了10个节点,一个master,9个slave,运行了7分钟,我为了看速度的变化,就改用伪分布的形式,但是一开始运行就报错了: 意思就是针对文件块block,没有可用的节点,我一开始以为是节点没=没有启动,但是后来看了一下webUI, ...
分类:
其他好文 时间:
2017-04-08 12:09:21
阅读次数:
382
输出文件不能实现存在,比如说/WordCount这样是不行的 虽然他是第一级文件夹 但是已存在了,不可用 ...
分类:
其他好文 时间:
2017-02-27 13:02:16
阅读次数:
245
摘自知乎大神的论述 作者:Xiaoyu Ma链接:https://www.zhihu.com/question/27974418/answer/38965760来源:知乎著作权归作者所有,转载请联系作者获得授权。 大数据本身是个很宽泛的概念,Hadoop生态圈(或者泛生态圈)基本上都是为了处理超过单 ...
分类:
其他好文 时间:
2017-02-11 21:48:25
阅读次数:
258
先看这篇文章:http://www.huochai.mobi/p/d/3967708/?share_tid=86bc0ba46c64&fmid=0 直接比较Hadoop和Spark有难度,因为它们处理的许多任务都一样,但是在一些方面又并不相互重叠。 比如说,Spark没有文件管理功能,因而必须依赖H ...
分类:
其他好文 时间:
2016-12-21 07:41:41
阅读次数:
596