这段时间学习Mahout有喜有悲。在这里首先感谢樊哲老师的指导。以下列出关于这次Mahout分类的学习和遇到的问题,还请大家多多提出建议:(全部文件操作都使用是在hdfs上边进行的)。 (本人用的环境是Mahout0.9+hadoop-2.2.0) 一、首先将预分类文件转换为序列化化存储: 下边图片 ...
分类:
其他好文 时间:
2016-04-20 11:30:26
阅读次数:
207
主要介绍Hadoop家族产品,常用的项目包括Hadoop,Hive,Pig,HBase,Sqoop,Mahout,Zookeeper,Avro,Ambari,Chukwa,新增加的项目包括,YARN,Hcatalog,Oozie,Cassandra,Hama,Whirr,Flume,Bigtop,Crunch,Hue等。从2011年开始,中国进入大数据风起云涌的时代,以Hadoop为代表的家族软件..
分类:
其他好文 时间:
2016-04-19 20:20:22
阅读次数:
335
本文来自:http://blog.fens.me/hadoop-mahout-maven-eclipse/ 前言 基于Hadoop的项目,不管是MapReduce开发,还是Mahout的开发都是在一个复杂的编程环境中开发。Java的环境问题,是困扰着每个程序员的噩梦。Java程序员,不仅要会写Jav ...
分类:
其他好文 时间:
2016-04-19 19:35:58
阅读次数:
189
本文来自于:http://blog.fens.me/hadoop-mahout-mapreduce-itemcf/ 前言 Mahout是Hadoop家族一员,从血缘就继承了Hadoop程序的特点,支持HDFS访问和MapReduce分步式算法。随着Mahout 的发展,从0.7版本开始,Mahout ...
分类:
其他好文 时间:
2016-04-19 19:31:03
阅读次数:
342
本文来自于:http://blog.fens.me/mahout-recommend-engine/ 前言 Mahout框架中cf.taste包实现了推荐算法引擎,它提供了一套完整的推荐算法工具集,同时规范了数据结构,并标准化了程序开发过程。应用推荐算法时,代码也就7-8行,简单地有点像R了。为了使 ...
分类:
其他好文 时间:
2016-04-19 18:52:35
阅读次数:
359
Mahout的中文含义:象夫 Mahout起源 2008年成为Lucene的子顷目,Lucene作为搜索引擎顷目, 存在很多文本数据分析和挖掘的需求(例如文本重复判断,文本自动分类等等), 导致Lucene顷目中部分开发者转向机器学习领域研究算法,最终这些机器学习算法形成最初的Mahout吸收开源协 ...
分类:
其他好文 时间:
2016-04-19 11:46:15
阅读次数:
182
Hadoop简介Hadoop就是一个实现了Google云计算系统的开源系统,包括并行计算模型Map/Reduce,分布式文件系统HDFS,以及分布式数据库Hbase,同时Hadoop的相关项目也很丰富,包括ZooKeeper,Pig,Chukwa,Hive,Hbase,Mahout,flume等.这 ...
分类:
其他好文 时间:
2016-04-18 11:27:43
阅读次数:
230
Mahout简介 Mahout 是 Apache Software Foundation(ASF) 旗下的一个开源项目, 提供一些可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更加方便快捷地创建智能应用程序 Mahout相关资源 ?Mahout主页:http://mahout.apache.o ...
分类:
编程语言 时间:
2016-04-12 07:04:40
阅读次数:
419
前言 Mahout是Hadoop家族中与众不同的一个成员,是基于一个Hadoop的机器学习和数据挖掘的分布式计算框架。Mahout是一个跨学科产品,同时也是我认为Hadoop家族中,最有竞争力,最难掌握,最值得学习的一个项目之一。 Mahout为数据分析人员,解决了大数据的门槛;为算法工程师,提供基 ...
分类:
其他好文 时间:
2016-04-09 21:47:24
阅读次数:
254
《mahout in action》第六章。 datafile/cluster/simple_k-means.txt数据集例如以下: 1 1 2 1 1 2 2 2 3 3 8 8 8 9 9 8 9 9 1. k-means聚类算法原理 1、从D中随机取k个元素。作为k个簇的各自的中心。 2、分别 ...
分类:
编程语言 时间:
2016-04-09 12:05:00
阅读次数:
278