服务端(master): 安装 ganglia ganglia-devel ganglia-gmetad ganglia-gmond ganglia-web ganglia-gmond-python rrdtool httpd php客户端(slave) : 安装 ganglia-gmond1 安装...
分类:
Web程序 时间:
2014-06-21 09:20:09
阅读次数:
356
ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,它包含一个简单的原语集,分布式应用程序可以基于它实现同步服务,配置维护和命名服务等。Zookeeper是hadoop的一个子项目,其发展历程无需赘述。在分布式应用中,由于工程师不能很好地使用锁机制,以及基于消息的协调机制不适合在某些...
分类:
其他好文 时间:
2014-06-21 08:57:48
阅读次数:
430
监控server端的安装部署一、apache的安装下载httpd-2.2.15.tar.gz gunzip httpd-2.2.15.tar.gztar xvf httpd-2.2.15.tarcd httpd-2.2.15./configure --prefix=/usr/local/apache...
分类:
移动开发 时间:
2014-06-21 07:24:13
阅读次数:
319
5、多表关联 多表关联和单表关联类似,它也是通过对原始数据进行一定的处理,从其中挖掘出关心的信息。下面进入这个实例。5.1 实例描述 输入是两个文件,一个代表工厂表,包含工厂名列和地址编号列;另一个代表地址表,包含地址名列和地址编号列。要求从输入数据中找出工厂名和地址名的对应关系,输出"工厂名——地...
分类:
其他好文 时间:
2014-06-21 06:29:10
阅读次数:
221
6、倒排索引 "倒排索引"是文档检索系统中最常用的数据结构,被广泛地应用于全文搜索引擎。它主要是用来存储某个单词(或词组)在一个文档或一组文档中的存储位置的映射,即提供了一种根据内容来查找文档的方式。由于不是根据文档来确定文档所包含的内容,而是进行相反的操作,因而称为倒排索引(Inverted In...
分类:
其他好文 时间:
2014-06-21 00:35:21
阅读次数:
371
本文所有涉及的内容均为2.2.0版本中呈现。 概述: Job在创建Job并且提交的人的眼中,可以在创建的时候通过配置Job的内容,控制Job的执行,以及查询Job的运行状态。一旦Job提交以后,将不能对其进行配置,否则将会出现IllegalStateException异常。 正常情况下用户...
分类:
其他好文 时间:
2014-06-20 23:46:15
阅读次数:
374
一、刚装上hive在执行hive启动的过程中出现[hadoop@localhost hive-0.6.0]$ hiveInvalid maximum heap size: -Xmx4096mThe specified size exceeds the maximum representable si...
分类:
其他好文 时间:
2014-06-20 22:17:04
阅读次数:
278
[QQ群: 189191838,对算法和C++感兴趣可以进来] 数据挖掘领域一直都非常的火。现在炒的非常热的大数据,其实也是数据挖掘的一个应用而已,不管工程师用的是Hadoop还是其他平台,其实都是对一堆的数据进行分析,计算,然后得到我们希望得到的结果。所以我们可以知道,文本数据挖掘的必要性是...
分类:
其他好文 时间:
2014-06-20 21:49:12
阅读次数:
255
存储能力是提供给上层业务系统以实现文件存取服务,这个存储能力为XDFS,即可扩展的分布式文件系统,实现的原理是封装了第三方的分布式存储系统实现的。目前封装的第三方分布式系统包括FastDFS、Hadoop的HDFS,所提供的存储接口如下: 1 文件上传 2 文件断点上传 3 文件...
分类:
其他好文 时间:
2014-06-20 21:21:55
阅读次数:
470
步骤一、下载mahout http://www.apache.org/dyn/closer.cgi/mahout/我下载的是mahout-distribution-0.9.tar.gz 16-Feb-2014 08:31 66M 步骤二、下载完成后放到Linux中并解压解压命令:tar -zxvf ...
分类:
其他好文 时间:
2014-06-20 21:09:06
阅读次数:
178