以下程序在hadoop1.2.1上测试成功。
本例先将源代码呈现,然后详细说明执行步骤,最后对源代码及执行过程进行分析。
一、源代码
package org.jediael.hadoopdemo.wordcount;
import java.io.IOException;
import java.util.StringTokenizer;
import org.apache.hadoop...
分类:
其他好文 时间:
2014-08-20 16:30:42
阅读次数:
243
以前写过一篇文章,介绍通过 Java 的 Runtime 类执行操作系统命令行程序:Java调用linux系统shell执行命令。最近项目中又有需要用这个方法,在使用过程中遇到了一些新的问题,感觉以前没有弄清楚,故在此做补充学习记录。
先说明一下这次的需求,在 Java 程序中控制 Hadoop 命令执行 MapReduce 作业,并获取其输出内容。本来没有什么特殊,但由于 MR 执行的...
分类:
编程语言 时间:
2014-08-20 16:24:02
阅读次数:
368
原理:Hadoop Streaming是Hadoop提供的一个编程工具,它允许用户使用任何可执行文件或者脚本文件作为Mapper和Reducer。Mapper和Reducer都是可执行文件,它们从标准输入读入数据(一行一行读), 并把计算结果发给标准输出。Streaming工具会创建一个Map/Re...
分类:
其他好文 时间:
2014-08-20 16:16:52
阅读次数:
234
Hadoop的伪分布式安装步骤使用root用户登录1.1设置静态ip在centos桌面右上角的图标上,右键修改。重启网卡,执行命令servicenetworkrestart验证:执行命令ifconfig1.2修改主机名修改当前会话中的主机名,执行命令hostnamehadoop(要修改的主机名称)修...
分类:
其他好文 时间:
2014-08-20 15:56:52
阅读次数:
190
Mapreduce处理的数据必须具备的特点: --待处理的数据可以分解成许多小的数据集,而且每个数据集都可以完全并行的处理 计算模型的核心部分是map和Reduce函数: --这两个函数的功能由用户根据需要自己实现,只要能够按照用户自定义的规则, 将输入的键值对转换成另一批键值..
分类:
其他好文 时间:
2014-08-20 02:44:46
阅读次数:
213
下面我们进行说明一下hadoop集群的搭建配置.本文假设读者具有hadoop单机配置的基础,相同的部分不在重述。以三台测试机为例搭建一个小集群,三台机器的ip分别为192.168.200.1;192.168.200.2;192.168.200.3cygwin,jdk的安装同windows下hadoo...
1. 安装JDK
a. 解压jdk
[bigdata001@Yuxi software]$ tar -xvzf jdk-7u60-linux-x64.tar.gz
b. 设置环境变量
PATH=$PATH:$HOME/bin
export JAVA_HOME=/home/bigdata001/BigDataPlatform/jdk1.7.0_60
export JAVA...
分类:
其他好文 时间:
2014-08-19 20:53:05
阅读次数:
324
hive mapreduce 都会转成java。所以要用的java分析工具。当看到map或reduce 阶段运行缓慢,我们去线上找到mapreduce的进程:
1. top 发现进程:
2. top -Hp 32486 找到进程中cpu或mem磁盘消耗最高的线程:
3. 用jstack主要用来查看某个Java进程内的线程堆栈信息:
bin/jstack -F 26510
...
分类:
其他好文 时间:
2014-08-19 19:14:35
阅读次数:
291
FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.metastore.HiveMetaStoreClient
未启动hive元...
分类:
数据库 时间:
2014-08-19 19:06:55
阅读次数:
281