Mapreduce处理的数据必须具备的特点: --待处理的数据可以分解成许多小的数据集,而且每个数据集都可以完全并行的处理 计算模型的核心部分是map和Reduce函数: --这两个函数的功能由用户根据需要自己实现,只要能够按照用户自定义的规则, 将输入的键值对转换成另一批键值..
分类:
其他好文 时间:
2014-08-20 02:44:46
阅读次数:
213
下面我们进行说明一下hadoop集群的搭建配置.本文假设读者具有hadoop单机配置的基础,相同的部分不在重述。以三台测试机为例搭建一个小集群,三台机器的ip分别为192.168.200.1;192.168.200.2;192.168.200.3cygwin,jdk的安装同windows下hadoo...
1. 安装JDK
a. 解压jdk
[bigdata001@Yuxi software]$ tar -xvzf jdk-7u60-linux-x64.tar.gz
b. 设置环境变量
PATH=$PATH:$HOME/bin
export JAVA_HOME=/home/bigdata001/BigDataPlatform/jdk1.7.0_60
export JAVA...
分类:
其他好文 时间:
2014-08-19 20:53:05
阅读次数:
324
hive mapreduce 都会转成java。所以要用的java分析工具。当看到map或reduce 阶段运行缓慢,我们去线上找到mapreduce的进程:
1. top 发现进程:
2. top -Hp 32486 找到进程中cpu或mem磁盘消耗最高的线程:
3. 用jstack主要用来查看某个Java进程内的线程堆栈信息:
bin/jstack -F 26510
...
分类:
其他好文 时间:
2014-08-19 19:14:35
阅读次数:
291
FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.metastore.HiveMetaStoreClient
未启动hive元...
分类:
数据库 时间:
2014-08-19 19:06:55
阅读次数:
281
部分内容参考:http://www.linuxqq.net/archives/964.html
Hadoop有三个重要的配置文件:core-site.xml,hdfs-site.xml,mapred-site.xml,但这三个文件默认情况下均为空,其默认值保存在core-default.xml,hdfs-default.xml,mapred-default.xml中。这三个默...
分类:
其他好文 时间:
2014-08-19 12:52:44
阅读次数:
205
作者系阿里巴巴集团1688技术部普通码农
引言
周末看到一篇不错的文章“Graph Twiddling in a MapReduce
world” ,介绍MapReduce下一些图算法的实现。文章语言质朴,介绍很多实用图优化技巧。文章2009年发表,至今已经被引用183次,足以证明这篇文章价值。目前这篇文章网上已经有人对这篇文章做了介绍,但仅介绍了其中最简单的两个算法,对其中的所做优化,并...
分类:
其他好文 时间:
2014-08-18 23:36:03
阅读次数:
444
(1)、index.jsp首页面实现
index.jsp
网盘
退出...
分类:
其他好文 时间:
2014-08-18 22:06:03
阅读次数:
295
下面介绍myeclipse与hadoop的集成。我用的myeclipse版本是8.5.1、安装hadoop开发插件在hadoop1.2.1版本的安装包contrib/目录下,已经不再提供hadoop-eclipse-pligin-1.2.1.jar;而是提供了源代码文件,需要我们自行重新编译成jar...