在使用union all的时候,系统资源足够的情况下,为了加快hive处理速度,可以设置如下参数实现并发执行set mapred.job.priority=VERY_HIGH;set hive.exec.parallel=true;设置map reduce个数-- 设置map capacityset...
分类:
其他好文 时间:
2014-07-19 21:37:25
阅读次数:
264
在执行MR将HDFS转换为HFile的时候,出现了如下异常:
14/07/09 18:02:59 INFO mapred.JobClient: map 83% reduce 0%
14/07/09 18:02:59 INFO mapred.JobClient: Task Id : attempt_201401091245_59030413_m_000001_0, Status : FAILE...
分类:
其他好文 时间:
2014-07-10 23:32:44
阅读次数:
323
原创文章,转载请注明: 转载自http://www.cnblogs.com/tovin/p/3832405.html一、Spark简介 1、什么是Spark 发源于AMPLab实验室的分布式内存计算平台,它克服了MapReduce在迭代式计算和交互式计算方面的不足。 相比于MapRed...
分类:
编程语言 时间:
2014-07-09 14:38:04
阅读次数:
266
三、配置Hadoop1、设置$HADOOP_HOME/conf/hadoop-env.sh这个文件中设置的是Hadoop运行时需要的环境变量,在1.2.1版中共有19个环境变量,如下: 变量名称默认值说明JAVA_HOME 设置JDK的路径,这个必须设置,否则Hadoop无法启动,值如:/usr/local/jdk1.6.0_33HADOOP_CLASSPATH空这个用以设置用户的类路径,也可以在...
分类:
其他好文 时间:
2014-06-16 19:59:35
阅读次数:
380
1、pig安装 1)解压,重命名、设置环境变量,同hadoop 2)编辑文件$PIG_HOME/conf/pig.properties,增加两行如下内容 fs.default.name=hdfs://hadoop:9000 mapred.job.tracker=hadoop:9001...
分类:
其他好文 时间:
2014-06-14 11:40:40
阅读次数:
205
总的来说,正确的做法是优先通过配置文件,再在具体机器上进行相应进程的启动/停止操作。
网上一些资料说在调整配置文件的时候,优先使用主机名而不是IP进行配置。
总的来说添加/删除DataNode和TaskTracker的方法非常相似,只是操作的配置项和使用的命令有微小差异。
1. DataNode
1.0 配置文件
在namenode下修改配置文件conf/mapred-site.xml。
关键参数dfs.hosts和dfs.hosts.exclude。
注意:不同hado...
分类:
其他好文 时间:
2014-06-01 10:45:08
阅读次数:
340
写在前面前文:用python + hadoop streaming 编写分布式程序(一) --
原理介绍,样例程序与本地调试为了方便,这篇文章里的例子均为伪分布式运行,一般来说只要集群配置得当,在伪分布式下能够运行的程序,在真实集群上也不会有什么问题。为了更好地模拟集群环境,我们可以在mapred-...
分类:
编程语言 时间:
2014-05-30 14:56:56
阅读次数:
309
Hive是基于Hadoop的开源数据仓库工具,提供了类似于SQL的HiveQL语言,使得上层的数据分析人员不用知道太多MapReduce的知识就能对存储于Hdfs中的海量数据进行分析。由于这一特性而收到广泛的欢迎。Hive的整体框架中有一个重要的模块是执行模块,这一部分是用Hadoop中MapRed...
分类:
其他好文 时间:
2014-05-30 14:23:07
阅读次数:
409
lk@lk-virtual-machine:~/hadoop-1.0.1/bin$ ./hadoop jar ~/hadoop-1.0.1/to.jar top.Top input output
14/05/12 03:44:37 WARN mapred.JobClient: Use GenericOptionsParser for parsing the arguments. Applicat...
分类:
其他好文 时间:
2014-05-13 05:38:18
阅读次数:
291
org.apache.hadoop.mapred.JobTracker类是个独立的进程,有自己的main函数。JobTracker是在网络环境中提交及运行MR任务的核心位置。
main方法主要代码有两句:1 //创建jobTracker对象2 JobTracker t...
分类:
其他好文 时间:
2014-05-08 22:51:48
阅读次数:
368