Shuffle过程是MapReduce的核心,也被称为奇迹发生的地方。要想理解MapReduce, Shuffle是必须要了解的。我看过很多相关的资料,但每次看完都云里雾里的绕着,很难理清大致的逻辑,反而越搅越混。前段时间在做MapReduce job 性能调优的工作,需要深入代码研究MapRedu...
分类:
其他好文 时间:
2014-09-09 11:33:18
阅读次数:
207
sqoop 导入 hive
hive.HiveImport: Exception in thread "main" java.lang.NoSuchMethodError: org.apache.thrift.EncodingUtils.setBit(BIZ)B
ERROR tool.ImportTool: Encountered IOException running import ...
分类:
编程语言 时间:
2014-09-08 03:15:26
阅读次数:
432
ORACLE游标循环有几种用法,下面分别介绍一下。首先定义游标和变量CURSOR C1 IS SELECT eNAME,ejob FROM emp WHERE deptno=10;v_NAME VARCHAR2(10);v_job VARCHAR2(10);第一种:使用loop 循环 open c1...
分类:
数据库 时间:
2014-09-05 18:08:51
阅读次数:
198
通过设置hive.exec.parallel参数,使得在同一sql中的job可以并行的执行,因为在某些场景下,同一sql中,有时子查询之间并无关联。默认情况下为false可以在执行HQL之前,set该参数,hive.exec.parallel=具体某个数值。#####虽然可以保证并行运行,但是会耗费更多的资源。
分类:
其他好文 时间:
2014-09-05 16:27:52
阅读次数:
230
有很多地方可以设置定时任务,比如:Windows的计划任务,Linux下的crontab,各种开发工具里的timer组件。SQLServer也有它的定时任务组件SQLServerAgent,基于它可以方便的部署各种数据库相关的作业(job)。一.作业历史纪录作业的历史纪录按时间采用FIFO原则,当累积的作业历史纪..
分类:
数据库 时间:
2014-09-05 14:30:32
阅读次数:
273
前两周,由于数据库简繁体的转换,大量的数据库需要转到新的服务器。 在转其中的一台的时候,原先导出来的JOBS脚本不翼而飞(原因至今未明),而恰巧这一台服务器有90多个JOB(看下图恢复后的,注意滚动条的长短),这样一来,可急坏了人了。 这么多的JOB要一个一个建立,时间去了不说,有些JOB根本不知道...
分类:
数据库 时间:
2014-09-05 12:53:51
阅读次数:
369
Cloudera提供给客户的服务内容之一就是调整和优化MapReduce job执行性能。MapReduce和HDFS组成一个复杂的分布式系统,并且它们运行着各式各样用户的代码,这样导致没有一个快速有效的规则来实现优化 代码性能的目的。在我看来,调整cluster或job的运行更像一个医生对待病人....
分类:
其他好文 时间:
2014-09-05 12:42:31
阅读次数:
307
今天在导出一个模式的时候,约140GB,出现如下错误:
UDE-00008: operation generated ORACLE error 31626
ORA-31626: job does not exist
ORA-06512: at "SYS.KUPC$QUE_INT", line 536
ORA-25254: time-out in LISTEN while waiting...
分类:
其他好文 时间:
2014-09-04 14:58:09
阅读次数:
337
kettle 进阶教程 非常实用的etl学习教程...
分类:
其他好文 时间:
2014-09-04 08:27:37
阅读次数:
249