[Author]: kwu --- 基于Cloudera Manager5配置HIVE压缩,配置HIVE的压缩,实际就是配置MapReduce的压缩,包括运行结果及中间结果的压缩。...
分类:
其他好文 时间:
2015-06-24 11:06:33
阅读次数:
148
1、安装依赖包yuminstallrsyncgccopenldap-develpython-ldapmysql-develpython-develpython-setuptoolspython-simplejson
sqlite-devellibxml2-devellibxslt-develcyrus-sasl-devel2、下载hue的cdh版本wgethttp://archive-primary.cloudera.com/cdh5/cdh/5/hue-3.7.0-cdh5.4.2...
分类:
其他好文 时间:
2015-06-23 23:24:28
阅读次数:
602
当Hive的输入由很多个小文件组成时,如果不涉及文件合并的话,那么每个小文件都会启动一个map task。
如果文件过小,以至于map任务启动和初始化的时间大于逻辑处理的时间,会造成资源浪费,甚至发生OutOfMemoryError错误。
因此,当我们启动一个任务时,如果发现输入数据量小但任务数量多时,需要注意在Map前端进行输入小文件合并操作。
同理,向一个表写数据时,注意观察reduce...
分类:
其他好文 时间:
2015-06-23 23:12:55
阅读次数:
143
将hive-site.xml拷贝到$SPARK_HOME/conf中配置如hive使用mysql一样,注意赋予相应的权限。javax.jdo.option.ConnectionURLjdbc:mysql://xxxx:3306/sparkmetadata?createDatabaseIfNotExist=true启动spark-sql要给driver路径spark-sql
--driver-class-path
/usr/local/spark/spa..
分类:
数据库 时间:
2015-06-23 18:12:40
阅读次数:
174
hive的hive-site.xml中加入<property><name>javax.jdo.option.ConnectionURL</name><value>jdbc:mysql://10.20.109.213:3306/hive?createDatabaseIfNotExist=true</value></property><property><name>javax.jdo.option.Connec..
分类:
数据库 时间:
2015-06-23 18:11:33
阅读次数:
170
出现这个问题,是因为spark的excutor执行的时候,缺少hive的依赖包,添加依赖包的参数是:--conf "spark.executor.extraClassPath=/opt/cloudera/parcels/CDH-5.3.1-1.cdh5.3.1.p0.5/lib/hive/lib/*...
分类:
数据库 时间:
2015-06-23 13:30:45
阅读次数:
337
======================================
一、关系函数
1.等值比较:=
语法:A=B
操作类型:所有基本类型
2.不等值比较:
语法:A
操作类型:所有基本类型
3.小于比较:
语法:A
操作类型:所有基本类型
4.空值判断:IS NULL
语法:a is null
操作类型:所有类型
5.非...
分类:
其他好文 时间:
2015-06-23 10:13:20
阅读次数:
179
问题描述:
大数据维稳需求中,客户提供的测试数据为多个字符做分隔符('|#'),在pig中会直接报错,hive中只认第一个分隔符。
由于数据量比较大(160G),在文本中替换成单个字符分隔符已不现实,以下提供两个方案解决这一问题。
样例数据
110|#警察
120|#医院
方案1:利用hive自带的序列化/反序列化的方式RegexSe
...
分类:
其他好文 时间:
2015-06-23 10:12:31
阅读次数:
151
保险公司有一个表记录客户的信息,其中包括有客户的id,name和age(为了演示只列出这几个字段)。
创建Hive的表:
create table customer
(
id int,
age tinyint,
name string
)
partitioned by(dt string)
row format delimited
fields terminated by '|...
分类:
其他好文 时间:
2015-06-23 00:59:38
阅读次数:
175
LanguageManual JoinOptimization
Improvementsto the Hive Optimizer
Hive可以自动优化,在Hive 0.11里面改进了一些优化用例
1、 JOIN的一边适合放在内存,有新的优化方案
a) 把表按照hash表的形式读进内存
b) 只扫描大表
c) fact表只使用少量内存
2、 星型...
分类:
其他好文 时间:
2015-06-21 23:50:36
阅读次数:
144