大家在使用shell脚本调用hive命令的时候,发现hive的中间过程竟然打印到错误输出流里面,这样在查看错误日志的时候,需要过滤这些没用的信息,那么可以使用如下的配置参数。set hive.session.silent=true; (默认是false)例如:hive> select from_or...
分类:
其他好文 时间:
2015-01-09 12:16:08
阅读次数:
119
Hive的默认数据库为Derby,这个数据库用于自己调试是可以的,但是要面对大量数据就有些力不从心了,所以接下来我要将Derby换为Postgresql,我会具体说一下在更换过程中需要注意的地方。 首先,下载Hive,我们直接...
分类:
数据库 时间:
2015-01-09 10:56:10
阅读次数:
195
环境:centos6.4X64192.168.2.20Master192.168.2.21Hadoop1192.168.2.22Hadoop2准备工作:1、安装基本开发工具:(所有服务器)yumgroupinstall"DevelopmentTools"-y2、设置IP和hostname映射关系(所有服务器)vi/etc/hosts修改内容如下192.168.2.20Master192.168.2.21Hadoop11..
分类:
其他好文 时间:
2015-01-09 01:48:11
阅读次数:
275
子曰:君子食无求饱,居无求安,敏于事而慎于言,就有道而正焉,可谓好学也已。 译文:君子吃不求太饱,住不求太舒适,做事勤快,说话谨慎,向道德高的人学习,并能改正自己的缺点,这样就可以称得上好学了。 最近要把CDH的版本换成了5.3.0,hive的版本从0.12换成了0.13,升级完成后...
分类:
其他好文 时间:
2015-01-08 14:38:34
阅读次数:
427
hive设置fs.hdfs.impl.disable.cache=true时,使用insert overwrite命令更改分区数据时会出现把分区的路径修改掉异常,根据源码排查了下出现该问题的原因!...
分类:
其他好文 时间:
2015-01-08 11:17:48
阅读次数:
343
处理后的数据可直接放到hive或者mapreduce程序来统计网络数据流的信息,比如当前实现的是比较简单的http的Get请求的统计第一个mapreduce:将时间、十六进制包头信息提取出来,并放在一行(这里涉及到mapreduce的键值对的对多行的特殊处理,是个值得注意的地方)主要遇到两个问题: ...
分类:
其他好文 时间:
2015-01-07 20:42:16
阅读次数:
193
需求:将hive数据库中的TBLS表导出到HDFS之上; $SQOOP2_HOME/bin/sqoop.sh client sqoop:000> set server --host hadoop000 --port 12000 --webapp sqoopServer is set successf...
分类:
数据库 时间:
2015-01-07 18:26:42
阅读次数:
190
Zookeeper是什么? Zookeeper故名思议动物管理员,它是拿来管大象(Hadoop)、蜜蜂(Hive)、小猪(Pig)的管理员,Apache Hbase和Apache Solr以及LinkedIn sensei等项目都采用到了Zookeeper。Zookeeper是一个分布式的,开放源....
分类:
其他好文 时间:
2015-01-07 18:16:30
阅读次数:
131
Hive 是基于Hadoop 构建的一套数据仓库分析系统,它提供了丰富的SQL查询方式来分析存储在Hadoop 分布式文件系统中的数据,可以将结构 化的数据文件映射为一张数据库表,并提供完整的SQL查询功能,可以将SQL语句...
分类:
数据库 时间:
2015-01-07 13:22:27
阅读次数:
323
对于每一个表(table)或者分区,Hive可以进一步组织成桶。Hive也是针对某一列进行桶的组织。Hive采用对列值哈希,然后除以桶的个数求余的方式决定该条记录存放在哪个桶当中。采用桶能够带来一些好处,比如JOIN操作。对于JOIN操作两个表有一个相同的列,如果对这两个表都进行了桶操作。那么将保存相同列值的桶进行JOIN操作就可以,可以大大较少JOIN的数据量。
hive中table可以拆分成...
分类:
其他好文 时间:
2015-01-07 10:58:31
阅读次数:
160