码迷,mamicode.com
首页 >  
搜索关键字:hive udf    ( 6169个结果
hive在命令行消除进度等错误信息
大家在使用shell脚本调用hive命令的时候,发现hive的中间过程竟然打印到错误输出流里面,这样在查看错误日志的时候,需要过滤这些没用的信息,那么可以使用如下的配置参数。set hive.session.silent=true; (默认是false)例如:hive> select from_or...
分类:其他好文   时间:2015-01-09 12:16:08    阅读次数:119
将Hive的默认数据库Derby改为Postgresql
Hive的默认数据库为Derby,这个数据库用于自己调试是可以的,但是要面对大量数据就有些力不从心了,所以接下来我要将Derby换为Postgresql,我会具体说一下在更换过程中需要注意的地方。 首先,下载Hive,我们直接...
分类:数据库   时间:2015-01-09 10:56:10    阅读次数:195
Hadoop实战安装
环境:centos6.4X64192.168.2.20Master192.168.2.21Hadoop1192.168.2.22Hadoop2准备工作:1、安装基本开发工具:(所有服务器)yumgroupinstall"DevelopmentTools"-y2、设置IP和hostname映射关系(所有服务器)vi/etc/hosts修改内容如下192.168.2.20Master192.168.2.21Hadoop11..
分类:其他好文   时间:2015-01-09 01:48:11    阅读次数:275
Tez 整合Hadoop CDH 5.3.0安装部署
子曰:君子食无求饱,居无求安,敏于事而慎于言,就有道而正焉,可谓好学也已。 译文:君子吃不求太饱,住不求太舒适,做事勤快,说话谨慎,向道德高的人学习,并能改正自己的缺点,这样就可以称得上好学了。 最近要把CDH的版本换成了5.3.0,hive的版本从0.12换成了0.13,升级完成后...
分类:其他好文   时间:2015-01-08 14:38:34    阅读次数:427
hive重写分区数据异常
hive设置fs.hdfs.impl.disable.cache=true时,使用insert overwrite命令更改分区数据时会出现把分区的路径修改掉异常,根据源码排查了下出现该问题的原因!...
分类:其他好文   时间:2015-01-08 11:17:48    阅读次数:343
Mapreuduce实现网络数据包的清洗工作
处理后的数据可直接放到hive或者mapreduce程序来统计网络数据流的信息,比如当前实现的是比较简单的http的Get请求的统计第一个mapreduce:将时间、十六进制包头信息提取出来,并放在一行(这里涉及到mapreduce的键值对的对多行的特殊处理,是个值得注意的地方)主要遇到两个问题: ...
分类:其他好文   时间:2015-01-07 20:42:16    阅读次数:193
Sqoop2入门之导入关系型数据库数据到HDFS上
需求:将hive数据库中的TBLS表导出到HDFS之上; $SQOOP2_HOME/bin/sqoop.sh client sqoop:000> set server --host hadoop000 --port 12000 --webapp sqoopServer is set successf...
分类:数据库   时间:2015-01-07 18:26:42    阅读次数:190
zookeeper系列之一—zookeeper入门
Zookeeper是什么? Zookeeper故名思议动物管理员,它是拿来管大象(Hadoop)、蜜蜂(Hive)、小猪(Pig)的管理员,Apache Hbase和Apache Solr以及LinkedIn sensei等项目都采用到了Zookeeper。Zookeeper是一个分布式的,开放源....
分类:其他好文   时间:2015-01-07 18:16:30    阅读次数:131
Hive SQL
Hive 是基于Hadoop 构建的一套数据仓库分析系统,它提供了丰富的SQL查询方式来分析存储在Hadoop 分布式文件系统中的数据,可以将结构 化的数据文件映射为一张数据库表,并提供完整的SQL查询功能,可以将SQL语句...
分类:数据库   时间:2015-01-07 13:22:27    阅读次数:323
hive bucket 桶
对于每一个表(table)或者分区,Hive可以进一步组织成桶。Hive也是针对某一列进行桶的组织。Hive采用对列值哈希,然后除以桶的个数求余的方式决定该条记录存放在哪个桶当中。采用桶能够带来一些好处,比如JOIN操作。对于JOIN操作两个表有一个相同的列,如果对这两个表都进行了桶操作。那么将保存相同列值的桶进行JOIN操作就可以,可以大大较少JOIN的数据量。 hive中table可以拆分成...
分类:其他好文   时间:2015-01-07 10:58:31    阅读次数:160
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!