码迷,mamicode.com
首页 >  
搜索关键字:hive driver类    ( 5946个结果
Hive[2] 基础介绍
2.3 Hive 内部介绍: P44$HIVE_HOME/lib 下的 jar 文件是具体的功能部分;(CLI模块)其它组件,Thrift 服务,可以远程访问其他进程功能;也有使用 JDBC 和 ODBC 访问 Hive 的功能;所有Hive 客户端都需要一个 metastoreservice(元数...
分类:其他好文   时间:2015-01-11 17:26:04    阅读次数:223
Pig优化之路之巧用Macro
问题:    去年用Pig进行了一系列报表和ETL的开发,感觉Pig很不错,没有Hive的娇贵,又比粗糙的MapReduce来的精巧,很称手。新年正好涉及以前的程序调整,借此之机,对Pig写的脚本进行了优化。毕竟,越用越熟,越能发现Pig的魅力。     在整理以前的Pig程序里,发现了一个问题,就是pig没有提取数据集大小的功能,所以每次要取数据集条数的工作,总会遗留下如下代码: curr...
分类:系统相关   时间:2015-01-09 17:24:48    阅读次数:203
Pexpect--example--hive.py解读
python version 2.6.6 ; pexpect 2.3login方法解读:def login (args, cli_username=None, cli_password=None): # I have to keep a separate list of host names ...
分类:其他好文   时间:2015-01-09 16:55:31    阅读次数:158
Hive[1] 初识 及 安装
本文前提是Hadoop & Java & mysql 数据库,已经安装配置好,并且 环境变量均已经配置到位一、Hive 基本介绍 Hive是Hadoop家族中一款数据仓库产品,Hive最大的特点就是提供了类SQL的语法,封装了底层的MapReduce过程,让有SQL基础的业务人员,也可以直接利用H....
分类:其他好文   时间:2015-01-09 14:03:57    阅读次数:151
hive在命令行消除进度等错误信息
大家在使用shell脚本调用hive命令的时候,发现hive的中间过程竟然打印到错误输出流里面,这样在查看错误日志的时候,需要过滤这些没用的信息,那么可以使用如下的配置参数。set hive.session.silent=true; (默认是false)例如:hive> select from_or...
分类:其他好文   时间:2015-01-09 12:16:08    阅读次数:119
将Hive的默认数据库Derby改为Postgresql
Hive的默认数据库为Derby,这个数据库用于自己调试是可以的,但是要面对大量数据就有些力不从心了,所以接下来我要将Derby换为Postgresql,我会具体说一下在更换过程中需要注意的地方。 首先,下载Hive,我们直接...
分类:数据库   时间:2015-01-09 10:56:10    阅读次数:195
Hadoop实战安装
环境:centos6.4X64192.168.2.20Master192.168.2.21Hadoop1192.168.2.22Hadoop2准备工作:1、安装基本开发工具:(所有服务器)yumgroupinstall"DevelopmentTools"-y2、设置IP和hostname映射关系(所有服务器)vi/etc/hosts修改内容如下192.168.2.20Master192.168.2.21Hadoop11..
分类:其他好文   时间:2015-01-09 01:48:11    阅读次数:275
Tez 整合Hadoop CDH 5.3.0安装部署
子曰:君子食无求饱,居无求安,敏于事而慎于言,就有道而正焉,可谓好学也已。 译文:君子吃不求太饱,住不求太舒适,做事勤快,说话谨慎,向道德高的人学习,并能改正自己的缺点,这样就可以称得上好学了。 最近要把CDH的版本换成了5.3.0,hive的版本从0.12换成了0.13,升级完成后...
分类:其他好文   时间:2015-01-08 14:38:34    阅读次数:427
hive重写分区数据异常
hive设置fs.hdfs.impl.disable.cache=true时,使用insert overwrite命令更改分区数据时会出现把分区的路径修改掉异常,根据源码排查了下出现该问题的原因!...
分类:其他好文   时间:2015-01-08 11:17:48    阅读次数:343
Mapreuduce实现网络数据包的清洗工作
处理后的数据可直接放到hive或者mapreduce程序来统计网络数据流的信息,比如当前实现的是比较简单的http的Get请求的统计第一个mapreduce:将时间、十六进制包头信息提取出来,并放在一行(这里涉及到mapreduce的键值对的对多行的特殊处理,是个值得注意的地方)主要遇到两个问题: ...
分类:其他好文   时间:2015-01-07 20:42:16    阅读次数:193
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!