大数据实践:ODI和Twitter(二) 在前面的文章中,我们已经使用flume将数据从twitter抓取到Hive中,现在我们来看看ODI(Oracle Data Integrator)如何在HIVE表中进行逆向工程,打开HIVE模型,然后在逆向工程中选择“新的数据存储”及待逆向的对象,如下: ....
分类:
其他好文 时间:
2015-01-12 00:08:37
阅读次数:
249
Hive 支持关系型数据库中的大多数据基本数据类型,同时也支持3种集合类型;3.1 Hive 的基本数据类型支持多种不同他度的整形和浮点型数据类型,具体如下(全都是保留字):tinyint 1byte 有符号整数smalint 2byte有符号号数int 4byte有符号号数bigint 8...
分类:
其他好文 时间:
2015-01-11 20:15:26
阅读次数:
213
2.3 Hive 内部介绍: P44$HIVE_HOME/lib 下的 jar 文件是具体的功能部分;(CLI模块)其它组件,Thrift 服务,可以远程访问其他进程功能;也有使用 JDBC 和 ODBC 访问 Hive 的功能;所有Hive 客户端都需要一个 metastoreservice(元数...
分类:
其他好文 时间:
2015-01-11 17:26:04
阅读次数:
223
问题:
去年用Pig进行了一系列报表和ETL的开发,感觉Pig很不错,没有Hive的娇贵,又比粗糙的MapReduce来的精巧,很称手。新年正好涉及以前的程序调整,借此之机,对Pig写的脚本进行了优化。毕竟,越用越熟,越能发现Pig的魅力。
在整理以前的Pig程序里,发现了一个问题,就是pig没有提取数据集大小的功能,所以每次要取数据集条数的工作,总会遗留下如下代码:
curr...
分类:
系统相关 时间:
2015-01-09 17:24:48
阅读次数:
203
python version 2.6.6 ; pexpect 2.3login方法解读:def login (args, cli_username=None, cli_password=None): # I have to keep a separate list of host names ...
分类:
其他好文 时间:
2015-01-09 16:55:31
阅读次数:
158
本文前提是Hadoop & Java & mysql 数据库,已经安装配置好,并且 环境变量均已经配置到位一、Hive 基本介绍 Hive是Hadoop家族中一款数据仓库产品,Hive最大的特点就是提供了类SQL的语法,封装了底层的MapReduce过程,让有SQL基础的业务人员,也可以直接利用H....
分类:
其他好文 时间:
2015-01-09 14:03:57
阅读次数:
151
大家在使用shell脚本调用hive命令的时候,发现hive的中间过程竟然打印到错误输出流里面,这样在查看错误日志的时候,需要过滤这些没用的信息,那么可以使用如下的配置参数。set hive.session.silent=true; (默认是false)例如:hive> select from_or...
分类:
其他好文 时间:
2015-01-09 12:16:08
阅读次数:
119
Hive的默认数据库为Derby,这个数据库用于自己调试是可以的,但是要面对大量数据就有些力不从心了,所以接下来我要将Derby换为Postgresql,我会具体说一下在更换过程中需要注意的地方。 首先,下载Hive,我们直接...
分类:
数据库 时间:
2015-01-09 10:56:10
阅读次数:
195
环境:centos6.4X64192.168.2.20Master192.168.2.21Hadoop1192.168.2.22Hadoop2准备工作:1、安装基本开发工具:(所有服务器)yumgroupinstall"DevelopmentTools"-y2、设置IP和hostname映射关系(所有服务器)vi/etc/hosts修改内容如下192.168.2.20Master192.168.2.21Hadoop11..
分类:
其他好文 时间:
2015-01-09 01:48:11
阅读次数:
275
子曰:君子食无求饱,居无求安,敏于事而慎于言,就有道而正焉,可谓好学也已。 译文:君子吃不求太饱,住不求太舒适,做事勤快,说话谨慎,向道德高的人学习,并能改正自己的缺点,这样就可以称得上好学了。 最近要把CDH的版本换成了5.3.0,hive的版本从0.12换成了0.13,升级完成后...
分类:
其他好文 时间:
2015-01-08 14:38:34
阅读次数:
427