1.概述 上一章《那些年使用Hive踩过的坑》介绍了Hive的基本架构及原理,加下来介绍Hive的基本操作和一些注意事项。2.基本操作2.1Create Table2.1.1介绍? CREATE TABLE 创建一个指定名字的表。如果相同名字的表已经存在,则抛出异常;用户可以用 IF NOT EX....
分类:
其他好文 时间:
2015-03-20 20:06:05
阅读次数:
178
hive hive是基于hadoop的一个数据仓库工具,可将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可将sql转换为MapReduce任务运行。hive不适合用于联机事务处理,也不提供实时查询,他适合应用在基于大量不可变的批处理作业。 hive架构分为四个部分: 用户接口:....
分类:
其他好文 时间:
2015-03-20 18:03:51
阅读次数:
128
问题:14/10/2015:53:14[HiveServer2-Handler-Pool:Thread-53]:WARNthrift.ThriftCLIService:Errorfetchingresults:org.apache.hive.service.cli.HiveSQLException:Couldn‘tfindlogassociatedwithoperationhandle:OperationHandle[opType=EXECUTE_STATEMENT,getHandleIdentifier..
分类:
其他好文 时间:
2015-03-19 16:40:22
阅读次数:
2177
因为CDH上需要用它来建HIVE的元库。。。参考:http://www.cnblogs.com/mchina/archive/2012/06/06/2539003.html一、简介PostgreSQL 是一种非常复杂的对象-关系型数据库管理系统(ORDBMS),也是目前功能最强大,特性最丰富和最复杂...
分类:
数据库 时间:
2015-03-19 16:08:01
阅读次数:
242
业务保障部有一个需求,需要用hive实时计算上一小时的数据,比如现在是12点,我需要计算11点的数据,而且必须在1小时之后运行出来,但是他们用hive实现的时候发现就单个map任务运行都超过了1小时,根本没法满足需求,后来打电话让我帮忙优化一下,以下是优化过程:...
分类:
其他好文 时间:
2015-03-19 14:56:08
阅读次数:
246
Common Join 最为普通的join策略,不受数据量的大小影响,也可以叫做reduce side join ,最没效率的一种join 方式. 它由一个mapreduce job 完成. 首先将大表和小表分别进行map 操作, 在map shuffle 的阶段每一个m...
分类:
其他好文 时间:
2015-03-18 16:10:56
阅读次数:
185
if the hive version not support drop table tablename purge.your drop table command will move data to .Trash in hdfs.dfs .Trash;drop table tablename;df...
分类:
其他好文 时间:
2015-03-18 15:25:01
阅读次数:
131
--https://github.com/slimandslam/pig-hive-wordcount/blob/master/wordcount.hqlDROP TABLE myinput;DROP TABLE wordcount;CREATE TABLE myinput (line STRING...
分类:
其他好文 时间:
2015-03-18 15:18:57
阅读次数:
116
大数据提取价值信息技术实现方案
分5步:
1、通过FTP采集文件
2、把文件入到HDFS系统
3、使用HIVE从HDFS中选择数据
4、使用DataStage或Infomatica把数据入库
5、入库到Sybase IQ数据库...
分类:
其他好文 时间:
2015-03-18 14:06:18
阅读次数:
128
1. Impala架构 ?????? Impala是Cloudera在受到Google的Dremel启发下开发的实时交互SQL大数据查询工具,Impala没有再使用缓慢的Hive+MapReduce批处理,而是通过使用与商用并行关系数据库中类似的分布式查询引...
分类:
其他好文 时间:
2015-03-18 12:34:49
阅读次数:
214