一:order by order by会对输入做全局排序,因此只有一个Reducer(多个Reducer无法保证全局有序),然而只有一个Reducer,会导致当输入规模较大时,消耗较长的计算时间。关于order by的详细介绍请参考这篇文章:Hive Order by操作。 二:sort by so
分类:
其他好文 时间:
2016-01-31 21:08:58
阅读次数:
284
索引是标准的数据库技术,hive0.7版本之后支持索引。Hive提供有限的索引功能,这不像传统的关系型数据库那样有"键(Key)"的概念,用户可以再某些列上创建索引来加速某些操作,给一个表创建的索引数据被保存在另外的表中。Hive的索引功能现在还相对较晚,提供的选项还较少。但是,索引被设计为可使用内
分类:
其他好文 时间:
2016-01-31 21:06:03
阅读次数:
239
函数分类内置函数:简单函数(map),聚合函数(reduce),集合函数(map),特殊函数正则表达式自定义函数:UDF(map),UDAF(reduce) 1.显示当前会话有多少函数可用show functions2.显示函数的描述信息desc function concat3.显示函数的扩展描述
分类:
其他好文 时间:
2016-01-30 13:29:36
阅读次数:
165
1.Hive支持行级别的查询, 数据更新,不支持多行事务; 2.Hive 有两种数据库, Derby 内置的 mysql 或其他 3. 连接MySQL 时,需要将mysql-jdbc 的驱动包放入hive的lib目录下 4. 变量和属性 四种命名空间: hivavar: 用户自定义变量空间 hive
分类:
其他好文 时间:
2016-01-30 02:04:26
阅读次数:
178
在学习hive的时候遇到了位图索引,查了查资料。现则很难管理如下,算是个基础知识的了解吧。 一:概念介绍: 百度百科: 位图索引主要针对大量相同值的列而创建(例如:类别,操作员,部门ID,库房ID等),索引块的一个索引行中存储键值和起止Rowid,以及这些键值的位置编码,位置编码中的每一位表示键值对
分类:
数据库 时间:
2016-01-28 12:26:53
阅读次数:
372
1、熟悉linux操作,包括常见的命令2、了解学习vmware的一些高级的使用场景3、做了一年的基于rdms数据仓库的开发、ETL工具的开发,彻底了解CUBE的计算过程,同时与分布式里面的hive、kylin原理的理解4、安装使用分布式计算引擎、包括hadoop、spark、storm、kakfa、...
分类:
其他好文 时间:
2016-01-26 08:06:42
阅读次数:
150
转自:http://www.cnblogs.com/ggjucheng/archive/2013/01/03/2842860.html在做Shuffle阶段的优化过程中,遇到了数据倾斜的问题,造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和,优化...
分类:
其他好文 时间:
2016-01-25 19:25:04
阅读次数:
142
Lens 提供了一个统一数据分析接口。通过提供一个跨多个数据存储的单一视图来实现数据分析任务切分,同时优化了执行的环境。无缝的集成 Hadoop 实现类似传统数据仓库的功能。该项目主要特性:简单元数据层为数据存储提供抽象视图层单一的共享模式服务器,基于 Hive 元存储。模式通过数据管道 HCata...
分类:
Web程序 时间:
2016-01-25 19:20:00
阅读次数:
208
前言bucket table(桶表)是对数据进行哈希取值,然后放到不同文件中存储应用场景当数据量比较大,我们需要更快的完成任务,多个map和reduce进程是唯一的选择。但是如果输入文件是一个的话,map任务只能启动一个。此时bucket table是个很好的选择,通过指定CLUSTERED的字段,...
分类:
其他好文 时间:
2016-01-25 12:45:18
阅读次数:
198
参考http://blog.csdn.net/lalaguozhe/article/details/10912527 环境:hadoop2.3cdh5.0.2 hive 1.2.1 目标:安装lzo 测试作业运行与hive表创建使用lzo格式存储 之前安装试用snappy的时候,发现cdh解压后的n...
分类:
其他好文 时间:
2016-01-23 10:20:16
阅读次数:
196