码迷,mamicode.com
首页 >  
搜索关键字:hive    ( 5904个结果
Hive Map Join
Hive中的Map Join即map side join工作原理是在Map端把小表加载到内存中,然后读取大表,和内存中的小表完成连接操作。MapJoin使用了分布式缓存技术。 Map Join的优点: 1.不消耗集群的reduce资源。 2.减少了reduce操作,加快了程序执行。 3.降低网络负载
分类:其他好文   时间:2016-01-31 21:13:22    阅读次数:397
Hive动态分区
Hive默认是静态分区,我们在插入数据的时候要手动设置分区,如果源数据量很大的时候,那么针对一个分区就要写一个insert,比如说,我们有很多日志数据,我们要按日期作为分区字段,在插入数据的时候我们不可能手动的去添加分区,那样太麻烦了。还好,Hive提供了动态分区,动态分区简化了我们插入数据时的繁琐
分类:其他好文   时间:2016-01-31 21:12:31    阅读次数:395
Hive中order by,sort by,distribute by,cluster by的区别
一:order by order by会对输入做全局排序,因此只有一个Reducer(多个Reducer无法保证全局有序),然而只有一个Reducer,会导致当输入规模较大时,消耗较长的计算时间。关于order by的详细介绍请参考这篇文章:Hive Order by操作。 二:sort by so
分类:其他好文   时间:2016-01-31 21:08:58    阅读次数:284
Hive bucket桶
对于每一个表(table)或者分区,Hive可以进一步组织成桶。Hive也是针对某一列进行桶的组织。Hive采用对列值哈希,然后除于桶的个数求余的方式决定该条记录存放在哪个桶当中。采用桶能够带来一些好处,比如JOIN操作。对于JOIN操作两个表有一个相同的列,如果对这两个表都进行了桶操作。那么将保存
分类:其他好文   时间:2016-01-31 21:07:37    阅读次数:217
Hive创建索引
索引是标准的数据库技术,hive0.7版本之后支持索引。Hive提供有限的索引功能,这不像传统的关系型数据库那样有"键(Key)"的概念,用户可以再某些列上创建索引来加速某些操作,给一个表创建的索引数据被保存在另外的表中。Hive的索引功能现在还相对较晚,提供的选项还较少。但是,索引被设计为可使用内
分类:其他好文   时间:2016-01-31 21:06:03    阅读次数:239
hive一些函数总结
函数分类内置函数:简单函数(map),聚合函数(reduce),集合函数(map),特殊函数正则表达式自定义函数:UDF(map),UDAF(reduce) 1.显示当前会话有多少函数可用show functions2.显示函数的描述信息desc function concat3.显示函数的扩展描述
分类:其他好文   时间:2016-01-30 13:29:36    阅读次数:165
Hadoop笔记
1.Hive支持行级别的查询, 数据更新,不支持多行事务; 2.Hive 有两种数据库, Derby 内置的 mysql 或其他 3. 连接MySQL 时,需要将mysql-jdbc 的驱动包放入hive的lib目录下 4. 变量和属性 四种命名空间: hivavar: 用户自定义变量空间 hive
分类:其他好文   时间:2016-01-30 02:04:26    阅读次数:178
数据库索引-位图索引
在学习hive的时候遇到了位图索引,查了查资料。现则很难管理如下,算是个基础知识的了解吧。 一:概念介绍: 百度百科: 位图索引主要针对大量相同值的列而创建(例如:类别,操作员,部门ID,库房ID等),索引块的一个索引行中存储键值和起止Rowid,以及这些键值的位置编码,位置编码中的每一位表示键值对
分类:数据库   时间:2016-01-28 12:26:53    阅读次数:372
2015年的总结
1、熟悉linux操作,包括常见的命令2、了解学习vmware的一些高级的使用场景3、做了一年的基于rdms数据仓库的开发、ETL工具的开发,彻底了解CUBE的计算过程,同时与分布式里面的hive、kylin原理的理解4、安装使用分布式计算引擎、包括hadoop、spark、storm、kakfa、...
分类:其他好文   时间:2016-01-26 08:06:42    阅读次数:150
hive大数据倾斜总结
转自:http://www.cnblogs.com/ggjucheng/archive/2013/01/03/2842860.html在做Shuffle阶段的优化过程中,遇到了数据倾斜的问题,造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和,优化...
分类:其他好文   时间:2016-01-25 19:25:04    阅读次数:142
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!