## RCFile 之前听说 RCFile 在读取数据时可以跳过不需要的列,不需要将一整行读入然后选择所需字段,所以在 Hive 中执行 `select a, b from tableA where c = 1` 这样的操作就相对比较高效。为了满足好奇心,找了...
分类:
其他好文 时间:
2014-08-22 22:39:30
阅读次数:
315
问题:有如下数据文件 city.txt (id, city, value)cat city.txt1 wh 5002 bj 6003 wh 1004 sh 4005 wh 2006 bj 1007 sh 2008 bj 3009 sh 900需要按 city 分组聚合,然后从每组数据中取出前两条va...
分类:
其他好文 时间:
2014-08-22 22:25:40
阅读次数:
455
regex insert join group cli...
分类:
其他好文 时间:
2014-08-22 14:32:28
阅读次数:
221
Hive是为了简化编写MapReduce程序而生的,使用MapReduce做过数据分析的人都知道,很多分析程序除业务逻辑不同外,程序流程基本一样。在这种情况下,就需要Hive这样的用戶编程接口。Hive本身不存储和计算数据,它完全依赖于HDFS和MapReduce,Hive中的表纯逻辑,就是些表的定义等,也就是表的元数据。使用SQL实现Hive是因为SQL大家都熟悉,转换成本低,类似作用的Pig就...
分类:
其他好文 时间:
2014-08-21 19:27:44
阅读次数:
148
需求
将Oracle中的业务基础表增量数据导入Hive中,与当前的全量表合并为最新的全量表。
设计
涉及的三张表:
全量表:保存了截止上一次同步时间的全量基础数据表
增量表:增量临时表
更新后的全量表:更新后的全量数据表
步骤:
通过Sqoop将Oracle中的表导入Hive,模拟全量表和增量表
通过Hive将“全量...
分类:
数据库 时间:
2014-08-21 19:22:14
阅读次数:
455
Shell脚本执行hive语句 | hive以日期建立分区表 | linux schedule程序...
分类:
系统相关 时间:
2014-08-21 13:25:44
阅读次数:
350
这里罗列常用操作,更多参考https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DDL#LanguageManualDDL-Create%2FDrop%2FTruncateTable简单的创建表create table tab...
分类:
其他好文 时间:
2014-08-21 11:21:24
阅读次数:
234
今天测试了一下类似null = ‘abc‘之类的表达式在hive sql中的值。 总结如下: 有null参与的所有比较运算结果都为null。例如:null = ‘a‘; ‘a‘ = null; null > 1; null != 1; 当where子句中出现null = ‘a‘这类结果为...
分类:
其他好文 时间:
2014-08-20 22:50:33
阅读次数:
265
环境:
hadoop2.2.0
hive0.13.1
Ubuntu 14.04 LTS
java version "1.7.0_60"
Oracle10g
到以下地址下载安装包
http://mirrors.cnnic.cn/apache/hive/stable/apache-hive-0.13.1-bin.tar.gz...
分类:
数据库 时间:
2014-08-20 19:43:12
阅读次数:
363
hive partitions hdfs 内部表 外部表 view...
分类:
其他好文 时间:
2014-08-20 19:39:52
阅读次数:
191