知识点:1、Hive复合数据类型:array collect_set collect_list array_contains sort_array2、lateral view explode(array) lateral view out需求: click_log : ...
分类:
其他好文 时间:
2014-08-27 20:18:48
阅读次数:
1808
需求订单有5个状态:创建、捡货、发送、送达、取消统计:创建和捡货之间不能操作2小时,创建到发送时间不能操作4小时,创建到送达之间不能超过48小时。知识点1)external table2)desc formatted的使用3)virtual column4)Alter FILEFORMAT5)COA...
分类:
其他好文 时间:
2014-08-27 16:20:08
阅读次数:
3508
1、单个etcd节点(测试开发用)
之前我一直开发测试一直是用的一个Etcd节点,然后启动命令一直都是直接打一个etcd(我已经将etcd安装目录的bin目录加入到PATH环境变量中),然后启动信息显示etcd server监听在默认的4001端口,peer server监听在默认的7001端口。
2、三个Etcd节点组成Clustering
然后今天想测试一下集群功能,就按照gut...
分类:
其他好文 时间:
2014-08-27 00:27:57
阅读次数:
549
永久自定义hive函数 1:做这件事的原因: 有一些函数是比较基础的,公用的,每次都要create?temporary?function麻烦了,这样的基础函数需要直接集成到hive中去,避免每次都要创建。 2:步骤 本人拥有一个账户z...
分类:
其他好文 时间:
2014-08-26 17:50:56
阅读次数:
281
Zookeeper是Apache的一个开源项目,在集群管理中十分常用。它的集群搭建也十分简单,只需要简单的配置,集群的各个节点会完成自行通讯,自动选取Leader等。...
分类:
其他好文 时间:
2014-08-26 11:47:46
阅读次数:
262
oracle数据库中Date类型倒入到hive中出现时分秒截断问题解决方案1.问题描述: 用sqoop将oracle数据表倒入到hive中,oracle中Date型数据会出现时分秒截断问题,只保留了‘yyyy-MM-dd',而不是’yyyy-MM-dd HH24:mi:ss'格式的,后面的‘HH2....
分类:
数据库 时间:
2014-08-25 22:31:04
阅读次数:
589
引言:
上一篇文章《【甘道夫】Sqoop1.4.4 实现将 Oracle10g 中的增量数据导入 Hive0.13.1 ,并更新Hive中的主表》http://blog.csdn.net/u010967382/article/details/38735381 描述了增量更新Hive表的原理和Sqoop,Hive命令,本文基于上一篇文章的内容实现了shell脚本的编写,稍加修改就可用于实际工程...
分类:
其他好文 时间:
2014-08-25 19:18:54
阅读次数:
289
1.下载spark源码,在spark源码目录下面有个make-distribution.sh文件,修改里面的参数,使编译后能支持hive,修改后执行该文件。(要预先安装好maven才能编译)。2.将编译好的spark源码部署到机器上,然后将hive/conf中的hive-site.xml拷贝到spa...
分类:
其他好文 时间:
2014-08-25 10:02:34
阅读次数:
271
数据表大概150M,但是只有几个字段,导致行数特别多,当使用正则表达式去匹配时执行较慢。解决思路:增大map数; //设置reduce数为150,将原表分成150份,map数无法直接设置,因为和输入文件数和文件大小等几个参数决定set mapred.reduce.tasks = 150;//在map...
分类:
其他好文 时间:
2014-08-24 14:11:33
阅读次数:
390