项目背景: 本公司需要处理一份数据,这份数据有这样的特点,一行数据长度是1924个,一共有88个字段,且知道每个字段按顺序的长度。但是如果直接创建表的话也是行的,只不过写很复杂的正则表达式。而且效率方面可...
分类:
其他好文 时间:
2014-08-29 11:17:58
阅读次数:
286
由于 hive 与传统关系型数据库面对的业务场景及底层技术架构都有着很大差异,因此,传统数据库领域的一些技能放到 Hive 中可能已不再适用。关于 hive 的优化与原理、应用的文章,前面也陆陆续续的介绍了一些,但大...
分类:
其他好文 时间:
2014-08-29 05:13:27
阅读次数:
293
hadoop 学习笔记:mapreduce框架详解 开始聊mapreduce,mapreduce是hadoop的计算框架,我 学hadoop是从hive开始入手,再到hdfs,当我学习hdfs时候,就感觉到hdfs和mapreduce关系的紧密。这个可能是我做技术研...
分类:
其他好文 时间:
2014-08-28 21:18:16
阅读次数:
355
今天在centos6.3上搭建了hadoop+hive+spark系统,在运行/usr/local/spark-1.0.0/bin/spark-shell出现找不到hive相关的类,于是修改了spark-env.sh在spark_classpath里添加了hive的库路径exportSPARK_CLASSPATH=/usr/local/spark-1.0.0/lib_managed/jars/spark-assembly-1.0.0-..
分类:
其他好文 时间:
2014-08-28 15:00:30
阅读次数:
339
orderby sort by distribute by的优化...
分类:
其他好文 时间:
2014-08-28 13:19:09
阅读次数:
294
知识点:1、Hive复合数据类型:array collect_set collect_list array_contains sort_array2、lateral view explode(array) lateral view out需求: click_log : ...
分类:
其他好文 时间:
2014-08-27 20:18:48
阅读次数:
1808
需求订单有5个状态:创建、捡货、发送、送达、取消统计:创建和捡货之间不能操作2小时,创建到发送时间不能操作4小时,创建到送达之间不能超过48小时。知识点1)external table2)desc formatted的使用3)virtual column4)Alter FILEFORMAT5)COA...
分类:
其他好文 时间:
2014-08-27 16:20:08
阅读次数:
3508
永久自定义hive函数 1:做这件事的原因: 有一些函数是比较基础的,公用的,每次都要create?temporary?function麻烦了,这样的基础函数需要直接集成到hive中去,避免每次都要创建。 2:步骤 本人拥有一个账户z...
分类:
其他好文 时间:
2014-08-26 17:50:56
阅读次数:
281
oracle数据库中Date类型倒入到hive中出现时分秒截断问题解决方案1.问题描述: 用sqoop将oracle数据表倒入到hive中,oracle中Date型数据会出现时分秒截断问题,只保留了‘yyyy-MM-dd',而不是’yyyy-MM-dd HH24:mi:ss'格式的,后面的‘HH2....
分类:
数据库 时间:
2014-08-25 22:31:04
阅读次数:
589
引言:
上一篇文章《【甘道夫】Sqoop1.4.4 实现将 Oracle10g 中的增量数据导入 Hive0.13.1 ,并更新Hive中的主表》http://blog.csdn.net/u010967382/article/details/38735381 描述了增量更新Hive表的原理和Sqoop,Hive命令,本文基于上一篇文章的内容实现了shell脚本的编写,稍加修改就可用于实际工程...
分类:
其他好文 时间:
2014-08-25 19:18:54
阅读次数:
289