自定义函数(UDF)UDF全称User Defined Function,即用户自定义函数。ODPS提供了很多内建函数来满足用户的计算需求,同时用户还可以通过创建自定义函数来满足不同的计算需求。UDF在使用上与普通的 SQL内建函数 类似。在ODPS中,用户可以扩展的UDF有三种,分别是:UDF 分...
分类:
编程语言 时间:
2015-05-05 10:28:28
阅读次数:
1342
hive里分了create table和create external table,external table的好处就是表结构和数据是解绑的,删除表并不会删除数据,表相当于就是定义了去解析相对应的文件时的规范而已。一个比较常见的应用场景是将网站的用户浏览数据建立一个外表,然后按天做分区加快查找.....
分类:
其他好文 时间:
2015-05-04 22:06:08
阅读次数:
131
1.通常情况下,作业会通过input的目录产生一个或者多个map任务。主要的决定因素有:input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M,可在hive中通过setdfs.block.size;命令查看到,该参数不能自定义修改);2.举例:a)假设input目录下有1个文件a,大小为78..
分类:
其他好文 时间:
2015-05-04 20:30:32
阅读次数:
225
UDF的定义 和存储过程很相似,用户自定义函数也是一组有序的T-SQL语句,UDF被预先优化和编译并且尅作为一个单元爱进行调用。UDF和存储过程的主要区别在于返回结果的方式。 使用UDF时可传入参数,但不可传出参数。输出参数的概念被更为健壮的返回值取代了。和系统函数一样,可以返回标量值,这个值的.....
分类:
数据库 时间:
2015-05-04 19:52:10
阅读次数:
181
使用hive作为mondrian数据源,实现基于hadoop的数据分析...
分类:
其他好文 时间:
2015-05-04 18:06:14
阅读次数:
1025
1. 通常情况下,作业会通过input的目录产生一个或者多个map任务。 主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到,该...
分类:
其他好文 时间:
2015-05-04 16:01:39
阅读次数:
150
一、简介
作为企业Hadoop应用的核心产品,Hive承载着FaceBook、淘宝等大佬 95%以上的离线统计,很多企业里的离线统计甚至全由Hive完成,如我所在的电商。Hive在企业云计算平台发挥的作用和影响愈来愈大,如何优化提速已经显得至关重要。好的架构胜过任何优化,好的Hql同样会效率大增,修改Hive参数,有时也能起到很好的效果。有了瓶颈才需要优化
1、Hadoop的主要性能瓶颈是IO负...
分类:
其他好文 时间:
2015-05-04 11:55:32
阅读次数:
158
转自:http://blog.csdn.net/gexiaobaohelloworld/article/details/7719163入口:bin/hive脚本中,环境检查后执行ext中的cli.sh,进入主类:CliDriver.main。CliDriver.main:进入cli.processL...
分类:
其他好文 时间:
2015-05-02 17:59:50
阅读次数:
157
配置hiveserver2,基于kerberos认证,使用0.14.0版本,记录中间遇到的问题和访问方式...
分类:
其他好文 时间:
2015-05-01 20:00:44
阅读次数:
277
1、hive开放jdbc接口,开发需要导入jar如下commons-logging-1.0.4.jarhadoop-common-2.6.0.jarhive_exec.jarhive_jdbc.jarhive_metastore.jarhive_service.jarhttpclient-4.2.5...
分类:
数据库 时间:
2015-04-30 17:41:03
阅读次数:
520