项目中使用的hive版本低于0.11,无法使用hive在0.11中新加的开窗分析函数。在项目中需要使用到row_number()函数的地方,有人写了udf来实现这个功能。new java project, BuildPath add hadoop-core..jar and hive-exec…ja...
分类:
其他好文 时间:
2015-03-14 16:43:16
阅读次数:
176
一、概述Surus是NetFlix开源的UDFs,是基于pig和hive的数据分析工具。解决问题Surus中的功能能够解决多种多样的问题,例如分数预测模型、异常检测与模式匹配等等,Surus还可以作为提高大数据分析能力的辅助工具。二、系统架构目前开源的UDF功能主要包括两个,包括ScorePMML和Ro..
分类:
其他好文 时间:
2015-03-13 02:03:48
阅读次数:
277
GMV(一定时间内的成交总额)是一个衡量电商网站营业收入的一项重要指标,例如淘宝,京东都有这样的衡量标准,感兴趣的朋友可以自己科普下这方面的概念知识。 当然散仙今天,并不是来解释概念的,而是记录下最近工作...
分类:
数据库 时间:
2015-03-12 22:46:23
阅读次数:
310
首先,hive本身有一个UDF,名字是datediff。我们来看一下这个日期差计算的官方描述,(下面这个是怎么出来的):hive> desc function extended datediff;OKdatediff(date1, date2) - Returns the number of day...
分类:
其他好文 时间:
2015-03-11 23:18:48
阅读次数:
4792
为spark编写UDFcache:作业介绍https://github.com/cs186-spring15/course/tree/master/hw2我花了点时间做了下,觉得是学习sparksql和scala的好材料。现在把我写的作业记录如下:Task#1:ImplementingDiskPartitionandGeneralDiskHashedRelationTask#2:ImplementingobjectDiskHa..
分类:
其他好文 时间:
2015-03-05 15:01:48
阅读次数:
306
http://blog.csdn.net/hpb21/article/details/7852934找了点资料看了下。学习心得如下:1 Mysql更新Redis Mysql更新Redis借鉴memcache与mysql通信,利用mysql udf,每有更新操作触发更新redis操作。不足在高并发时m...
分类:
数据库 时间:
2015-02-28 18:24:55
阅读次数:
271
虽然知道Microsoft Office Excel可以支持用VB语言来进行复杂的编程和自定义函数的编写,但是一直以来都没有这个需求。这次遇到的问题是要根据一列数组计算出一个值,但计算过程又比较复杂,需要经过几步,如果不编程的话总要经过一些中间单元格来完成计算,但这又会使得整个表格变得很臃肿,并且不...
分类:
编程语言 时间:
2015-02-23 21:12:46
阅读次数:
357
一:Hive基本介绍
Hive是建立在Hadoop上的数据仓库基础构架,它提供了一系列工具可以用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模的数据机制。
使用语言:QL语言(类SQL查询语言)。能处理内建的mapper和reducer无法完成的复杂分析工作。
1.Hive是SQL解析引擎,它将SQL语句转译成M/R Job然后再Hadoop执行。
2...
分类:
其他好文 时间:
2015-02-16 11:45:31
阅读次数:
1005
+-------------------------------------------------------------------+
json
+-------------------------------------------------------------------+
{"store":
{"fruit"...
分类:
Web程序 时间:
2015-02-10 16:52:13
阅读次数:
301
之前帮业务方固化过hive-0.7的自定义的UDF,由于现在大部分业务数据都已经迁移到hadoop2.4.0,hive使用的版本是0.13,之前固化的UDF不能用了,让在0.13上面也固化一下,以下是固化过程:...
分类:
其他好文 时间:
2015-02-06 18:47:42
阅读次数:
355