问题描述如果你在Spark SQL上试图调用在HIVE注册的自定义函数(UDF)时,你可能会遇到这样的错误:Spark SQL: Error in query: undefined function xxxxxx这个问题发生在Spark 1.5.0, 1.5.1和1.5.2版本上,对此Spark官方有一个专门的bug report: https://issues.apache.org/jira/br...
分类:
数据库 时间:
2016-02-26 14:17:19
阅读次数:
308
Hive自定义函数包括三种UDF、UDAF、UDTF UDF(User-Defined-Function) 一进一出 UDAF(User- Defined Aggregation Funcation) 聚集函数,多进一出。Count/max/min UDTF(User-Defined Table-G
分类:
其他好文 时间:
2016-02-24 22:36:39
阅读次数:
268
原文见:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF 1.内置运算符1.1关系运算符 运算符 类型 说明 A = B 所有原始类型 如果A与B相等,返回TRUE,否则返回FALSE A == B 无 失败,因为
分类:
其他好文 时间:
2016-02-24 22:25:51
阅读次数:
332
最近在监控中发现HiveServer2连接到zookeeper里的连接持续上涨,很奇怪,虽然知道HiveServer2支持并发连接,使用ZooKeeper来管理Hive表的读写锁,但我们的环境并不需要这些,我们已经关闭并发功能,以下是线上的配置,甚至把这些值都改成final了。
但是zookeeper连接依然会涨。后来想想,我们要访问的表是hive去映射的hbase,hivese...
分类:
数据库 时间:
2016-02-24 09:43:37
阅读次数:
220
1. 下载hadoop-1.2.1-bin.tar.gz 解压,修改名称为hive mv 到 /opt/hive 2.配置hive cp hive-default.xml.template hive-site.xml 修改hive-site.xml cp hive-log4j.properties.
分类:
其他好文 时间:
2016-02-22 23:38:45
阅读次数:
413
DML主要是对Hive 表中的数据进行操作的(增 删 改),但是由于Hadoop的特性,所以单条的修改、删除,其性能会非常的低所以不支持进行级操作;
分类:
其他好文 时间:
2016-02-22 23:30:15
阅读次数:
257
Hadoop提供的对其HDFS上的数据的处理方式,有以下几种, 1 批处理,mapreduce 2 实时处理:apache storm, spark streaming , ibm streams 3 交互式: 如pig , spark shell 都可以提供交互式地数据处理 4 sql: hive...
分类:
其他好文 时间:
2016-02-22 19:00:09
阅读次数:
156
1、 Hive索引概述 Hive的索引目的是提高Hive表指定列的查询速度。 没有索引时。类似'WHERE tab1.col1 = 10' 的查询。Hive会载入整张表或分区。然后处理全部的rows,可是假设在字段col1上面存在索引时。那么仅仅会载入和处理文件的一部分。 与其它传统数据库一样。添加
分类:
其他好文 时间:
2016-02-18 13:37:28
阅读次数:
327
用maven打包写好的jar,在放到hive中作暂时函数时报错。 错误信息例如以下: hive> create temporary function maxvalue as "com.leaf.data.Maximum"; java.lang.SecurityException: Invalid s
分类:
其他好文 时间:
2016-02-16 20:36:53
阅读次数:
875
获取当前UNIX时间戳函数: unix_timestamp语法: unix_timestamp() 返回值: bigint说明: 获得当前时区的UNIX时间戳举例: hive> select unix_timestamp() from dual; OK 1455616811 Time taken:
分类:
其他好文 时间:
2016-02-16 20:35:45
阅读次数:
379