Hadoop安装 Hadoop安装 Hive元数据三种存储方式 Derby:hive默认的存储模式,不可以并发调用hive 本地MySQL 远程MySQL 采用第二种方式,安装MySQL,启动并创建Hive用户,创建Hive元数据库 insert into mysql.user(Host,User,...
分类:
其他好文 时间:
2016-02-28 12:26:09
阅读次数:
173
[Author]: kwu Sqoop处理Clob与Blob字段,在Oracle中Clob为大文本。Blob存储二进制文件。遇到这类字段导入hive或者hdfs须要特殊处理。 1、oracle中的測试表 CREATE TABLE T_LOB ( A INTEGER, B CLOB, C BLOB )
分类:
其他好文 时间:
2016-02-28 09:53:02
阅读次数:
439
要点:优化时,把hive sql当做map reduce程序来读,会有意想不到的惊喜。 理解hadoop的核心能力,是hive优化的根本。 长期观察hadoop处理数据的过程,有几个显著的特征: 1.不怕数据多,就怕数据倾斜。 2.对jobs数比较多的作业运行效率相对比较低,比如即使有几百行的表,如
分类:
其他好文 时间:
2016-02-26 21:59:40
阅读次数:
274
问题描述如果你在Spark SQL上试图调用在HIVE注册的自定义函数(UDF)时,你可能会遇到这样的错误:Spark SQL: Error in query: undefined function xxxxxx这个问题发生在Spark 1.5.0, 1.5.1和1.5.2版本上,对此Spark官方有一个专门的bug report: https://issues.apache.org/jira/br...
分类:
数据库 时间:
2016-02-26 14:17:19
阅读次数:
308
Hive自定义函数包括三种UDF、UDAF、UDTF UDF(User-Defined-Function) 一进一出 UDAF(User- Defined Aggregation Funcation) 聚集函数,多进一出。Count/max/min UDTF(User-Defined Table-G
分类:
其他好文 时间:
2016-02-24 22:36:39
阅读次数:
268
原文见:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF 1.内置运算符1.1关系运算符 运算符 类型 说明 A = B 所有原始类型 如果A与B相等,返回TRUE,否则返回FALSE A == B 无 失败,因为
分类:
其他好文 时间:
2016-02-24 22:25:51
阅读次数:
332
最近在监控中发现HiveServer2连接到zookeeper里的连接持续上涨,很奇怪,虽然知道HiveServer2支持并发连接,使用ZooKeeper来管理Hive表的读写锁,但我们的环境并不需要这些,我们已经关闭并发功能,以下是线上的配置,甚至把这些值都改成final了。
但是zookeeper连接依然会涨。后来想想,我们要访问的表是hive去映射的hbase,hivese...
分类:
数据库 时间:
2016-02-24 09:43:37
阅读次数:
220
1. 下载hadoop-1.2.1-bin.tar.gz 解压,修改名称为hive mv 到 /opt/hive 2.配置hive cp hive-default.xml.template hive-site.xml 修改hive-site.xml cp hive-log4j.properties.
分类:
其他好文 时间:
2016-02-22 23:38:45
阅读次数:
413
DML主要是对Hive 表中的数据进行操作的(增 删 改),但是由于Hadoop的特性,所以单条的修改、删除,其性能会非常的低所以不支持进行级操作;
分类:
其他好文 时间:
2016-02-22 23:30:15
阅读次数:
257
Hadoop提供的对其HDFS上的数据的处理方式,有以下几种, 1 批处理,mapreduce 2 实时处理:apache storm, spark streaming , ibm streams 3 交互式: 如pig , spark shell 都可以提供交互式地数据处理 4 sql: hive...
分类:
其他好文 时间:
2016-02-22 19:00:09
阅读次数:
156