Java连接hive进行操作的方式有多种,接触到了两种: 首先,hive要起动远程服务接口,命令: hive --service hiveserver -p 50000 & 1. 通过jdbc驱动连接hive 当然还有其他的连接方式,比如ODBC等,这种方式很常用。 不稳定,经常会被大数据量冲挂,不...
分类:
编程语言 时间:
2015-05-12 13:14:57
阅读次数:
152
[Author]: kwu -- 使用嵌套子查询优化hive的SQL...
分类:
数据库 时间:
2015-05-12 11:28:33
阅读次数:
480
Hive数据倾斜(大表join大表)的现象、思路以及解决方案...
分类:
其他好文 时间:
2015-05-12 11:26:00
阅读次数:
227
一、什么是HiveHive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。同时,这个语言也允许熟悉MapReduce开发者的开发自定义的mapper和reducer来处理内建的mapper和reducer无..
分类:
其他好文 时间:
2015-05-11 18:20:38
阅读次数:
171
一、 什么是Hive
Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。同时,这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reducer 来处理内建的 mapper 和 reducer 无法完成的复杂的分析工作。
...
分类:
其他好文 时间:
2015-05-11 14:46:41
阅读次数:
115
[Author]: kwu -- 每日定时导入hive数据仓库的自动化脚本...
分类:
其他好文 时间:
2015-05-11 13:06:06
阅读次数:
419
CLUSTERED BY 将数据分组以进入不同的bucket中 INTO num_buckets BUCKETS]SKEWED BY 对于倾斜的数据,指定在哪些值倾斜,从而做优化。http://docs.hortonworks.com/HDPDocuments/HDP2/HDP-2.0.9.1/bk...
分类:
其他好文 时间:
2015-05-11 12:57:29
阅读次数:
141
1. Hadoop的几个组件MapReduce:将计算打碎,将结果组合Hive:将SQL语句封装Hbase:key-value表,value存储在HDFS中HDFS:分布式数据存储,将value存在不同的主机,并做多份拷贝Zookeeper:各个service的分布式配置,同步配置,并可以管理ser...
分类:
其他好文 时间:
2015-05-11 12:22:05
阅读次数:
121
前言hive0.13开始增加了permanentfunction;允许用户自定义的function无需往.hiverc文件中添加createtemporaryfunction,提高hive的启动时间(无需预先执行创建临时函数命令);并且可以将udfjar包放置于hdfs上,方便管理,无需向hiveclient端推送udf;但是permanentfunction有一..
分类:
数据库 时间:
2015-05-10 20:45:11
阅读次数:
235
首先我们需要打开hiveserver服务:hive --service hiveserver
然后我们和操作普通数据库一样,先加载驱动,然后建立连接,接着创建一个statement,然后执行查询,然会结果集。代码如下(一定要写对sql语句,要仔细,下面的需要注意的地方我已经标示出来了:)
package playHive;
import java.sql.Connection;
import...
分类:
数据库 时间:
2015-05-10 17:18:04
阅读次数:
200