分享两篇文章,结合看更清楚一点。背景假设有一个学生各门课的成绩的表单,应用hive取出每科成绩前100名的学生成绩。这个就是典型在分组取Top N的需求。解决思路对于取出每科成绩前100名的学生成绩,针对学生成绩表,根据学科,成绩做order by排序,然后对排序后的成绩,执行自定义函数row_nu...
分类:
其他好文 时间:
2015-08-13 00:53:05
阅读次数:
282
Hive 是基于Hadoop 构建的一套数据仓库分析系统,它提供了丰富的SQL查询方式来分析存储在Hadoop 分布式文件系统中的数据,可以将结构化的数据文件映射为一张数据库表,并提供完整的SQL查询功能,可以将SQL语句转换为MapReduce任务进行运行,通过自己的SQL 去查询分析需要的内容,...
分类:
数据库 时间:
2015-08-13 00:49:32
阅读次数:
359
关于Hadoop HDFS文件的压缩格式选择, 我们通过多个真实的Track数据做测试,得出结论如下: 1.? 系统的默认压缩编码方式 DefaultCodec 无论在压缩性能上还是压缩比上,都优于GZIP 压缩编码。这一点与网上的一些观...
分类:
其他好文 时间:
2015-08-12 23:48:38
阅读次数:
908
通过对Hadoop分布式计算平台最核心的分布式文件系统HDFS、MapReduce处理过程,以及数据仓库工具Hive和分布式数据库Hbase的介绍,基本涵盖了Hadoop分布式平台的所有技术核心。
HDFS的体系架构
整个Hadoop的体系结构主要是通过HDFS来实现对分布式存储的底层支持,并通过MR来实现对分布式并行任务处理的程序支持。
HDFS采用主从(Maste...
分类:
其他好文 时间:
2015-08-12 19:36:08
阅读次数:
110
背景我们使用的HiveServer2的版本为0.13.1-cdh5.3.2,目前的任务使用Hive SQL构建,分为两种类型:手动任务(临时分析需求)、调度任务(常规分析需求),两者均通过我们的Web系统进行提交。以前两种类型的任务都被提交至Yarn中一个名称为“hive”的队列,为了避免两种类型的...
分类:
数据库 时间:
2015-08-12 18:40:43
阅读次数:
9623
转载自http://www.tuicool.com/articles/NzyqAn在基于Hadoop平台的很多应用场景中,我们需要对数据进行离线和实时分析,离线分析可以很容易地借助于Hive来实现统计分析,但是对于实时的需求Hive就不合适了。实时应用场景可以使用Storm,它是一个实时处理系统,它...
分类:
其他好文 时间:
2015-08-12 18:18:39
阅读次数:
134
public class HiveJdbcClient { ????private static String driverName = "org.apache.hadoop.hive.jdbc.HiveDriver"; ? ? ?private static String url = "jdbc:hive://192.168.1.134:10000/default"; ? ...
分类:
数据库 时间:
2015-08-11 23:47:25
阅读次数:
344
解释: 1、JVM重用是hadoop调优参数的内容,对hive的性能具有非常大的影响,特别是对于很难避免小文件的场景或者task特别多的场景,这类场景大多数执行时间都很短。hadoop默认配置是使用派生JVM来执行map和reduc...
分类:
其他好文 时间:
2015-08-11 19:26:44
阅读次数:
463
(2015.07.22Hive笔记) 一、Hive的安装 1.1Hive的安装过程 下载hive源文件(apache-hive-0.14.0-bin.tar.gz ) 解压hive文件 进入$HIVE_HOME/conf/修改文件 cp hive-env.sh.template hive-env.s...
分类:
其他好文 时间:
2015-08-11 17:33:57
阅读次数:
180
研究spark的目的之一就是要取代MR,目前我司MR的一个典型应用场景即为生成Avro文件,然后加载到HIVE表里,所以如何在Spark中生成Avro文件,就是必然之路了。我本人由于对java不熟,对hadoop的各个框架也知之寥寥,所以耗费了五六天的时间才搞明白怎么在spark中生成avro文件。...
分类:
其他好文 时间:
2015-08-11 16:02:42
阅读次数:
454