关于Hadoop HDFS文件的压缩格式选择, 我们通过多个真实的Track数据做测试,得出结论如下: 1.? 系统的默认压缩编码方式 DefaultCodec 无论在压缩性能上还是压缩比上,都优于GZIP 压缩编码。这一点与网上的一些观...
分类:
其他好文 时间:
2015-08-12 23:48:38
阅读次数:
908
通过对Hadoop分布式计算平台最核心的分布式文件系统HDFS、MapReduce处理过程,以及数据仓库工具Hive和分布式数据库Hbase的介绍,基本涵盖了Hadoop分布式平台的所有技术核心。
HDFS的体系架构
整个Hadoop的体系结构主要是通过HDFS来实现对分布式存储的底层支持,并通过MR来实现对分布式并行任务处理的程序支持。
HDFS采用主从(Maste...
分类:
其他好文 时间:
2015-08-12 19:36:08
阅读次数:
110
背景我们使用的HiveServer2的版本为0.13.1-cdh5.3.2,目前的任务使用Hive SQL构建,分为两种类型:手动任务(临时分析需求)、调度任务(常规分析需求),两者均通过我们的Web系统进行提交。以前两种类型的任务都被提交至Yarn中一个名称为“hive”的队列,为了避免两种类型的...
分类:
数据库 时间:
2015-08-12 18:40:43
阅读次数:
9623
转载自http://www.tuicool.com/articles/NzyqAn在基于Hadoop平台的很多应用场景中,我们需要对数据进行离线和实时分析,离线分析可以很容易地借助于Hive来实现统计分析,但是对于实时的需求Hive就不合适了。实时应用场景可以使用Storm,它是一个实时处理系统,它...
分类:
其他好文 时间:
2015-08-12 18:18:39
阅读次数:
134
public class HiveJdbcClient { ????private static String driverName = "org.apache.hadoop.hive.jdbc.HiveDriver"; ? ? ?private static String url = "jdbc:hive://192.168.1.134:10000/default"; ? ...
分类:
数据库 时间:
2015-08-11 23:47:25
阅读次数:
344
解释: 1、JVM重用是hadoop调优参数的内容,对hive的性能具有非常大的影响,特别是对于很难避免小文件的场景或者task特别多的场景,这类场景大多数执行时间都很短。hadoop默认配置是使用派生JVM来执行map和reduc...
分类:
其他好文 时间:
2015-08-11 19:26:44
阅读次数:
463
(2015.07.22Hive笔记) 一、Hive的安装 1.1Hive的安装过程 下载hive源文件(apache-hive-0.14.0-bin.tar.gz ) 解压hive文件 进入$HIVE_HOME/conf/修改文件 cp hive-env.sh.template hive-env.s...
分类:
其他好文 时间:
2015-08-11 17:33:57
阅读次数:
180
研究spark的目的之一就是要取代MR,目前我司MR的一个典型应用场景即为生成Avro文件,然后加载到HIVE表里,所以如何在Spark中生成Avro文件,就是必然之路了。我本人由于对java不熟,对hadoop的各个框架也知之寥寥,所以耗费了五六天的时间才搞明白怎么在spark中生成avro文件。...
分类:
其他好文 时间:
2015-08-11 16:02:42
阅读次数:
454
1. 根据字符串分割实现一行变多行关键字:LATERAL VIEW, explode,splitSELECT ad_time_slice_index, SUM(impression_count) FROM base_tracking_logs LATERRAL VIEW EXPLODE(SPLIT(...
分类:
其他好文 时间:
2015-08-11 13:36:12
阅读次数:
167
Hadoop 生态圈commonArvoMapReduceHDFSPigHive 一个分布式、按列存储的数据仓库。Hive管理HDFS中存储的数据,并提供基于SQL的查询语言(由运行时引擎翻译成MapReduce作业)用以查询数据。HBase 一个分布式、按列存储数据库。HBase使用HD...
分类:
其他好文 时间:
2015-08-11 10:02:45
阅读次数:
132