欢迎转载,转载请注明出处,徽沪一郎概要在新近发布的spark 1.0中新加了sql的模块,更为引人注意的是对hive中的hiveql也提供了良好的支持,作为一个源码分析控,了解一下spark是如何完成对hql的支持是一件非常有趣的事情。Hive简介Hive的由来以下部分摘自Hadoop defini...
分类:
其他好文 时间:
2014-07-07 14:45:58
阅读次数:
224
欢迎转载,转载请注明出处,徽沪一郎。楔子Spark计算速度远胜于Hadoop的原因之一就在于中间结果是缓存在内存而不是直接写入到disk,本文尝试分析Spark中存储子系统的构成,并以数据写入和数据读取为例,讲述清楚存储子系统中各部件的交互关系。存储子系统概览上图是Spark存储子系统中几个主要模块...
分类:
其他好文 时间:
2014-07-07 14:30:41
阅读次数:
304
欢迎转载,转载请注明出处,徽沪一郎。楔子Hive是基于Hadoop的开源数据仓库工具,提供了类似于SQL的HiveQL语言,使得上层的数据分析人员不用知道太多MapReduce的知识就能对存储于Hdfs中的海量数据进行分析。由于这一特性而收到广泛的欢迎。Hive的整体框架中有一个重要的模块是执行模块...
分类:
其他好文 时间:
2014-07-07 14:17:47
阅读次数:
295
为了构建基于Yarn体系的Spark集群,先要安装Hadoop集群,为了以后查阅方便记录了我本次安装的具体步骤。...
分类:
其他好文 时间:
2014-07-01 08:17:24
阅读次数:
576
从应用角度,有两点比较重要:
1. HBase中RowKey是按照字典序排列的
2. 不同Column Family的数据,在物理上是分开的...
分类:
其他好文 时间:
2014-07-01 06:43:31
阅读次数:
203
2004年Google发表了一篇非常具有影响力的论文向全世界介绍了MapReduce框架,该框架可以把一个应用程序分解为许多并行计算指令,跨大量的计算节点运行非常巨大的数据集。时至今日,MapReduce已经成为并行分布式计算领域的一个高度流行的基础设施和编程模型,它是Apache Hadoop的基...
分类:
其他好文 时间:
2014-07-01 00:21:41
阅读次数:
320
2.1. 切换到源代码目录,执行:mvn install -DskipTests -Dhttp.proxyHost=proxy01.cd.intel.com -Dhttp.proxyPort=911黄色部分作用为设置代理。由于本人的编译环境在公司内网,所以需要设置代理2.2. 生成eclipse项目...
分类:
系统相关 时间:
2014-06-30 23:05:53
阅读次数:
274
这边文章先将可能的需求分析一下,设计出HBase表,下一步再开始编写客户端代码。
TwiBase系统
1、背景
为了加深HBase基本概念的学习,参考HBase实战这本书实际动手做了这个例子。
2、需求
这是一个用户推特系统,用户登陆到系统,需要维护用户的基本信息,然后用户可以发帖和其他用户进行互动。用户之间可以相互关注,用户可以浏览关注用户的推文等等。
这是一个比...
分类:
其他好文 时间:
2014-06-30 16:32:58
阅读次数:
233
使用sqoop-1.4.4.bin__hadoop-2.0.4-alpha将Oracle11g数据导入HBase0.96...
分类:
数据库 时间:
2014-06-30 08:21:16
阅读次数:
356
packagecom.yuhui.gd.hadoop.hbase;importjava.util.Iterator;importjava.util.Map;importjava.util.Map.Entry;importjava.util.NavigableMap;importjava.util.Set;importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.hbase.HBaseConfiguration;importorg.ap..
分类:
编程语言 时间:
2014-06-29 21:09:00
阅读次数:
453