欢迎转载,转载请注明出处,徽沪一郎概要在新近发布的spark 1.0中新加了sql的模块,更为引人注意的是对hive中的hiveql也提供了良好的支持,作为一个源码分析控,了解一下spark是如何完成对hql的支持是一件非常有趣的事情。Hive简介Hive的由来以下部分摘自Hadoop defini...
分类:
其他好文 时间:
2014-07-07 14:45:58
阅读次数:
224
欢迎转载,转载请注明出处,徽沪一郎。楔子Hive是基于Hadoop的开源数据仓库工具,提供了类似于SQL的HiveQL语言,使得上层的数据分析人员不用知道太多MapReduce的知识就能对存储于Hdfs中的海量数据进行分析。由于这一特性而收到广泛的欢迎。Hive的整体框架中有一个重要的模块是执行模块...
分类:
其他好文 时间:
2014-07-07 14:17:47
阅读次数:
295
在Spark是一种计算框架,在Spark环境下,不仅支持操作单机文件,HDFS文件,同时也可以用Spark对Hbase操作。
企业中数据源会从HBase取出,这就涉及到了读取hbase数据,本文为了尽可能的让大家能尽快实践和操作Hbase,使用的是Spark Shell 来进行Hbase操作。
一、环境:
Haoop2.2.0
Hbase版本0.96.2-hadoop2, r158109...
分类:
其他好文 时间:
2014-07-01 09:29:54
阅读次数:
499
如果你熟悉SharePoint 2007, 你必须知道12 Hive目录。在SharePoint 2010中,12 Hive已经被14 Hive 代替。大多数情况下,都是SharePoint文件的默认路径。...
分类:
其他好文 时间:
2014-07-01 07:47:39
阅读次数:
187
从应用角度,有两点比较重要:
1. HBase中RowKey是按照字典序排列的
2. 不同Column Family的数据,在物理上是分开的...
分类:
其他好文 时间:
2014-07-01 06:43:31
阅读次数:
203
2.1. 切换到源代码目录,执行:mvn install -DskipTests -Dhttp.proxyHost=proxy01.cd.intel.com -Dhttp.proxyPort=911黄色部分作用为设置代理。由于本人的编译环境在公司内网,所以需要设置代理2.2. 生成eclipse项目...
分类:
系统相关 时间:
2014-06-30 23:05:53
阅读次数:
274
这边文章先将可能的需求分析一下,设计出HBase表,下一步再开始编写客户端代码。
TwiBase系统
1、背景
为了加深HBase基本概念的学习,参考HBase实战这本书实际动手做了这个例子。
2、需求
这是一个用户推特系统,用户登陆到系统,需要维护用户的基本信息,然后用户可以发帖和其他用户进行互动。用户之间可以相互关注,用户可以浏览关注用户的推文等等。
这是一个比...
分类:
其他好文 时间:
2014-06-30 16:32:58
阅读次数:
233
使用sqoop-1.4.4.bin__hadoop-2.0.4-alpha将Oracle11g数据导入HBase0.96...
分类:
数据库 时间:
2014-06-30 08:21:16
阅读次数:
356
packagecom.yuhui.gd.hadoop.hbase;importjava.util.Iterator;importjava.util.Map;importjava.util.Map.Entry;importjava.util.NavigableMap;importjava.util.Set;importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.hbase.HBaseConfiguration;importorg.ap..
分类:
编程语言 时间:
2014-06-29 21:09:00
阅读次数:
453