欢迎转载,转载请注明出处,徽沪一郎概要在新近发布的spark 1.0中新加了sql的模块,更为引人注意的是对hive中的hiveql也提供了良好的支持,作为一个源码分析控,了解一下spark是如何完成对hql的支持是一件非常有趣的事情。Hive简介Hive的由来以下部分摘自Hadoop defini...
分类:
其他好文 时间:
2014-07-07 14:45:58
阅读次数:
224
欢迎转载,转载请注明出处,徽沪一郎。楔子Spark计算速度远胜于Hadoop的原因之一就在于中间结果是缓存在内存而不是直接写入到disk,本文尝试分析Spark中存储子系统的构成,并以数据写入和数据读取为例,讲述清楚存储子系统中各部件的交互关系。存储子系统概览上图是Spark存储子系统中几个主要模块...
分类:
其他好文 时间:
2014-07-07 14:30:41
阅读次数:
304
欢迎转载,转载请注明出处,徽沪一郎。楔子Hive是基于Hadoop的开源数据仓库工具,提供了类似于SQL的HiveQL语言,使得上层的数据分析人员不用知道太多MapReduce的知识就能对存储于Hdfs中的海量数据进行分析。由于这一特性而收到广泛的欢迎。Hive的整体框架中有一个重要的模块是执行模块...
分类:
其他好文 时间:
2014-07-07 14:17:47
阅读次数:
295
参考:http://wiki.python.org/moin/ParallelProcessinghttp://wiki.python.org/moin/DistributedProgramming分布式:http://www.celeryproject.org/http://www.paralle...
分类:
编程语言 时间:
2014-07-07 14:09:14
阅读次数:
192
通信接口是webservice快还是scoket快webservice和scoket都可以做为通信接口,一个走HTTP访问,一个走TCP协议访问问1:通讯速度是webservice快还是scoket快问2:并发数量是webservice大还是scoket大问3:大数据包是webservice合适还是...
分类:
Web程序 时间:
2014-07-07 13:35:21
阅读次数:
212
2004年Google发表了一篇非常具有影响力的论文向全世界介绍了MapReduce框架,该框架可以把一个应用程序分解为许多并行计算指令,跨大量的计算节点运行非常巨大的数据集。时至今日,MapReduce已经成为并行分布式计算领域的一个高度流行的基础设施和编程模型,它是Apache Hadoop的基...
分类:
其他好文 时间:
2014-07-01 00:21:41
阅读次数:
320
(Procedure Language,过程化语言)SQL 1999各大数据库厂商通用的一种结构化语言 PL/SQL只支持Oracle数据库
基本语法
多行注释 /* */ 单行注释 --
PLSQL程序块
结构
[declare]
定义变量
begin
过程语句
[exception]
处理 异常
end;
例子 输出helloworld
begin
dbms_output.put_line('hello');
end;
--如果...
分类:
数据库 时间:
2014-06-30 18:55:36
阅读次数:
337
使用sqoop-1.4.4.bin__hadoop-2.0.4-alpha将Oracle11g数据导入HBase0.96...
分类:
数据库 时间:
2014-06-30 08:21:16
阅读次数:
356
有的时候,总是在思考我们所学的技术能够指导我们的生活跟工作不能。在今晚听完包老师的课后,好像有所启发。第一堂课讲的是面向云计算,实时数据处理的数据中心。虽说内容记忆了许多,但是对未来的趋势个人觉得把握的很好。详细讲解了为什么服务器市场是那么的重要,同时也有..
分类:
其他好文 时间:
2014-06-29 21:30:32
阅读次数:
218
packagecom.yuhui.gd.hadoop.hbase;importjava.util.Iterator;importjava.util.Map;importjava.util.Map.Entry;importjava.util.NavigableMap;importjava.util.Set;importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.hbase.HBaseConfiguration;importorg.ap..
分类:
编程语言 时间:
2014-06-29 21:09:00
阅读次数:
453