共同点:1.hbase与hive都是架构在hadoop之上的。都是用hadoop作为底层存储区别:2.Hive是建立在Hadoop之上为了减少MapReduce jobs编写工作的批处理系统,HBase是为了支持弥补Hadoop对实时操作的缺陷的项目 。3.想象你在操作RMDB数据库,如果是全表扫描...
分类:
其他好文 时间:
2014-07-16 21:30:18
阅读次数:
167
spark-submit \--name SparkSubmit_Demo \--class com.luogankun.spark.WordCount \--master yarn-client \--executor-memory 1G \--total-executor-cores 1 \/h...
分类:
其他好文 时间:
2014-07-16 21:09:32
阅读次数:
260
spark jdbc分支源码下载地址 https://github.com/apache/spark/tree/branch-1.0-jdbc编译spark jdbc ./make-distribution.sh --hadoop 2.3.0-cdh5.0.0 --with-yarn --wit.....
分类:
数据库 时间:
2014-07-16 21:04:35
阅读次数:
306
Hive学习路线图Hadoop家族系列文章,主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa,新增加的项目包括,YARN, Hcatalog, Oozie, C...
分类:
其他好文 时间:
2014-07-11 08:48:52
阅读次数:
291
在spark-shell中可以定制成接近shark的操作,让熟悉sql的人轻松上手。...
分类:
其他好文 时间:
2014-07-10 23:08:16
阅读次数:
210
http://ns.adobe.com/mxml/2009"
xmlns:s="library://ns.adobe.com/flex/spark"
xmlns:mx="library://ns.adobe.com/flex/mx" xmlns:supportClasses="com.esri.ags.skins.supportClasses.*" minWidth...
Spark1.1发布后会支持Spark SQL CLI , Spark SQL的CLI会要求被连接到一个Hive Thrift Server上,来实现类似hive shell的功能。...
分类:
数据库 时间:
2014-07-10 21:14:38
阅读次数:
737
概述
最近工作上忙死了……广播变量这一块其实早就看过了,一直没有贴出来。
本文基于Spark 1.0源码分析,主要探讨广播变量的初始化、创建、读取以及清除。
类关系
BroadcastManager类中包含一个BroadcastFactory对象的引用。大部分操作通过调用BroadcastFactory中的方法来实现。
BroadcastFactory是一个Trait,有两个直接子...
分类:
其他好文 时间:
2014-07-10 19:43:49
阅读次数:
298
本文介绍了spark对hadoop sequencefile的读写支持,实现方式以及简单的使用方法。sequencefile和textfile类似,在上下文里有直接提供读取方法,但最终走的还是hadoopFile方法。...
分类:
其他好文 时间:
2014-07-10 17:11:52
阅读次数:
951
现在 Hadoop 已经发展成为包含多个子项目的集合。虽然其核心内容是 MapReduce 和Hadoop 分布式文件系统(HDFS),但 Hadoop 下的Common 、Avro、 Chukwa、Hive 、HBase等子项目也是不可或缺的。它们提供了互补性服务或在核心层上提供了更高层的服务。以...
分类:
其他好文 时间:
2014-07-10 14:57:00
阅读次数:
333