SparkSQL是指整合了Hive的spark-sql cli, 本质上就是通过Hive访问HBase表,具体就是通过hive-hbase-handler, 具体配置参见:Hive(五):hive与hbase整合 目录: SparkSql 访问 hbase配置 测试验证 SparkSql 访问 hb ...
分类:
数据库 时间:
2016-09-01 22:41:11
阅读次数:
221
Spark版本:1.6.2
概览Spark SQL用于处理结构化数据,与Spark RDD API不同,它提供更多关于数据结构信息和计算任务运行信息的接口,Spark SQL内部使用这些额外的信息完成特殊优化。可以通过SQL、DataFrames API、Datasets API与Spark SQL进行交互,无论使用何种方式,SparkSQL使用统一的执行引擎记性处理。...
分类:
数据库 时间:
2016-07-21 13:00:22
阅读次数:
524
sparkSQL 1、主要的数据结构 DataFreames 2、开始使用:SQLContext 创建步骤: Val sc:sparkContext Val sqlContext=new org.apache.spark.sql.SQLContext(sc) Import sqlContext.im ...
分类:
数据库 时间:
2016-07-09 23:45:18
阅读次数:
211
链接:http://pan.baidu.com/s/1dFqbD4l 密码:treq 1.课程研发环境 项目源代码以spark1.5.2,jdk8,scala2.10.5为基准。 开发工具:SCALA IDE eclipse; 其他工具:shell脚本2.内容简介 本教程从最基础的Spark介绍开始 ...
分类:
数据库 时间:
2016-07-08 13:36:57
阅读次数:
171
企业级大数据处理方案有三种业务场景: 1.离线处理;(mapreduce(第一代)、sparksql(第二代)) 2.实时处理;(数据库操作、storm) 3.准实时处理。(spark Streaming) mapreduce与spark对比 mr与spark优缺点对比:(一) a.mapreduc ...
分类:
其他好文 时间:
2016-07-05 10:10:17
阅读次数:
119
上次在spark的一个群里面,众大神议论:dataset会取代rdd么? 大神1:听说之后的mlib都会用dataset来实现,呜呜,rdd要狗带 大神2:dataset主要是用来实现sql的,跟mlib没多大关系,你们说为什么要用dataset呢? 大神3:因为老板喜欢。 在市场上找一个会写sql ...
分类:
数据库 时间:
2016-07-01 13:14:51
阅读次数:
503
注】 1、该系列文章以及使用到安装包/测试数据 可以在《倾情大奉送--Spark入门实战系列》获取; 2、Spark编译与部署将以CentOS 64位操作系统为基础,主要是考虑到实际应用一般使用64位操作系统,内容分为三部分:基础环境搭建、Hadoop编译安装和Spark编译安装,该环境作为后续实验 ...
分类:
其他好文 时间:
2016-06-03 15:45:07
阅读次数:
177
【注】该系列文章以及使用到安装包/测试数据 可以在《倾情大奉送--Spark入门实战系列》获取 1、编译Hadooop 1.1 搭建环境 1.1.1 安装并设置maven 1. 下载maven安装包,建议安装3.0以上版本,本次安装选择的是maven3.0.5的二进制包,下载地址如下 http:// ...
分类:
其他好文 时间:
2016-06-03 15:41:37
阅读次数:
122
【注】该系列文章以及使用到安装包/测试数据 可以在《倾情大奉送--Spark入门实战系列》获取 1、编译Spark Spark可以通过SBT和Maven两种方式进行编译,再通过make-distribution.sh脚本生成部署包。SBT编译需要安装git工具,而Maven安装则需要maven工具, ...
分类:
其他好文 时间:
2016-06-03 15:40:02
阅读次数:
162
maven:3.3.9jdk:javaversion"1.8.0_51"spark:spark-1.6.1.tgzscala:2.11.7如果scala版本是2.11.x,执行如下脚本./dev/change-scala-version.sh2.11spark默认情况下用scala的2.10.5编译编译命令如下:mvn-Pyarn-Phadoop-2.6-Dhadoop.version=2.6.0-Phive-Phive-thriftserver-Ds..
分类:
数据库 时间:
2016-05-31 10:43:09
阅读次数:
1194