Spark版本:1.6.2
概览Spark SQL用于处理结构化数据,与Spark RDD API不同,它提供更多关于数据结构信息和计算任务运行信息的接口,Spark SQL内部使用这些额外的信息完成特殊优化。可以通过SQL、DataFrames API、Datasets API与Spark SQL进行交互,无论使用何种方式,SparkSQL使用统一的执行引擎记性处理。...
分类:
数据库 时间:
2016-07-21 13:00:22
阅读次数:
524
sparkSQL 1、主要的数据结构 DataFreames 2、开始使用:SQLContext 创建步骤: Val sc:sparkContext Val sqlContext=new org.apache.spark.sql.SQLContext(sc) Import sqlContext.im ...
分类:
数据库 时间:
2016-07-09 23:45:18
阅读次数:
211
链接:http://pan.baidu.com/s/1dFqbD4l 密码:treq 1.课程研发环境 项目源代码以spark1.5.2,jdk8,scala2.10.5为基准。 开发工具:SCALA IDE eclipse; 其他工具:shell脚本2.内容简介 本教程从最基础的Spark介绍开始 ...
分类:
数据库 时间:
2016-07-08 13:36:57
阅读次数:
171
企业级大数据处理方案有三种业务场景: 1.离线处理;(mapreduce(第一代)、sparksql(第二代)) 2.实时处理;(数据库操作、storm) 3.准实时处理。(spark Streaming) mapreduce与spark对比 mr与spark优缺点对比:(一) a.mapreduc ...
分类:
其他好文 时间:
2016-07-05 10:10:17
阅读次数:
119
上次在spark的一个群里面,众大神议论:dataset会取代rdd么? 大神1:听说之后的mlib都会用dataset来实现,呜呜,rdd要狗带 大神2:dataset主要是用来实现sql的,跟mlib没多大关系,你们说为什么要用dataset呢? 大神3:因为老板喜欢。 在市场上找一个会写sql ...
分类:
数据库 时间:
2016-07-01 13:14:51
阅读次数:
503
spark版本:spark-1.6.0-bin-hadoop2.6hive版本:hive 1.2.11.hive-site.xml<property> <name>hive.metastore.uris</name> <value>thrift://master:9083</value></prop ...
分类:
其他好文 时间:
2016-06-29 12:57:36
阅读次数:
249
1. SPARK CONF中添加hive-site.xml hive.metastore.uris thrift://master:9083 2. 启动hive元数据 hive --metastore >meta.log 2>&1 & 3. scala>val hiveContext = new o ...
分类:
数据库 时间:
2016-06-05 13:56:52
阅读次数:
249
maven:3.3.9jdk:javaversion"1.8.0_51"spark:spark-1.6.1.tgzscala:2.11.7如果scala版本是2.11.x,执行如下脚本./dev/change-scala-version.sh2.11spark默认情况下用scala的2.10.5编译编译命令如下:mvn-Pyarn-Phadoop-2.6-Dhadoop.version=2.6.0-Phive-Phive-thriftserver-Ds..
分类:
数据库 时间:
2016-05-31 10:43:09
阅读次数:
1194
DT大数据梦工厂联系方式:新浪微博:www.weibo.com/ilovepains/微信公众号:DT_Spark博客:http://.blog.sina.com.cn/ilovepains一:sparkSQL 下的Parquet意义再思考存储空间包括:内存和磁盘,计算方面如果说HDFS是大数据时代分布式文件系统存储的事实标准的话,parquet则是整个大数据时代文件存储格式的事实标准。1、 速度...
分类:
数据库 时间:
2016-05-13 02:00:33
阅读次数:
275
Spark SQL加载数据
SparkSQl 数据输入输入输出主要是DataFrame,DataFrame提供了一些通用的load和save操作。
通过load可以创建出DataFrame;通过save可以将DataFrame数据保存到文件中或者说以具体的格式来指明要读取的文件是什么格式或者输出的数据是什么格式;直接读取 文件的指定类型:
SQLContext源码:
load 和sa...
分类:
数据库 时间:
2016-05-13 01:11:30
阅读次数:
350