在spark sql 1.2.x当中存在一个问题:
当我们尝试在一个查询中访问多个parquet文件时,如果这些parquet文件中的字段名和类型是完全一致的、只是字段的顺序不一样,例如一个文件中是name string, id int,另一个文件是id int, name string时,查询会报错,抛出metadata merge的异常。
在1.3当中,这个问题其实已经解决。那么在1.2....
分类:
Web程序 时间:
2015-05-05 14:32:34
阅读次数:
263
Spark SQL的优化器Catalyst是易于扩展的。它同时支持基于规则(rule-based)和基于代价(cost-based)的优化方法。在它内部,Catalyst包含了一个表示树和操作树的规则的通用库。在此框架下,目前实现了针对关系查询处理(如,表达式,逻辑查询计划)的库,和在处理查询执行不同阶段(分析,逻辑优化,物理优化,代码生成)的一些规则。Tree在Catalyst主要的数据类型就是由...
分类:
其他好文 时间:
2015-04-17 11:18:59
阅读次数:
206
最近项目中使用SparkSQL来做数据的统计分析,闲来就记录下来。
直接上代码:
importorg.apache.spark.SparkContext
importorg.apache.spark.sql.SQLContext
objectSparkSQL{
//定义两个caseclassA和B:
//A是用户的基本信息:包括客户号、***号和性别
//B是用户的交易信息..
分类:
数据库 时间:
2015-04-15 15:00:49
阅读次数:
565
1:安装配置mysqlyum install mysqlmysql-serverservice mysqld startmysqladmin -u root password newpasswordmysql -u root -p登录mysqlmysql>GRANT ALL PRIVILEGES O...
分类:
数据库 时间:
2015-04-10 19:52:42
阅读次数:
178
摘要:DataFrame API的引入一改RDD API高冷的FP姿态,令Spark变得更加平易近人。外部数据源API体现出的则是兼容并蓄,Spark SQL多元一体的结构化数据处理能力正在逐渐释放。
关于作者:连城,Databricks工程师,Spark committer,Spark SQL主要开发者之一。在4月18日召开的 2015 Spark技术峰会 上,连城将做名为“四两拨千斤...
分类:
数据库 时间:
2015-04-03 19:26:28
阅读次数:
322
把传统的基于sql的企业信息中心迁移到spark 架构应该考虑的几点* 理由: 赶时髦, 这还不够大条么?> 数据都设计为NO-SQL模式, 只有需要search的才建立2级索引. 就可以了,未必需要rdbms结构.搜索,和报表可以用spark sql 来进行query.而且spark提供了内置的m...
分类:
数据库 时间:
2015-03-21 12:30:05
阅读次数:
129
应用场景:使用JavaHiveContext执行SQL之后,希望能得到其字段名及相应的值,但却出现"Caused by: java.io.NotSerializableException: org.apache.spark.sql.api.java.StructField"的错误,代码如下:Java...
分类:
其他好文 时间:
2015-03-12 16:36:59
阅读次数:
337
首先创建SparkContext上下文: 接着引入隐身转换,用于把RDD转成SchemaRDD: 接下来定义一个case class 来用于描述和存储SQL表中的每一行数据: 接下来要加载数据,这里的测试数据是user.txt文件: 我们创建好use...
分类:
数据库 时间:
2015-03-02 19:26:20
阅读次数:
264
首先创建SparkContext上下文:
接着引入隐身转换,用于把RDD转成SchemaRDD:
接下来定义一个case class 来用于描述和存储SQL表中的每一行数据:
接下来要加载数据,这里的测试数据是user.txt文件:
我们创建好use.txt增加内容并上传到hdfs中:
web控制台查询:
hdfs命令查询:
加...
分类:
数据库 时间:
2015-03-02 19:08:17
阅读次数:
222
一、概述上篇blog记录了些在用spark-sql时遇到的一些问题,今天继续记录用Spark提供的RDD转化方法开发公司第一期标签分析系统(一部分scala作业逻辑代码后面blog再给大家分享)遇到的一些SPARK作业错误信息。其中有些问题可能一些数据量或者shuffle量比较小的作业时不会遇到的..
分类:
其他好文 时间:
2015-02-27 18:34:20
阅读次数:
205