码迷,mamicode.com
首页 >  
搜索关键字:spark-sql    ( 532个结果
Spark parquet merge metadata问题
在spark sql 1.2.x当中存在一个问题: 当我们尝试在一个查询中访问多个parquet文件时,如果这些parquet文件中的字段名和类型是完全一致的、只是字段的顺序不一样,例如一个文件中是name string, id int,另一个文件是id int, name string时,查询会报错,抛出metadata merge的异常。 在1.3当中,这个问题其实已经解决。那么在1.2....
分类:Web程序   时间:2015-05-05 14:32:34    阅读次数:263
Catalyst Optimizer优化器
Spark SQL的优化器Catalyst是易于扩展的。它同时支持基于规则(rule-based)和基于代价(cost-based)的优化方法。在它内部,Catalyst包含了一个表示树和操作树的规则的通用库。在此框架下,目前实现了针对关系查询处理(如,表达式,逻辑查询计划)的库,和在处理查询执行不同阶段(分析,逻辑优化,物理优化,代码生成)的一些规则。Tree在Catalyst主要的数据类型就是由...
分类:其他好文   时间:2015-04-17 11:18:59    阅读次数:206
SparkSQL 初步应用
最近项目中使用SparkSQL来做数据的统计分析,闲来就记录下来。 直接上代码: importorg.apache.spark.SparkContext importorg.apache.spark.sql.SQLContext objectSparkSQL{ //定义两个caseclassA和B: //A是用户的基本信息:包括客户号、***号和性别 //B是用户的交易信息..
分类:数据库   时间:2015-04-15 15:00:49    阅读次数:565
把Spark SQL的metadata存储到mysql
1:安装配置mysqlyum install mysqlmysql-serverservice mysqld startmysqladmin -u root password newpasswordmysql -u root -p登录mysqlmysql>GRANT ALL PRIVILEGES O...
分类:数据库   时间:2015-04-10 19:52:42    阅读次数:178
平易近人、兼容并蓄——Spark SQL 1.3.0概览
摘要:DataFrame API的引入一改RDD API高冷的FP姿态,令Spark变得更加平易近人。外部数据源API体现出的则是兼容并蓄,Spark SQL多元一体的结构化数据处理能力正在逐渐释放。 关于作者:连城,Databricks工程师,Spark committer,Spark SQL主要开发者之一。在4月18日召开的 2015 Spark技术峰会 上,连城将做名为“四两拨千斤...
分类:数据库   时间:2015-04-03 19:26:28    阅读次数:322
把传统的基于sql的企业信息中心迁移到spark 架构应该考虑的几点思考...[修改中]
把传统的基于sql的企业信息中心迁移到spark 架构应该考虑的几点* 理由: 赶时髦, 这还不够大条么?> 数据都设计为NO-SQL模式, 只有需要search的才建立2级索引. 就可以了,未必需要rdbms结构.搜索,和报表可以用spark sql 来进行query.而且spark提供了内置的m...
分类:数据库   时间:2015-03-21 12:30:05    阅读次数:129
spark出现task不能序列化错误的解决方法
应用场景:使用JavaHiveContext执行SQL之后,希望能得到其字段名及相应的值,但却出现"Caused by: java.io.NotSerializableException: org.apache.spark.sql.api.java.StructField"的错误,代码如下:Java...
分类:其他好文   时间:2015-03-12 16:36:59    阅读次数:337
spark SQL编程动手实战-01
首先创建SparkContext上下文: 接着引入隐身转换,用于把RDD转成SchemaRDD: 接下来定义一个case class 来用于描述和存储SQL表中的每一行数据: 接下来要加载数据,这里的测试数据是user.txt文件: 我们创建好use...
分类:数据库   时间:2015-03-02 19:26:20    阅读次数:264
spark SQL编程动手实战-01
首先创建SparkContext上下文: 接着引入隐身转换,用于把RDD转成SchemaRDD: 接下来定义一个case class 来用于描述和存储SQL表中的每一行数据: 接下来要加载数据,这里的测试数据是user.txt文件: 我们创建好use.txt增加内容并上传到hdfs中: web控制台查询: hdfs命令查询: 加...
分类:数据库   时间:2015-03-02 19:08:17    阅读次数:222
记录一则Spark读写和Lost Excutor错误的分析和解决过程
一、概述上篇blog记录了些在用spark-sql时遇到的一些问题,今天继续记录用Spark提供的RDD转化方法开发公司第一期标签分析系统(一部分scala作业逻辑代码后面blog再给大家分享)遇到的一些SPARK作业错误信息。其中有些问题可能一些数据量或者shuffle量比较小的作业时不会遇到的..
分类:其他好文   时间:2015-02-27 18:34:20    阅读次数:205
532条   上一页 1 ... 46 47 48 49 50 ... 54 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!