搜索关键字：spark-sql，搜索到532个结果！码迷,mamicode.com！

Spark parquet merge metadata问题

在spark sql 1.2.x当中存在一个问题：当我们尝试在一个查询中访问多个parquet文件时，如果这些parquet文件中的字段名和类型是完全一致的、只是字段的顺序不一样，例如一个文件中是name string, id int，另一个文件是id int, name string时，查询会报错，抛出metadata merge的异常。在1.3当中，这个问题其实已经解决。那么在1.2....

分类：Web程序时间：2015-05-05 14:32:34 阅读次数：263

Catalyst Optimizer优化器

Spark SQL的优化器Catalyst是易于扩展的。它同时支持基于规则(rule-based)和基于代价(cost-based)的优化方法。在它内部，Catalyst包含了一个表示树和操作树的规则的通用库。在此框架下，目前实现了针对关系查询处理(如，表达式，逻辑查询计划)的库，和在处理查询执行不同阶段(分析，逻辑优化，物理优化，代码生成)的一些规则。Tree在Catalyst主要的数据类型就是由...

分类：其他好文时间：2015-04-17 11:18:59 阅读次数：206

SparkSQL 初步应用

最近项目中使用SparkSQL来做数据的统计分析，闲来就记录下来。直接上代码： importorg.apache.spark.SparkContext importorg.apache.spark.sql.SQLContext objectSparkSQL{ //定义两个caseclassA和B： //A是用户的基本信息：包括客户号、***号和性别 //B是用户的交易信息..

分类：数据库时间：2015-04-15 15:00:49 阅读次数：565

把Spark SQL的metadata存储到mysql

1：安装配置mysqlyum install mysqlmysql-serverservice mysqld startmysqladmin -u root password newpasswordmysql -u root -p登录mysqlmysql>GRANT ALL PRIVILEGES O...

分类：数据库时间：2015-04-10 19:52:42 阅读次数：178

平易近人、兼容并蓄——Spark SQL 1.3.0概览

摘要：DataFrame API的引入一改RDD API高冷的FP姿态，令Spark变得更加平易近人。外部数据源API体现出的则是兼容并蓄，Spark SQL多元一体的结构化数据处理能力正在逐渐释放。关于作者：连城，Databricks工程师，Spark committer，Spark SQL主要开发者之一。在4月18日召开的 2015 Spark技术峰会上，连城将做名为“四两拨千斤...

分类：数据库时间：2015-04-03 19:26:28 阅读次数：322

把传统的基于sql的企业信息中心迁移到spark 架构应该考虑的几点思考...[修改中]

把传统的基于sql的企业信息中心迁移到spark 架构应该考虑的几点* 理由: 赶时髦, 这还不够大条么?> 数据都设计为NO-SQL模式, 只有需要search的才建立2级索引. 就可以了,未必需要rdbms结构.搜索,和报表可以用spark sql 来进行query.而且spark提供了内置的m...

分类：数据库时间：2015-03-21 12:30:05 阅读次数：129

spark出现task不能序列化错误的解决方法

应用场景：使用JavaHiveContext执行SQL之后，希望能得到其字段名及相应的值，但却出现"Caused by: java.io.NotSerializableException: org.apache.spark.sql.api.java.StructField"的错误，代码如下：Java...

分类：其他好文时间：2015-03-12 16:36:59 阅读次数：337

spark SQL编程动手实战-01

首先创建SparkContext上下文：接着引入隐身转换，用于把RDD转成SchemaRDD: 接下来定义一个case class 来用于描述和存储SQL表中的每一行数据：接下来要加载数据，这里的测试数据是user.txt文件：我们创建好use...

分类：数据库时间：2015-03-02 19:26:20 阅读次数：264

spark SQL编程动手实战-01

首先创建SparkContext上下文：接着引入隐身转换，用于把RDD转成SchemaRDD: 接下来定义一个case class 来用于描述和存储SQL表中的每一行数据：接下来要加载数据，这里的测试数据是user.txt文件：我们创建好use.txt增加内容并上传到hdfs中： web控制台查询： hdfs命令查询：加...

分类：数据库时间：2015-03-02 19:08:17 阅读次数：222

记录一则Spark读写和Lost Excutor错误的分析和解决过程

一、概述上篇blog记录了些在用spark-sql时遇到的一些问题，今天继续记录用Spark提供的RDD转化方法开发公司第一期标签分析系统（一部分scala作业逻辑代码后面blog再给大家分享）遇到的一些SPARK作业错误信息。其中有些问题可能一些数据量或者shuffle量比较小的作业时不会遇到的..

分类：其他好文时间：2015-02-27 18:34:20 阅读次数：205

共532条上一页 1 ... 46 47 48 49 50 ... 54 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)