最近在研究flink,发现较新版的flink支持sql,这下好了,我用spark两年了,对用法和性能算是踩过一些坑了。 听说flink挺快的,那么flinkSQL和sparkSQL到底哪个快呢? 想必很多人也想知道吧,那就拿数据说话(虽然不是自己做的基线测试,但好歹也找了好久) 下图是hive, s ...
分类:
数据库 时间:
2018-10-30 19:28:12
阅读次数:
429
一、数据准备: 代码示例: 二、数据准备 代码示例: ...
分类:
数据库 时间:
2018-10-19 19:48:57
阅读次数:
592
今天在非hadoop用户使用sparksql处理 这个句型遇到以下的错误。 修复方式: 将 操作系统 上的/tmp/hadoop hadoop的可写权限赋给nonhadoop用户,安全的方法是将用户加到相应的组,测试环境可以直接使用 权限配置。 ...
分类:
数据库 时间:
2018-10-18 00:49:29
阅读次数:
732
SparkSQL(Spark用于处理结构化数据的模块) 通过SparkSQL导入的数据可以来自MySQL数据库、Json数据、Csv数据等,通过load这些数据可以对其做一系列计算 下面通过程序代码来详细查看SparkSQL导入数据并写入到ES中: 数据集:北京市PM2.5数据 Spark版本:2. ...
分类:
数据库 时间:
2018-10-17 00:26:13
阅读次数:
1150
spark-sql 架构 图1 图1是sparksql的执行架构,主要包括逻辑计划和物理计划几个阶段,下面对流程详细分析。 sql执行流程 总体流程 SQLConf中的`spark.sql.variable.substitute`,默认是可用的;参考` SparkSqlParser` 其中`Sess ...
分类:
数据库 时间:
2018-10-09 20:05:31
阅读次数:
633
开发环境:spark:2.2.0 工具:IDEA OS:Windows 数据文件: 本次所有示例的函数有: Start 注:在使用函数的时候最好要导入org.apache.spark.sql.functions._这个包 import ssc.implicits._(这个包在实际写sql的时候将其导 ...
分类:
数据库 时间:
2018-09-20 01:05:57
阅读次数:
903
spark sql快速入门主要内容有:Spark SQL前世今生(Hive&Shark、Shark&SparkSQL)、简介(SQL和DataFrame/DataSet)、DataFrame与DataSet创建及操作、SQL操作。
分类:
数据库 时间:
2018-09-10 00:58:33
阅读次数:
257
Spark SQL支持多种结构化数据源,轻松从各种数据源中读取Row对象。这些数据源包括Parquet、JSON、Hive表及关系型数据库等。当只使用一部分字段时,Spark SQL可以智能地只扫描这些字段,而不会像hadoopFile方法一样简单粗暴地扫描全部数据。SparkSQL之读写数据主要内容有:Parquet、JSON、Hive表、JDBC连接关系型数据库。
分类:
数据库 时间:
2018-09-10 00:57:49
阅读次数:
250
一、前述 1、SparkSQL介绍 Hive是Shark的前身,Shark是SparkSQL的前身,SparkSQL产生的根本原因是其完全脱离了Hive的限制。 SparkSQL支持查询原生的RDD。 RDD是Spark平台的核心概念,是Spark能够高效的处理大数据的各种场景的基础。 能够在Sca ...
分类:
数据库 时间:
2018-09-07 14:11:03
阅读次数:
263
一、DataFrame:有列名的RDD 首先,我们知道SparkSQL的目的是用sql语句去操作RDD,和Hive类似。SparkSQL的核心结构是DataFrame,如果我们知道RDD里面的字段,也知道里面的数据类型,就好比关系型数据库里面的一张表。那么我们就可以写SQL,所以其实这儿我们是不能用 ...
分类:
数据库 时间:
2018-09-07 14:09:09
阅读次数:
232