一:Spark SQL下的Parquet使用最佳实践 1,过去整个业界对大数据的分析的技术栈的Pipeline一般分为一下两种方式: A)Data Source -> HDFS -> MR/Hive/Spark(相当于ETL) -> HDFS Parquet -> SparkSQL/impala - ...
分类:
数据库 时间:
2017-01-20 16:21:10
阅读次数:
465
作者:Syn良子 出处:http://www.cnblogs.com/cssdongl 转载请注明出处 SparkSQL这块儿从1.4开始支持了很多的窗口分析函数,像row_number这些,平时写程序加载数据后用SQLContext 能够很方便实现很多分析和查询,如下 sqlContext.sql ...
分类:
其他好文 时间:
2016-12-20 20:00:40
阅读次数:
2515
转载自:http://lxw1234.com/archives/2016/10/772.htm Spark2.0新增了Structured Streaming,它是基于SparkSQL构建的可扩展和容错的流式数据处理引擎,使得实时流式数据计算可以和离线计算采用相同的处理方式(DataFrame&SQ ...
分类:
其他好文 时间:
2016-12-15 17:34:56
阅读次数:
423
本文简单介绍SparkSQL中的几种Join实现。SparkSQL会根据用户配置,对不同大小的表应用不同的Join策略,兼顾效率和稳定性。
分类:
数据库 时间:
2016-12-13 13:55:49
阅读次数:
400
如何能更好的运用与监控sparkSQL?或许我们改更深层次的了解它深层次的原理是什么。之前总结的已经写了传统数据库与Spark的sql解析之间的差别。那么我们下来直切主题~ 如今的Spark已经支持多种多样的数据源的查询与加载,兼容了Hive,可用JDBC的方式或者ODBC来连接Spark SQL。 ...
分类:
数据库 时间:
2016-11-27 16:21:37
阅读次数:
135
额,没忍住,想完全了解sparksql,毕竟一直在用嘛,想一次性搞清楚它,所以今天再多看点好了~ 曾几何时,有一个叫做shark的东西,它改了hive的源码。。。突然有一天,spark Sql突然出现,如下图: = =好了,不逗了,言归正传。。。那么一条sql传统数据库会是怎么解析的呢? 传统数据库 ...
分类:
数据库 时间:
2016-11-22 03:12:36
阅读次数:
351
SparkSQL与Hive的整合 1. 拷贝$HIVE_HOME/conf/hive-site.xml和hive-log4j.properties到 $SPARK_HOME/conf/ 2. 在$SPARK_HOME/conf/目录中,修改spark-env.sh,添加 export HIVE_HO ...
分类:
其他好文 时间:
2016-10-14 16:38:28
阅读次数:
218
本博文的主要内容是: 1. Hive本质解析 2. Hive安装实战 3. 使用Hive操作搜索引擎数据实战 SparkSQL前身是Shark,Shark强烈依赖于Hive。Spark原来没有做SQL多维度数据查询工具,后来开发了Shark,Shark依赖于Hive的解释引擎,部分在Spark中运行 ...
分类:
其他好文 时间:
2016-10-09 20:08:46
阅读次数:
325
eclipse安装scala插件及创建maven工程Spark编译的目前都是基于Scala2.10.4的,安装Scala插件版本也是选择2.10.4,否则eclipse会报spark的jar包和scala版本不兼容的错误.ScalaIDEforEclipse不同的Eclipse版本对应插件也的不同ForScala2.11.2
http://download.scala-ide.org/sdk/..
分类:
系统相关 时间:
2016-09-29 02:33:12
阅读次数:
280
摘要如果要想真正的掌握sparkSQL编程,首先要对sparkSQL的整体框架以及sparkSQL到底能帮助我们解决什么问题有一个整体的认识,然后就是对各个层级关系有一个清晰的认识后,才能真正的掌握它,对于sparkSQL整体框架这一块,在前一个博客已经进行过了一些介绍,如果对这块还有疑..
分类:
数据库 时间:
2016-09-12 07:29:11
阅读次数:
643