[Author]: kwu 基于sparksql调用shell脚本运行SQL,sparksql提供了类似hive中的 -e , -f ,-i的选项 1、定时调用脚本 #!/bin/sh # upload logs to hdfs yesterday=`date --date='1 days ago' ...
分类:
数据库 时间:
2017-06-19 09:52:08
阅读次数:
414
参考文献: http://blog.csdn.net/stark_summer/article/details/48443147 hive配置 编辑 $HIVE_HOME/conf/Hive-site.xml,增加如下内容: 启动hive metastore 启动 metastore: hive - ...
分类:
数据库 时间:
2017-05-29 17:22:14
阅读次数:
233
【原创 Hadoop&Spark 动手实践 9】SparkSQL程序设计基础与动手实践(上) 目标: 1. 理解Spark SQL最基础的原理 2. 可以使用Spark SQL完成一些简单的数据分析任务 3. 可以利用Spark SQL完成一个完整的案例 ...
分类:
数据库 时间:
2017-05-22 11:06:01
阅读次数:
340
为了跟上所谓“大数据”技术的脚步,从两年前开始着手实践各种SQL-on-Hadoop技术,从最初的Hive,到SparkSQL,再到Impala,进行了一系列ETL、CDC、多维数据仓库、OLAP的实...
分类:
其他好文 时间:
2017-05-10 23:12:55
阅读次数:
4623
本节内容 1.概览 1.1 Spark SQL 1.2 DatSets和DataFrame2.动手干活 2.1 契入点:SparkSession 2.2 创建DataFrames 2.3 非强类型结果集操作 2.4 程序化执行SQL查询 2.5 全局临时视图 2.6 创建DataSets 2.7 与 ...
分类:
数据库 时间:
2017-05-07 23:11:50
阅读次数:
527
本节内容 1.Spark背景介绍 2.Spark是什么 3.Spark有什么 4.Spark部署 4.1.Spark部署的2方面 4.2.Spark编译 4.3.Spark Standalone部署 4.4.Standalone HA配置 4.5.伪分布式部署 5.Spark任务提交 5.1.Spa ...
分类:
其他好文 时间:
2017-05-07 22:02:05
阅读次数:
246
一:前置知识详解:SparkSQL重要是操作DataFrame,DataFrame本身提供了save和load的操作,Load:可以创建DataFrame,Save:把DataFrame中的数据保存到文件或者说与具体的格式来指明我们要读取的文件的类型以及与具体的格式来指出我们要输出的文件是什么类型。二:SparkSQL读写..
分类:
数据库 时间:
2017-04-28 23:31:26
阅读次数:
314
Spark SQL CLI Spark1.1增加了Spark SQL CLI和ThriftServer SparkSQL CLI配置 1、创建并配置hive-site.xml 在运行Spark SQL CLI中需要使用到Hive Metastore,故需要在Spark中添加其uris。具体方法是在S ...
分类:
其他好文 时间:
2017-04-27 17:52:21
阅读次数:
193
一:使用sparksql开发 1.sparksql开发的两种方式 HQL:SQL语句开发 eq : sqlContext.sql("xxxx") DSL : sparkSql中DataFrame的API调用方式 eq:val df=sqlContext.xxx df.select("number") ...
分类:
数据库 时间:
2017-04-25 23:25:50
阅读次数:
217
前面两章花了不少篇幅介绍了SparkSQL的执行过程,非常多读者还是认为当中的概念非常抽象。比方Unresolved LogicPlan、LogicPlan、PhysicalPlan是长得什么样子,没点印象。仅仅知道名词,感觉非常缥缈。本章就着重介绍一个工具hive/console,来加深读者对sp ...
分类:
数据库 时间:
2017-04-22 19:46:47
阅读次数:
408