第1章 课程介绍&学习指南本章会对这门课程进行说明并进行学习方法介绍。第2章 为什么要学SparkSpark作为近几年最火爆的大数据处理技术,是成为大数据工程师必备的技能之一。本章节将从如下几个方面对Spark进行一个宏观上的介绍:Spark产生背景、特性、环境部署、Spark与Hadoop的对比、 ...
分类:
数据库 时间:
2019-11-11 00:32:19
阅读次数:
534
通过spark-sql、hive-sql、hue等提交select或者insert overwrite等sql到hive时,会产生该目录,用于临时存放执行结果,比如insert overwrite会将结果暂存到该目录下,待任务结束,将结果复制到hive表中。关于该目录的生成位置策略可参考该文章:ht ...
分类:
其他好文 时间:
2019-11-10 19:39:33
阅读次数:
271
Spark3.0 preview预览版可以下载使用,地址:https://archive.apache.org/dist/spark/spark-3.0.0-preview/,pom.xml也可以进行引用,如下: 注意:目前阿里云镜像部分包还没有(2019年11月10日,spark-launcher ...
分类:
其他好文 时间:
2019-11-10 09:25:19
阅读次数:
163
安装scala 上传安装包 解压 配置scala相关的环境变量 验证scala安装是否成功 把scala分发给node2 node3 node4 分别给node2 node3 node4配置scala的环境变量,并使其生效 spark安装包下载地址:https://archive.apache.or ...
分类:
其他好文 时间:
2019-11-09 19:51:52
阅读次数:
84
RDD是分布式内存的一个抽象概念,是一种高度受限的共享内存模型,即RDD是只读的记录分区的集合,能横跨集群所有节点并行计算,是一种基于工作集的应用抽象。 RDD底层存储原理:其数据分布存储于多台机器上,事实上,每个RDD的数据都以Block的形式存储于多台机器上,每个Executor会启动一个Blo ...
分类:
其他好文 时间:
2019-11-09 19:19:31
阅读次数:
127
1、首先是jdk的路径问题 为了和以后出现的hadoop,spark出现 路径带有空格导致 调用失败的情况, 直接把 jdk的路径 剪切到 没有空格的目录下。 D:\>echo %JAVA_HOME% C:\Java\jdk1.8.0_202 到这里,在cmd下,能 看到 scala -versio ...
cannot assign instance of scala.collection.immutable.List$SerializationProxy to field org.apache.spark.sql.execution.aggregate.SortAggregateExec.aggre ...
分类:
编程语言 时间:
2019-11-07 17:41:34
阅读次数:
113
谈运维为什么离不开监控?典型监控系统一般是如何设计的?业务驱动的高可用监控系统又有何不同?作为巨头之一的电商平台京东, 其基于京东云的监控系统是否有值得借鉴的地方?本文将解答这些问题。本文整理自 10 月 30 日由京东云开发者社区和英特尔联合举办的在线公开课,京东云工具产品研发部专家架构师颜志杰的 ...
分类:
其他好文 时间:
2019-11-07 15:08:01
阅读次数:
97
使用场景:
在一些情况下,我们需要保持一个与数据库连接的connection,在没有写物理表权限或者没有必要写物理表时的现实场景用临时表替代物理表进行操作,临时表很多是基于Session的,Seesion间不能相互访问,断开后临时表自动清空,而spark自带的,read.format("jdbc")... ...
分类:
数据库 时间:
2019-11-06 10:23:44
阅读次数:
277
特征: 持续到达,数据量大,注重数据整体价值,数据顺序可能颠倒,丢失,实时计算, 海量,分布,实时,快速部署,可靠 linked in Kafka spark streaming:微小批处理,模拟流计算,秒级响应 DStream 一系列RDD 的集合 支持批处理 创建文件流 10代表每10s启动一次 ...
分类:
其他好文 时间:
2019-11-05 18:49:38
阅读次数:
98