Spark Streaming 导读 介绍 入门 原理 操作 Table of Contents 1. Spark Streaming 介绍 2. Spark Streaming 入门 2. 原理 3. 操作 导读 介绍 入门 原理 操作 导读 介绍 入门 原理 操作 导读 介绍 入门 原理 操作 ...
分类:
其他好文 时间:
2019-10-13 15:05:57
阅读次数:
90
说明:本机是在win10系统下,安装用的是VMware15,centOS7,JDK1.8,spark-2.4.0,hadoop-2.7.7,apache-hive-2.3.4,scala-2.12.8。在VMware里创建了node01,node02,node03,node04四个节点(或者叫四个虚拟机)。注意在使用vm14版本的时候出现黑屏,情况如下:在vm上安装好4个节点后,用管理员身份打开V
分类:
其他好文 时间:
2019-10-13 10:24:41
阅读次数:
97
写wiki感觉不太好,直接写个人博客。其中掺杂了太多个人理解,不保证正确性。但是感觉网上的都是官样文章,而且都是抄来抄去,真真叫没意思。新手村推荐一个极好的博客,最好是一边看能够一遍动手验证,看看scala的函数是怎样转化成不同的stage和task的,看看spark-sql是怎么划分的,理解比较深... ...
分类:
其他好文 时间:
2019-10-11 23:12:37
阅读次数:
110
groupBy(f, numPartitions=None, partitionFunc=<function portable_hash>):根据 条件 分组,这个条件是一个函数;输出 (key,迭代器) groupByKey(numPartitions=None, partitionFunc=<f ...
分类:
其他好文 时间:
2019-10-11 18:38:54
阅读次数:
157
1 最直接的方式 scala> val jdbcDF = spark.read.format("jdbc") .option("url", "jdbc:mysql://hadoop1:3306/rdd") mysql 接口和库名 .option("dbtable", "rddtable") 两张表名 ...
分类:
数据库 时间:
2019-10-09 19:24:25
阅读次数:
126
使用idea运行重构好的spark sql,在编译期出现如下错误: ANTLR Tool version 4.5.3 used for code generation does not match the current runtime version 4.7.2ANTLR 原因: 点击进入依赖,看 ...
分类:
其他好文 时间:
2019-10-08 14:43:02
阅读次数:
1371
主要围绕spark的底层核心抽象RDD和原理进行理解。主要包括以下几个方面 RDD弹性分布式数据集的依赖关系 RDD弹性分布式数据集的lineage血统机制 RDD弹性分布式数据集的缓存机制 spark任务的DAG有向无环图的构建 spark任务如何划分stage spark任务的提交和调度流程 1 ...
分类:
其他好文 时间:
2019-10-07 23:44:39
阅读次数:
217
概述Spark SQL 是 Spark 处理结构化数据的模块; 与基础的 Spark RDD API 不同, Spark SQL 提供的接口提供给 Spark 更多的关于数据和执行计算的结; 内在的, Spark SQL 使用这些额外的信息去执行额外的优化; 这里有几种包括 SQL 和 Datase... ...
分类:
数据库 时间:
2019-10-07 17:41:23
阅读次数:
102
几位朋友找我,做一个基于spark的推荐系统。我们于是买了三台阿里云服务器折腾一下。 1.配置putty和安装nano 2.配置主机映射 /etc/hosts 3. ...
分类:
其他好文 时间:
2019-10-07 13:34:38
阅读次数:
92
.NET for Apache® Spark? 开源大数据分析工具: 1、官方文档: https://dotnet.microsoft.com/apps/data/spark 2、介绍:https://devblogs.microsoft.com/dotnet/introducing-net-for ...
分类:
Web程序 时间:
2019-10-06 13:07:01
阅读次数:
114