WordCount是大数据学习最好的入门demo,今天就一起开发java版本的WordCount,然后提交到Spark3.0.0环境运行; 版本信息 OS: Window7 JAVA:1.8.0_181 Hadoop:3.2.1 Spark: 3.0.0-preview2-bin-hadoop3.2 ...
参考 https://data-flair.training/blogs/install-apache-spark-multi-node-cluster/ 下载 spark 地址为 http://spark.apache.org/downloads.html 准备三个节点 192.168.1.1 [ ...
分类:
其他好文 时间:
2020-03-31 19:04:21
阅读次数:
228
通过上文 Window7 开发 Spark 应用 ,展示了如何开发一个Spark应用,但文中使用的测试数据都是自己手动录入的。 所以本文讲解一下如何搭建一个开发闭环,本里使用了Nginx日志采集分析为例,分析页面访问最多的10个,404页面的10。 如果把这些开发成果最终展示到一个web网页中,在这 ...
1. 整体架构 2. Standalone cluster 模式 3. Driver的运行流程 ...
分类:
其他好文 时间:
2020-03-31 14:37:16
阅读次数:
82
# 使用SparkSQL编写wordCount的词频统计 ## word.txt```hello hello scala sparkjava sql html java hellojack jack tom tom you he he sql``` ## spark 代码:```objec ...
分类:
数据库 时间:
2020-03-30 21:50:35
阅读次数:
213
传统Hive计算引擎为MapReduce,在Spark1.3版本之后,SparkSql正式发布,并且SparkSql与apachehive基本完全兼容,基于Spark强大的计算能力,使用Spark处理hive中的数据处理速度远远比传统的Hive快。在idea中使用SparkSql读取HIve表中的数据步骤如下1、首先,准备测试环境,将hadoop集群conf目录下的core-site.xml、hd
分类:
数据库 时间:
2020-03-30 14:42:50
阅读次数:
141
为了增强容错性和高可用,避免上游RDD被重复计算的大量时间开销,Spark RDD设计了包含多种存储级别的缓存和持久化机制,主要有三个概念:cache、persist、checkout。 1、存储级别介绍(StorageLevel) 存储级别以一个枚举类StorageLevel定义,分为以下几种: ...
分类:
系统相关 时间:
2020-03-30 12:43:50
阅读次数:
102
我们已经在CentOS7中安装了spark,本节将展示如何在spark中通过scala方式交互的进行词频统计。 1 系统、软件以及前提约束 CentOS 7 64 工作站 作者的机子ip是192.168.100.200,主机名为danji,请读者根据自己实际情况设置 hadoop已经安装完毕并启动 ...
分类:
其他好文 时间:
2020-03-30 00:07:08
阅读次数:
103
1.框架选型 hadoop 3.1.3 hive 3.1.2 zookeeper 3.5.7 hbase 2.2.3 kafka_2.11 2.4.0 spark 2.4.5 bin hadoop2.7 2.安装前准备 1.关闭防火墙 2.安装 JDK 3.安装 Scala 4.配置ssh 免密 5 ...
分类:
其他好文 时间:
2020-03-30 00:06:39
阅读次数:
66
一、什么是RDD A Resilient Distributed Dataset (RDD), the basic abstraction in Spark. Represents an immutable, partitioned collection of elements that can b ...
分类:
其他好文 时间:
2020-03-29 17:56:53
阅读次数:
80