什么是Spark? Spark官网:http://spark.apache.org Spark是一种快速、通用、可扩展的大数据分析引擎,2009年诞生于加州大学伯克利分校AMPLab,2010年开源,2013年6月成为Apache孵化项目,2014年2月成为Apache顶级项目。目前,Spark生态 ...
分类:
其他好文 时间:
2020-02-26 18:30:53
阅读次数:
52
spark为什么比mapreduce快 mapreduce的数据处理过程是:把数据从磁盘读到内存,在内存中完成计算,再写回磁盘。下一个mr程序要继续对这批数据进行处理,又要重复这一过程。有多少个mr程序,就有多少次读磁盘和写磁盘的过程,效率低下。 spark的数据处理过程是:把数据读到内存之后,在多 ...
分类:
其他好文 时间:
2020-02-25 13:05:09
阅读次数:
66
ListenerBus Spark 很多地方需要对一些事件进行监听或处理,这就涉及到到了 Listener。 比如:当一个Batch完成的时候,需要做什么。当stream 启动时候时候需要做什么等。再具体的例子,就是我想看每个batch 里面的数据量是多少 对于不同场景有不同的 Listener 比 ...
分类:
其他好文 时间:
2020-02-25 00:10:45
阅读次数:
79
hadoop+spark集群搭建 本次实验环境:两台hadoop+两台spark组成集群 环境准备: 1. 两个主机实现ssh无密钥认证,包括本机与本机的免密钥认证: ssh-keygren :生成一对密钥 ssh-copy-id : 把公钥发给对方服务器 2. 集群间需实现时间同步:... ...
分类:
其他好文 时间:
2020-02-23 18:34:33
阅读次数:
90
Spark 集群模式 系统当前支持几种集群管理器: Standalone – 包含在spark中的一个简单集群管理器,它使得设置一个集群很容易。 Apache Mesos – 一个通用集群管理器,也能运行Hadoop MapReduce 和 service 应用。 Hadoop YARN – the ...
分类:
其他好文 时间:
2020-02-22 14:09:44
阅读次数:
86
当前Spark最新版本为Spark 2.4.5。Spark 使用Hadoop’s client libraries 存取HDFS and YARN。下载是流行hadoop版的便宜预包装。用户也可以下载免hadoop的二进制包,通过参数Spark’s classpath 运行spark 用于任何Had ...
分类:
其他好文 时间:
2020-02-22 13:56:26
阅读次数:
182
Quick Start Security Interactive Analysis with the Spark Shell Basics More on Dataset Operations Caching Self-Contained Applications Where to Go from ...
分类:
其他好文 时间:
2020-02-22 13:54:19
阅读次数:
106
Spark 提交应用 Spark’s bin 目录的spark-submit 脚本用于在一个集群上启动应用。它能通过统一的接口使用所有Spark支持的集群管理器。你不必为每个特别配置你的应用。 统一语法如下: ./bin/spark-submit \ --class <main-class> \ - ...
分类:
其他好文 时间:
2020-02-22 13:53:33
阅读次数:
73
将Spark on Kubernetes与阿里云深度整合,设计一个开箱即用的Spark on Kubernetes镜像。 ...
分类:
Web程序 时间:
2020-02-22 13:53:07
阅读次数:
74
本文介绍一下rdd的基本属性概念、rdd的转换/行动操作、rdd的宽/窄依赖。 ...
分类:
其他好文 时间:
2020-02-22 13:40:00
阅读次数:
67