下载完Spark后,启动spark shell 然后建在了spark自带的本地测试文件,以及简单的RDD操作和退出spark shell 并且下载了 独立应用程序编程 scala独立应用编程 在安装sbt中耗时很长 安装的时候耗时很长,安装完成后 检测sbt不可用,心态爆炸 独立应用程序编程 ...
分类:
其他好文 时间:
2020-01-27 22:16:29
阅读次数:
80
这篇准备尝试RDD的编程操作。 spark运行用户从文件系统中加载数据、通过并行集合(数组)创建RDD,两种都是很方便的操作方式。 应对实验,我在创建了一个文本文件。内容包括—— 之后就是尝试创建RDD。 在pyspark中使用—— >>> students=sc.textFile("file:// ...
分类:
其他好文 时间:
2020-01-27 20:40:27
阅读次数:
78
一、实验目的 (1)通过实验掌握 Spark SQL 的基本编程方法; (2)熟悉 RDD 到 DataFrame 的转化方法; (3)熟悉利用 Spark SQL 管理来自不同数据源的数据。 二、实验平台 操作系统: Ubuntu16.04 Spark 版本:2.1.0 数据库:MySQL 三、实 ...
分类:
其他好文 时间:
2020-01-27 00:20:01
阅读次数:
277
今天主要学习了对spark的初步认识以及相应名词的理解 包括Spark特点、 Scala特性、BDAS架构、Spark组件的应用场景、Spark基本概念、Spark运行架构、 Spark架构设计的优点 、Spark各种概念之间的相互关系 Hadoop 是基于磁盘的大数据计算框架 Spark是基于内存 ...
分类:
其他好文 时间:
2020-01-26 22:32:22
阅读次数:
95
调度系统: 1. oozie: 和hadoop、hive、spark有很强的版本依赖 ...
分类:
其他好文 时间:
2020-01-26 22:31:20
阅读次数:
91
启动脚本分析 独立部署模式下,主要由master和slaves组成,master可以利用zk实现高可用性,其driver,work,app等信息可以持久化到zk上;slaves由一台至多台主机构成。Driver通过向Master申请资源获取运行环境。 启动master和slaves主要是执行/usr ...
分类:
其他好文 时间:
2020-01-26 19:28:29
阅读次数:
89
概述 Spark 作为一个基于内存的分布式计算引擎,其内存管理模块在整个系统中扮演着非常重要的角色。理解 Spark 内存管理的基本原理,有助于更好地开发 Spark 应用程序和进行性能调优。本文旨在梳理出 Spark 内存管理的脉络,抛砖引玉,引出读者对这个话题的深入探讨。本文中阐述的原理基于 S ...
分类:
其他好文 时间:
2020-01-26 19:27:55
阅读次数:
76
SparkCore、SparkSQL和SparkStreaming的类似之处 SparkStreaming的运行流程 1、我们在集群中的其中一台机器上提交我们的Application Jar,然后就会产生一个Application,开启一个Driver,然后初始化SparkStreaming的程序入 ...
分类:
其他好文 时间:
2020-01-26 19:26:57
阅读次数:
73
JDK的安装 JDK使用root用户安装 上传安装包并解压 配置环境变量 验证Java版本 配置配置ssh localhost 检测 正常情况下,本机通过ssh连接自己也是需要输入密码的 生成私钥和公钥秘钥对 将公钥添加到authorized_keys 赋予authorized_keys文件600的 ...
分类:
其他好文 时间:
2020-01-26 19:25:35
阅读次数:
94
在Spark中,也支持Hive中的自定义函数。自定义函数大致可以分为三种: UDF(User Defined Function),即最基本的自定义函数,类似to_char,to_date等 UDAF(User Defined Aggregation Funcation),用户自定义聚合函数,类似在g ...
分类:
数据库 时间:
2020-01-26 19:21:32
阅读次数:
86