2020.2.2今天的寒假生活学习了了解Spark 内存计算框架.Hadoop使用数据复制来实现容错性,而Spark使用RDD数据存储模型来实现数据的容错性。 了解了 hadoop框架 中的 HDFS(分布式文件系统) Mapreduce(分布式计算框架) map函数 Reduce (函数) YAR ...
分类:
其他好文 时间:
2020-02-02 21:55:13
阅读次数:
73
使用 Spark Shell 编写代码 启动Spark Shell: 加载txt文件: 简单的RDD操作: //获取RDD文件textFile的第一行内容textFile.first() //获取RDD文件textFile所有项的计数textFile.count() //抽取含有“Spark”的行, ...
分类:
其他好文 时间:
2020-02-02 13:35:21
阅读次数:
101
分布式数据集 编辑 Spark围绕的核心概念,是弹性分布式数据集(RDD),一个有容错机制,可以被并行操作的集合。目前有两种类型的RDD: 并行集合(Parrallelized Collections),接收一个已经存在的Scala集合,在它上面运行各种并发计算; Hadoop数据集(Hadoop ...
分类:
其他好文 时间:
2020-02-01 23:17:16
阅读次数:
80
SparkContext是编写Spark程序用到的第一个类,是Spark的主要入口点,用于连接Spark集群、创建RDD、累加器和广播变量,是Spark程序的根本。编写不同类型的Spark程序,使用的SparkContext是不同的Scala 使用SparkContextJava 使用JavaSpa ...
分类:
其他好文 时间:
2020-02-01 21:42:00
阅读次数:
73
[Toc] 一、spark基本常识 1、spark中的RDD是什么,有哪些特性? RDD(Resilient Distributed Dataset)叫做分布式数据集模式spark中最基本的数据抽象,它代表一个不可变,可分区,里面的元素可以并行计算的集合。 Resilient:表示弹性的,弹性表示 ...
分类:
其他好文 时间:
2020-02-01 16:09:42
阅读次数:
85
1. 字典是无需的,唯一的,所以没有去重这一说2.可以应用 if .... in\ont in .... 来判断字典是否有指定的KEY3.字典的常用方法 删 del 语句 dict.clear() 清除所有的键值对 dict.pop('KEY') 弹出指点的值并且删除键值对 dict.popitem ...
分类:
编程语言 时间:
2020-01-31 20:47:02
阅读次数:
88
spark graphx图操作 import org.apache.spark.graphx.{Edge, Graph, VertexId} import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContex ...
分类:
其他好文 时间:
2020-01-31 18:51:08
阅读次数:
65
RDD、DataFrame与DataSet三者有许多的共性,都有各自使用的场景,常常需要在三者之间进行转换DataFrame/Dataset 转 RDD:val rdd1=testDF.rddval rdd2=testDS.rdd RDD 转 DataFrame:// 一般用元组把一行的数据写在一起... ...
分类:
其他好文 时间:
2020-01-28 23:32:20
阅读次数:
99
业务技术架构 架构实现 总的来说我的通用架构还是以三层架构为基础进行演变的,在经典的三层架构中,最上层的是controller,中间是service,下层是dao。 在微服务的架构中,最上层是网关层,controller只是网关的一种,中间是业务层,service只是业务层的入口,最下层是基础层,d ...
分类:
其他好文 时间:
2020-01-28 09:39:25
阅读次数:
77
下载完Spark后,启动spark shell 然后建在了spark自带的本地测试文件,以及简单的RDD操作和退出spark shell 并且下载了 独立应用程序编程 scala独立应用编程 在安装sbt中耗时很长 安装的时候耗时很长,安装完成后 检测sbt不可用,心态爆炸 独立应用程序编程 ...
分类:
其他好文 时间:
2020-01-27 22:16:29
阅读次数:
80