引言 在了解GraphX之前,需要先了解关于通用的分布式图计算框架的两个常见问题:图存储模式和图计算模式。 图存储模式 巨型图的存储总体上有边分割和点分割两种存储方式。2013年,GraphLab2.0将其存储方式由边分割变为点分割,在性能上取得重大提升,目前基本上被业界广泛接受并使用。 边分割(E ...
分类:
其他好文 时间:
2020-01-26 19:03:21
阅读次数:
90
前言 在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。在美团?大众点评,已经有很多同学在各种项目中尝试使用Spark。大多数同学 ...
分类:
其他好文 时间:
2020-01-26 19:02:37
阅读次数:
63
下载Spark安装包 从官网下载 http://spark.apache.org/downloads.html 从微软的镜像站下载 http://mirrors.hust.edu.cn/apache/ 从清华的镜像站下载 https://mirrors.tuna.tsinghua.edu.cn/ap ...
分类:
其他好文 时间:
2020-01-26 18:59:28
阅读次数:
71
Transformation算子 基本的初始化 (1)java (2)scala map、flatMap、mapParations、mapPartitionsWithIndex map jdk7 map十分容易理解,他是将源JavaRDD的一个一个元素的传入call方法,并经过算法后一个一个的返回从 ...
分类:
其他好文 时间:
2020-01-26 18:56:01
阅读次数:
73
遇到cuda程序,开始理解学习cuda概念及使用 Cuda 有硬件概念 SP (streaming processor),SM(streaming multiprocessor) 有方便编程的软件概念thread, blocks, grid 各个概念的解释: SP:流处理器,最基本的处理单元,也称为 ...
分类:
其他好文 时间:
2020-01-26 13:10:26
阅读次数:
126
一、实验目的 (1)熟悉 Spark 的 RDD 基本操作及键值对操作; (2)熟悉使用 RDD 编程解决实际具体问题的方法。 二、实验平台 操作系统:Ubuntu16.04 Spark 版本:2.1.0 三、实验内容和要求 1.spark-shell 交互式编程 请到本教程官网的“下载专区”的“数 ...
分类:
其他好文 时间:
2020-01-25 15:37:40
阅读次数:
356
job是串行执行的, 执行完上一个才执行下一个 eg:Wordcount案例 val lines = sc.textFile("本地URL or HDFS URL")//详解见代码1 val words = lines.flatMap(line => line.split(" "))//也会返回一个 ...
分类:
其他好文 时间:
2020-01-25 00:56:57
阅读次数:
119
[TOC] SparkStreaming相关概念 概述 SparkStreaming主要用作对流数据的实时处理,比如:实时的 web 日志数据分析、实时追踪页面访问统计数据等。 流数据的特点有: 数据一直在变化 数据无法回退 数据始终源源不断涌进 Spark Streaming 是在 Spark 上 ...
分类:
其他好文 时间:
2020-01-24 22:24:29
阅读次数:
95
一、实验目的 (1)掌握在 Linux 虚拟机中安装 Hadoop 和 Spark 的方法; (2)熟悉 HDFS 的基本使用方法; (3)掌握使用 Spark 访问本地文件和 HDFS 文件的方法。 二、实验平台 操作系统:Ubuntu16.04; Spark 版本:2.1.0; Hadoop 版 ...
分类:
其他好文 时间:
2020-01-24 17:13:10
阅读次数:
113
厦门大学林子雨,赖永炫,陶继平 编著 《Spark 编程基础(Scala 版)》 教材配套 机房上机实验指南 实验 1 Linux 系统的安装和常用命令 (版本号:2018 年 7 月 19 日版本) (题目) 主讲教师:林子雨 厦门大学数据库实验室 二零一八年七月目录 目录 一、实验目的..... ...
分类:
系统相关 时间:
2020-01-23 09:45:51
阅读次数:
181