码迷,mamicode.com
首页 >  
搜索关键字:spark rdd    ( 7287个结果
Spark学习之路 (一)Spark初识 [转]
官网介绍 什么是Spark 官网地址:http://spark.apache.org/ Apache Spark? 是用于大规模数据处理的统一分析引擎。 从右侧最后一条新闻看,Spark也用于AI人工智能。 spark是一个实现快速通用的集群计算平台。它是由加州大学伯克利分校AMP实验室 开发的通用 ...
分类:其他好文   时间:2020-01-26 19:08:26    阅读次数:75
Spark学习之路 (十八)SparkSQL简单使用[转]
SparkSQL的进化之路 1.0以前: Shark 1.1.x开始: SparkSQL(只是测试性的) SQL 1.3.x: SparkSQL(正式版本)+Dataframe 1.5.x: SparkSQL 钨丝计划 1.6.x: SparkSQL+DataFrame+DataSet(测试版本) ...
分类:数据库   时间:2020-01-26 19:06:08    阅读次数:99
Spark学习之路 (二十八)分布式图计算系统[转]
引言 在了解GraphX之前,需要先了解关于通用的分布式图计算框架的两个常见问题:图存储模式和图计算模式。 图存储模式 巨型图的存储总体上有边分割和点分割两种存储方式。2013年,GraphLab2.0将其存储方式由边分割变为点分割,在性能上取得重大提升,目前基本上被业界广泛接受并使用。 边分割(E ...
分类:其他好文   时间:2020-01-26 19:03:21    阅读次数:90
Spark学习之路 (八)SparkCore的调优之开发调优[转]
前言 在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。在美团?大众点评,已经有很多同学在各种项目中尝试使用Spark。大多数同学 ...
分类:其他好文   时间:2020-01-26 19:02:37    阅读次数:63
Spark学习之路 (二)Spark2.3 HA集群的分布式安装[转]
下载Spark安装包 从官网下载 http://spark.apache.org/downloads.html 从微软的镜像站下载 http://mirrors.hust.edu.cn/apache/ 从清华的镜像站下载 https://mirrors.tuna.tsinghua.edu.cn/ap ...
分类:其他好文   时间:2020-01-26 18:59:28    阅读次数:71
Spark学习之路 (六)Spark Transformation和Action[转]
Transformation算子 基本的初始化 (1)java (2)scala map、flatMap、mapParations、mapPartitionsWithIndex map jdk7 map十分容易理解,他是将源JavaRDD的一个一个元素的传入call方法,并经过算法后一个一个的返回从 ...
分类:其他好文   时间:2020-01-26 18:56:01    阅读次数:73
spark实验四
一、实验目的 (1)熟悉 Spark 的 RDD 基本操作及键值对操作; (2)熟悉使用 RDD 编程解决实际具体问题的方法。 二、实验平台 操作系统:Ubuntu16.04 Spark 版本:2.1.0 三、实验内容和要求 1.spark-shell 交互式编程 请到本教程官网的“下载专区”的“数 ...
分类:其他好文   时间:2020-01-25 15:37:40    阅读次数:356
小记--------spark-job触发流程源码分析
job是串行执行的, 执行完上一个才执行下一个 eg:Wordcount案例 val lines = sc.textFile("本地URL or HDFS URL")//详解见代码1 val words = lines.flatMap(line => line.split(" "))//也会返回一个 ...
分类:其他好文   时间:2020-01-25 00:56:57    阅读次数:119
Spark学习9 Spark Streaming流式数据处理组件学习
[TOC] SparkStreaming相关概念 概述 SparkStreaming主要用作对流数据的实时处理,比如:实时的 web 日志数据分析、实时追踪页面访问统计数据等。 流数据的特点有: 数据一直在变化 数据无法回退 数据始终源源不断涌进 Spark Streaming 是在 Spark 上 ...
分类:其他好文   时间:2020-01-24 22:24:29    阅读次数:95
【2020/1/24】寒假自学——学习进度报告5
接下来要写4篇的进度报告,准备把RDD编程和SparkSQL放在这几天一起弄掉(没回老家的大年三十稍微有些无聊)。 这一篇我想先笼统一下各方面的知识,省的有不理解的地方。 首先是RDD。 作为一个分布式的数据构造,RDD对我来说方法是抽象的,而且一般来说面向我的都是函数式的编程操作,很难体会到RDD ...
分类:其他好文   时间:2020-01-24 20:10:05    阅读次数:101
7287条   上一页 1 ... 72 73 74 75 76 ... 729 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!