一、前述 1、SparkSQL介绍 Hive是Shark的前身,Shark是SparkSQL的前身,SparkSQL产生的根本原因是其完全脱离了Hive的限制。 SparkSQL支持查询原生的RDD。 RDD是Spark平台的核心概念,是Spark能够高效的处理大数据的各种场景的基础。 能够在Sca ...
分类:
数据库 时间:
2018-09-07 14:11:03
阅读次数:
263
一、DataFrame:有列名的RDD 首先,我们知道SparkSQL的目的是用sql语句去操作RDD,和Hive类似。SparkSQL的核心结构是DataFrame,如果我们知道RDD里面的字段,也知道里面的数据类型,就好比关系型数据库里面的一张表。那么我们就可以写SQL,所以其实这儿我们是不能用 ...
分类:
数据库 时间:
2018-09-07 14:09:09
阅读次数:
232
RDD的两种操作 1.Tansformation(转化操作):返回值还是一个RDD 2.Action(行动操作):返回值不是一个RDD 第一种Transformation是返回一个新的RDD,如map(),filter()等。这种操作是lazy(惰性)的,即从一个RDD转换生成另一个RDD的操作不是 ...
分类:
其他好文 时间:
2018-09-04 23:25:13
阅读次数:
191
说明:这一切似乎在Windows下更好操作。虚拟机操作不是难点,难点在于虚拟磁盘的转换挂载 一、先挂载硬盘 二、新建VirtualBox虚拟机并挂载制作好的虚拟镜像 关键步骤: 1、先删除自动创建的硬盘镜像 2、在IDE光驱下面增加以IDE模式作为增加 3、其它步骤就是加载ISO镜像,然后进行安装等 ...
分类:
其他好文 时间:
2018-08-29 14:33:35
阅读次数:
259
介绍 1.spark处理大数据的统一分析计算引擎; a.速度:在迭代循环的计算模型下,spark比Hadoop快100倍; b.易用性:spark提供多种语言的API,如Java、Python、Scala、R、SQL等 c.扩展性:在spark RDD基础上,提供一整套的分析计算模型:spark S ...
分类:
其他好文 时间:
2018-08-28 20:20:28
阅读次数:
145
## 02、体验Spark shell下RDD编程 ### 1、Spark RDD介绍 RDD是Resilient Distributed Dataset,中文翻译是弹性分布式数据集。该类是Spark是核心类成员之一,是贯穿Spark编程的始终。初期阶段,我们可以把RDD看成是Java中的集合就可以... ...
分类:
其他好文 时间:
2018-08-27 21:39:47
阅读次数:
129
## 08、Spark常用RDD变换 ### 8.1 概述 Spark RDD内部提供了很多变换操作,可以使用对数据的各种处理。同时,针对KV类型的操作,对应的方法封装在PairRDDFunctions trait中,KV类的RDD可以被隐式转换成PairRDDFunctions类型。其中很多的操作... ...
分类:
其他好文 时间:
2018-08-27 21:27:18
阅读次数:
163
# -*- coding:utf-8 -*- from pyspark import SparkContext, SparkConf from pyspark.streaming import StreamingContext import math appName = "jhl_spark_1" ... ...
分类:
其他好文 时间:
2018-08-27 18:24:53
阅读次数:
304
package stuSpark.com; import java.io.IOException; import java.util.ArrayList; import java.util.Arrays; import java.util.HashMap; import java.util.List... ...
分类:
数据库 时间:
2018-08-27 18:20:25
阅读次数:
1897
https://www.cnblogs.com/superhedantou/p/9004820.html checkpoint在spark中主要有两块应用:一块是在spark core中对RDD做checkpoint,可以切断做checkpoint RDD的依赖关系,将RDD数据保存到可靠存储(如H ...
分类:
其他好文 时间:
2018-08-27 16:02:19
阅读次数:
429