弹性分布式数据集(简称RDD)是Spark对数据的核心抽象。RDD其实就是分布式的元素集合。在Spark中,对数据的操作不外乎创建RDD、转化已有RDD以及调用RDD操作进行求值。而在这一切背后,Spark会自动将RDD中的数据分发到集群上,并将操作并行化执行。 3.1 RDD基础 Spark中的R ...
分类:
其他好文 时间:
2017-10-18 18:28:46
阅读次数:
218
import org.apache.spark.SparkConf import org.apache.spark.rdd.RDD import org.apache.spark.streaming.{Seconds, StreamingContext} import scala.collectio... ...
分类:
其他好文 时间:
2017-10-16 22:05:21
阅读次数:
197
来自官网的Spark Programming Guide,包括个人理解的东西。 RDD是spark中最重要的抽象概念(数据结构),是集群中各节点上并行处理的分隔元素的集合(汇总),总会用到collect()方法。 RDD可以从Hadoop文件系统中的文件创建,也可以从执行程序中的Scala集合中创建 ...
分类:
其他好文 时间:
2017-10-13 15:22:37
阅读次数:
283
Spark SQL讲解 Spark SQL是支持在Spark中使用Sql、HiveSql、Scala中的关系型查询表达式。它的核心组件是一个新增的RDD类型SchemaRDD,它把行对象用一个Schema来描述行里面的所有列的数据类型,它就像是关系型数据库里面的一张表。它可以从原有的RDD创建,也可 ...
分类:
数据库 时间:
2017-10-13 14:08:36
阅读次数:
214
在爬虫分析的时候,经常在网页上看到如下格式的rsa公钥: 对于rsa算法的公钥,我们了解到,主要有两个信息:模数(modulus)和指数(exponent) 只有有这两个信息,我们便可以用以下代码段生成公钥,然后使用rsa库对数据进行加密 现在我们需要做的就是从这段字符串中提出模数和指数. 在研究的 ...
分类:
编程语言 时间:
2017-10-13 14:05:35
阅读次数:
967
1、sc.version2、集群对象:SparkContext;获得Spark集群的SparkContext对象,是构造Spark应用的第一步!SparkContext对象代表 整个 Spark集群,是Spark框架 功能的入口 ,可以用来在集群中创建RDD、累加器变量和广播变量。SparkCont ...
1.people.txtsoyo8, 35小周, 30小华, 19soyo,882./** * Created by soyo on 17-10-10. * 利用反射机制推断RDD模式 */import org.apache.spark.sql.catalyst.encoders.Expressio ...
分类:
数据库 时间:
2017-10-10 21:59:22
阅读次数:
225
1.people.txt:soyo8, 35小周, 30小华, 19soyo,88/** * Created by soyo on 17-10-10. * 使用编程方式定义RDD模式 */ import org.apache.spark.sql.types._ import org.apache.s... ...
分类:
数据库 时间:
2017-10-10 21:55:24
阅读次数:
154
1.DataFrame与RDD的区别 RDD是分布式的 Java对象的集合 DataFrame是一种以RDD为基础的分布式数据集,也就是分布式的Row对象的集合(每个Row对象代表一行记录),提供了详细的结构信息,也就是我们经常说的模式(schema).简单理解就是类似表 2.Schema 是什么 ...
分类:
数据库 时间:
2017-10-10 21:43:38
阅读次数:
225
[Spark][Python][RDD][DataFrame]从 RDD 构造 DataFrame 例子 from pyspark.sql.types import * schema = StructType( [ StructField("age",IntegerType(),True), Str ...
分类:
编程语言 时间:
2017-10-07 23:33:06
阅读次数:
177