搜索关键字：RDD，搜索到1327个结果！码迷,mamicode.com！

RDD编程上（自学三）

弹性分布式数据集（简称RDD）是Spark对数据的核心抽象。RDD其实就是分布式的元素集合。在Spark中，对数据的操作不外乎创建RDD、转化已有RDD以及调用RDD操作进行求值。而在这一切背后，Spark会自动将RDD中的数据分发到集群上，并将操作并行化执行。 3.1 RDD基础 Spark中的R ...

分类：其他好文时间：2017-10-18 18:28:46 阅读次数：218

IDEA Spark Streaming 操作(RDD队列流)

import org.apache.spark.SparkConf import org.apache.spark.rdd.RDD import org.apache.spark.streaming.{Seconds, StreamingContext} import scala.collectio... ...

分类：其他好文时间：2017-10-16 22:05:21 阅读次数：197

spark知识点_RDD

来自官网的Spark Programming Guide，包括个人理解的东西。 RDD是spark中最重要的抽象概念（数据结构），是集群中各节点上并行处理的分隔元素的集合（汇总），总会用到collect（）方法。 RDD可以从Hadoop文件系统中的文件创建，也可以从执行程序中的Scala集合中创建 ...

分类：其他好文时间：2017-10-13 15:22:37 阅读次数：283

Spark SQL讲解

Spark SQL讲解 Spark SQL是支持在Spark中使用Sql、HiveSql、Scala中的关系型查询表达式。它的核心组件是一个新增的RDD类型SchemaRDD，它把行对象用一个Schema来描述行里面的所有列的数据类型，它就像是关系型数据库里面的一张表。它可以从原有的RDD创建，也可 ...

分类：数据库时间：2017-10-13 14:08:36 阅读次数：214

rsa字符串格式公钥转换python rsa库可识别的公钥形式

在爬虫分析的时候,经常在网页上看到如下格式的rsa公钥: 对于rsa算法的公钥,我们了解到,主要有两个信息:模数(modulus)和指数(exponent) 只有有这两个信息,我们便可以用以下代码段生成公钥,然后使用rsa库对数据进行加密现在我们需要做的就是从这段字符串中提出模数和指数. 在研究的 ...

分类：编程语言时间：2017-10-13 14:05:35 阅读次数：967

Spark-scalaI-API

1、sc.version2、集群对象：SparkContext；获得Spark集群的SparkContext对象，是构造Spark应用的第一步！SparkContext对象代表整个 Spark集群，是Spark框架功能的入口，可以用来在集群中创建RDD、累加器变量和广播变量。SparkCont ...

分类：Windows程序时间：2017-10-11 19:13:30 阅读次数：182

Spark SQL中 RDD 转换到 DataFrame

1.people.txtsoyo8, 35小周, 30小华, 19soyo,882./** * Created by soyo on 17-10-10. * 利用反射机制推断RDD模式 */import org.apache.spark.sql.catalyst.encoders.Expressio ...

分类：数据库时间：2017-10-10 21:59:22 阅读次数：225

Spark SQL中 RDD 转换到 DataFrame (方法二）

1.people.txt:soyo8, 35小周, 30小华, 19soyo,88/** * Created by soyo on 17-10-10. * 使用编程方式定义RDD模式 */ import org.apache.spark.sql.types._ import org.apache.s... ...

分类：数据库时间：2017-10-10 21:55:24 阅读次数：154

Spark SQL

1.DataFrame与RDD的区别 RDD是分布式的 Java对象的集合 DataFrame是一种以RDD为基础的分布式数据集，也就是分布式的Row对象的集合（每个Row对象代表一行记录），提供了详细的结构信息，也就是我们经常说的模式（schema）.简单理解就是类似表 2.Schema 是什么 ...

分类：数据库时间：2017-10-10 21:43:38 阅读次数：225

[Spark][Python][RDD][DataFrame]从 RDD 构造 DataFrame 例子

[Spark][Python][RDD][DataFrame]从 RDD 构造 DataFrame 例子 from pyspark.sql.types import * schema = StructType( [ StructField("age",IntegerType(),True), Str ...

分类：编程语言时间：2017-10-07 23:33:06 阅读次数：177

共1327条上一页 1 ... 66 67 68 69 70 ... 133 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)