码迷,mamicode.com
首页 >  
搜索关键字:RDD    ( 1327个结果
Spark核心RDD、什么是RDD、RDD的属性、创建RDD、RDD的依赖以及缓存、
1:什么是Spark的RDD??? 2:RDD的属性: 3:创建RDD: 4:RDD编程API: 4.1:Transformation: RDD中的所有转换都是延迟加载的,也就是说,它们并不会直接计算结果。相反的,它们只是记住这些应用到基础数据集(例如一个文件)上的转换动作。只有当发生一个要求返回结 ...
分类:其他好文   时间:2018-02-23 20:43:22    阅读次数:389
Learning Spark中文版--第三章--RDD编程(1)
   本章介绍了Spark用于数据处理的核心抽象概念,具有弹性的分布式数据集(RDD)。一个RDD仅仅是一个分布式的元素集合。在Spark中,所有工作都表示为创建新的RDDs、转换现有的RDDs,或者调用RDDs上的操作来计算结果。在底层,Spark自动将数据中包含的数据分发到你 ...
分类:其他好文   时间:2018-02-22 21:35:41    阅读次数:208
【Spark机器学习速成宝典】基础篇01Windows下spark开发环境搭建+sbt+idea(Scala版)
注意: spark用2.1.1 scala用2.11.11 材料准备 spark安装包 JDK 8 IDEA开发工具 scala 2.11.8 环境搭建步骤 将spark-2.1.1-bin-hadoop2.x版本至c盘下即可 将spark中的jar包全部提取出来另外放到一地方用于进行开发 新建ID ...
分类:Windows程序   时间:2018-02-22 21:22:42    阅读次数:300
predictionio 随机森林
predictionio 随机森林
分类:其他好文   时间:2018-02-22 19:49:16    阅读次数:135
spark transform系列__groupByKey
这个操作的作用依据同样的key的全部的value存储到一个集合中的一个玩意. def groupByKey(): RDD[(K, Iterable[V])] = self.withScope { groupByKey(defaultPartitioner(self))} 在做groupByKey的操 ...
分类:其他好文   时间:2018-02-11 14:34:37    阅读次数:186
【Spark篇】---SparkStreaming算子操作transform和updateStateByKey
一、前述 今天分享一篇SparkStreaming常用的算子transform和updateStateByKey。 可以通过transform算子,对Dstream做RDD到RDD的任意操作。其实就是DStream的类型转换。 为SparkStreaming中每一个Key维护一份state状态,通过 ...
分类:其他好文   时间:2018-02-09 17:28:42    阅读次数:235
小程序复制剪切板的方法
wx.setClipboardData({ data: that.data.url, //复制的内容 success(){ //成功之后的回调 }) } }) ...
分类:其他好文   时间:2018-02-07 14:39:06    阅读次数:137
【Spark篇】---Spark中广播变量和累加器
一、前述 Spark中因为算子中的真正逻辑是发送到Executor中去运行的,所以当Executor中需要引用外部变量时,需要使用广播变量。 累机器相当于统筹大变量,常用于计数,统计。 二、具体原理 1、广播变量 广播变量理解图 注意事项 1、能不能将一个RDD使用广播变量广播出去? 不能,因为RD ...
分类:其他好文   时间:2018-02-07 00:36:47    阅读次数:200
<Spark快速大数据分析>读书笔记(三)
PART 5 数据读取与保存 1.文件格式与文件系统: Spark支持的一些常见文件格式: 1.1文本文件: 读取:文本文件的读取通过textFile(),如果需要读取整个文件夹,可以使用wholeTextFiles(),该方法会返回一个pair RDD,键为文件名 保存:saveAsTextFil ...
分类:其他好文   时间:2018-02-05 21:58:51    阅读次数:231
Spark的核心RDD(Resilient Distributed Datasets弹性分布式数据集)
Spark的核心RDD (Resilient Distributed Datasets弹性分布式数据集) 原文链接:http://www.cnblogs.com/yjd_hycf_space/p/7681585.html 铺垫 主角 首先我们来思考一个问题吧:Spark的计算模型是如何做到并行的呢? ...
分类:其他好文   时间:2018-02-02 20:07:55    阅读次数:157
1327条   上一页 1 ... 59 60 61 62 63 ... 133 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!