码迷,mamicode.com
首页 >  
搜索关键字:RDD    ( 1327个结果
spark mllib和ml类里面的区别
mllib是老的api,里面的模型都是基于RDD的,模型使用的时候api也是有变化的(model这里是naiveBayes), (1:在模型训练的时候是naiveBayes.run(data: RDD[LabeledPoint])来训练的,run之后的返回值是一个NaiveBayesModel对象, ...
分类:其他好文   时间:2017-05-16 14:51:50    阅读次数:321
Spark机器学习
这篇文章参考《Spark快速大数据分析》,归纳spark技术核心的rdd及MLlib以及其中几个重要库的使用。 初始化操作 spark shell: bin/pyspark 每个spark应用都由一个驱动器程序(driver program)来发起集群上的各种并行操作,驱动器程序包含应用的main函 ...
分类:其他好文   时间:2017-05-16 12:55:05    阅读次数:197
Spark SQL编程指南(Python)【转】
转自:http://www.cnblogs.com/yurunmiao/p/4685310.html 前言 Spark SQL允许我们在Spark环境中使用SQL或者Hive SQL执行关系型查询。它的核心是一个特殊类型的Spark RDD:SchemaRDD。 SchemaRDD类似于传统关系型数 ...
分类:数据库   时间:2017-05-14 16:06:35    阅读次数:254
Spark-Sql之DataFrame实战详解
1、DataFrame简介: 在Spark中,DataFrame是一种以RDD为基础的分布式数据据集,类似于传统数据库听二维表格,DataFrame带有Schema元信息,即DataFrame所表示的二维表数据集的每一列都带有名称和类型。 类似这样的 2、准备测试结构化数据集 people.json ...
分类:数据库   时间:2017-05-14 12:26:03    阅读次数:282
【转载】 Spark性能优化指南——基础篇
前言 开发调优 调优概述 原则一:避免创建重复的RDD 原则二:尽可能复用同一个RDD 原则三:对多次使用的RDD进行持久化 原则四:尽量避免使用shuffle类算子 原则五:使用map-side预聚合的shuffle操作 原则六:使用高性能的算子 原则七:广播大变量 原则八:使用Kryo优化序列化 ...
分类:其他好文   时间:2017-05-11 20:32:19    阅读次数:290
Stage生成Task
一、stage 的处理过程 1、从下图可以看出stage是通过递归的形式,从开始依次提交每个stage,直到ResultStage。 2、生成task的主要代码 3、提交到taskScheduler 4、 二、每个stage生成的task的个数 从以上的几幅图不难发现task的数量其实只与rdd的p ...
分类:其他好文   时间:2017-05-10 14:41:45    阅读次数:169
Spark弹性分布式数据集RDD
RDD(Resilient Distributed Dataset)是Spark的最基本抽象,是对分布式内存的抽象使用,实现了以操作本地集合的方式来操作分布式数据集的抽象实现。RDD是Spark最核心的东西,它表示已被分区,不可变的并能够被并行操作的数据集合,不同的数据集格式对应不同的RDD实现。R ...
分类:其他好文   时间:2017-05-10 00:09:00    阅读次数:218
spark
1.persist: 默认cache()过程是将RDD persist在内存里,persist()操作可以为RDD重新指定StorageLevel. RDD的persist()和unpersist()操作,都是由SparkContext执行的(SparkContext的persistRDD和unpe ...
分类:其他好文   时间:2017-05-09 14:55:02    阅读次数:132
安卓性能测试之应用内存泄漏总结
内存泄漏总结 一. 内存泄漏定义 Java内存泄漏指的是进程中某些对象(垃圾对象)已经没有使用价值了,但是它们却可以直接或间接地引用到gc roots导致无法被GC回收。无用的对象占据着内存空间,使得实际可使用内存变小,形象地说法就是内存泄漏了。 二. 内存泄漏对应用的影响 在android里面,出 ...
分类:移动开发   时间:2017-05-09 13:48:31    阅读次数:341
<Spark><Programming><Key/Value Pairs><RDD>
Working with key/value Pairs Motivation Pair RDDs are a useful building block in many programs, as they expose operations that allow u to act on each ...
分类:其他好文   时间:2017-05-08 21:51:30    阅读次数:200
1327条   上一页 1 ... 80 81 82 83 84 ... 133 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!