mllib是老的api,里面的模型都是基于RDD的,模型使用的时候api也是有变化的(model这里是naiveBayes), (1:在模型训练的时候是naiveBayes.run(data: RDD[LabeledPoint])来训练的,run之后的返回值是一个NaiveBayesModel对象, ...
分类:
其他好文 时间:
2017-05-16 14:51:50
阅读次数:
321
这篇文章参考《Spark快速大数据分析》,归纳spark技术核心的rdd及MLlib以及其中几个重要库的使用。 初始化操作 spark shell: bin/pyspark 每个spark应用都由一个驱动器程序(driver program)来发起集群上的各种并行操作,驱动器程序包含应用的main函 ...
分类:
其他好文 时间:
2017-05-16 12:55:05
阅读次数:
197
转自:http://www.cnblogs.com/yurunmiao/p/4685310.html 前言 Spark SQL允许我们在Spark环境中使用SQL或者Hive SQL执行关系型查询。它的核心是一个特殊类型的Spark RDD:SchemaRDD。 SchemaRDD类似于传统关系型数 ...
分类:
数据库 时间:
2017-05-14 16:06:35
阅读次数:
254
1、DataFrame简介: 在Spark中,DataFrame是一种以RDD为基础的分布式数据据集,类似于传统数据库听二维表格,DataFrame带有Schema元信息,即DataFrame所表示的二维表数据集的每一列都带有名称和类型。 类似这样的 2、准备测试结构化数据集 people.json ...
分类:
数据库 时间:
2017-05-14 12:26:03
阅读次数:
282
前言 开发调优 调优概述 原则一:避免创建重复的RDD 原则二:尽可能复用同一个RDD 原则三:对多次使用的RDD进行持久化 原则四:尽量避免使用shuffle类算子 原则五:使用map-side预聚合的shuffle操作 原则六:使用高性能的算子 原则七:广播大变量 原则八:使用Kryo优化序列化 ...
分类:
其他好文 时间:
2017-05-11 20:32:19
阅读次数:
290
一、stage 的处理过程 1、从下图可以看出stage是通过递归的形式,从开始依次提交每个stage,直到ResultStage。 2、生成task的主要代码 3、提交到taskScheduler 4、 二、每个stage生成的task的个数 从以上的几幅图不难发现task的数量其实只与rdd的p ...
分类:
其他好文 时间:
2017-05-10 14:41:45
阅读次数:
169
RDD(Resilient Distributed Dataset)是Spark的最基本抽象,是对分布式内存的抽象使用,实现了以操作本地集合的方式来操作分布式数据集的抽象实现。RDD是Spark最核心的东西,它表示已被分区,不可变的并能够被并行操作的数据集合,不同的数据集格式对应不同的RDD实现。R ...
分类:
其他好文 时间:
2017-05-10 00:09:00
阅读次数:
218
1.persist: 默认cache()过程是将RDD persist在内存里,persist()操作可以为RDD重新指定StorageLevel. RDD的persist()和unpersist()操作,都是由SparkContext执行的(SparkContext的persistRDD和unpe ...
分类:
其他好文 时间:
2017-05-09 14:55:02
阅读次数:
132
内存泄漏总结 一. 内存泄漏定义 Java内存泄漏指的是进程中某些对象(垃圾对象)已经没有使用价值了,但是它们却可以直接或间接地引用到gc roots导致无法被GC回收。无用的对象占据着内存空间,使得实际可使用内存变小,形象地说法就是内存泄漏了。 二. 内存泄漏对应用的影响 在android里面,出 ...
分类:
移动开发 时间:
2017-05-09 13:48:31
阅读次数:
341
Working with key/value Pairs Motivation Pair RDDs are a useful building block in many programs, as they expose operations that allow u to act on each ...
分类:
其他好文 时间:
2017-05-08 21:51:30
阅读次数:
200