码迷,mamicode.com
首页 >  
搜索关键字:RDD    ( 1327个结果
Spark学习笔记之SparkRDD
Spark学习笔记之SparkRDD一、 基本概念RDD(resilient distributed datasets)弹性分布式数据集。来自于两方面① 内存集合和外部存储系统② 通过转换来自于其他RDD,如map,filter等2.创建操作(creation operation):RDD的创建由S...
分类:其他好文   时间:2015-04-18 20:29:12    阅读次数:179
Spark读取Hbase中的数据_云帆大数据分享
Spark读取Hbase中的数据大家可能都知道很熟悉Spark的两种常见的数据读取方式(存放到RDD中):(1)、调用parallelize函数直接从集合中获取数据,并存入RDD中;Java版本如下:1JavaRDD<Integer>myRDD=sc.parallelize(Arrays.asList(1,2,3));Scala版本如下:1valmyRDD=sc...
分类:其他好文   时间:2015-04-07 20:01:18    阅读次数:285
RDD api整理
RDD[T]Transformations rdd api 备注 persist/cache map(f: T => U) keyBy(f: T => K) 特殊的map,提key flatMap(f: T => Iterable[U]) map的一种,类似UDTF filter(f: T => Boolean) map的一种 distinct(...
分类:Windows程序   时间:2015-04-07 17:39:29    阅读次数:212
Spark使用总结与分享
背景 使用spark开发已有几个月。相比于python/hive,scala/spark学习门槛较高。尤其记得刚开时,举步维艰,进展十分缓慢。不过谢天谢地,这段苦涩(bi)的日子过去了。忆苦思甜,为了避免项目组的其他同学走弯路,决定总结和梳理spark的使用经验。 Spark基础 基石RDD spa...
分类:其他好文   时间:2015-04-05 17:23:53    阅读次数:181
平易近人、兼容并蓄——Spark SQL 1.3.0概览
摘要:DataFrame API的引入一改RDD API高冷的FP姿态,令Spark变得更加平易近人。外部数据源API体现出的则是兼容并蓄,Spark SQL多元一体的结构化数据处理能力正在逐渐释放。 关于作者:连城,Databricks工程师,Spark committer,Spark SQL主要开发者之一。在4月18日召开的 2015 Spark技术峰会 上,连城将做名为“四两拨千斤...
分类:数据库   时间:2015-04-03 19:26:28    阅读次数:322
Spark调优
因为Spark是内存当中的计算框架,集群中的任何资源都会让它处于瓶颈,CPU、内存、网络带宽。通常,内存足够的情况之下,网络带宽是瓶颈,这时我们就需要进行一些调优,比如用一种序列化的方式来存储RDD来减少内存使用,这边文章就讲两种方式,数据序列化和内存调优,接下来我们会分几个主题来谈论这个调优问题。...
分类:其他好文   时间:2015-03-19 17:56:12    阅读次数:173
Spark核心—RDD初探
本文目的 最近在使用Spark进行数据清理的相关工作,初次使用Spark时,遇到了一些挑(da)战(ken)。感觉需要记录点什么,才对得起自己。下面的内容主要是关于Spark核心—RDD的相关的使用经验和原理介绍,作为个人备忘,也希望对读者有用。 为什么选择Spark 原因如下 代码复用:使用Sca...
分类:其他好文   时间:2015-03-07 21:09:45    阅读次数:281
Spark SQL
Spark SQL是支持在Spark中使用Sql、HiveSql、Scala中的关系型查询表达式。它的核心组件是一个新增的RDD类型SchemaRDD,它把行对象用一个Schema来描述行里面的所有列的数据类型,它就像是关系型数据库里面的一张表。它可以从原有的RDD创建,也可以是Parquet文件,...
分类:数据库   时间:2015-03-05 16:11:41    阅读次数:268
RDD常用方法之subtract&intersection&cartesian
subtractReturn an RDD with the elements from `this` that are not in `other` . def subtract(other: RDD[T]): RDD[T]def subtract(other: RDD[T], numParti....
分类:其他好文   时间:2015-03-04 18:20:49    阅读次数:151
倒排索引
1.实例描述输入为一批文件,文件内容格式如下:Id1TheSpark……Id2TheHadoop……输出如下:(单词,文档ID合并字符串)TheId1Id2HadoopId2……2.设计思路先读取所有文件,数据项为(文档ID,文档词集合)的RDD,然后将数据映射为(词,文档ID)的RDD,去重,最后在reduceByKey阶..
分类:其他好文   时间:2015-03-04 11:21:07    阅读次数:161
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!