码迷,mamicode.com
首页 >  
搜索关键字:rdd    ( 1327个结果
spark访问hbase
importorg.apache.hadoop.hbase.{HBaseConfiguration,HTableDescriptor} importorg.apache.hadoop.hbase.mapreduce.TableInputFormat importorg.apache.spark.rdd.NewHadoopRDD valconf=HBaseConfiguration.create() conf.set(TableInputFormat.INPUT_TABLE,"tmp") varhBase..
分类:其他好文   时间:2015-11-29 06:49:21    阅读次数:146
spark RDD transformation与action函数巩固 (未完)
1.创建RDDval lines = sc.parallelize(List("pandas","i like pandas"))2.加载本地文件到RDDval linesRDD = sc.textFile("yangsy.txt")3.过滤 filter 需要注意的是 filter并不会在原有RD...
分类:其他好文   时间:2015-11-28 14:52:54    阅读次数:213
Spark RDD
1、RDD是Resilient Distributed Dataset(即"弹性分布式数据”)的缩写,它是Spark中的基本抽象类,包含在所有RDD中存在的基本操作:map、filter、persist。immutable:不可变的;implicit conversion:隐式变换;propagat...
分类:其他好文   时间:2015-11-26 15:17:18    阅读次数:360
Spark GraphX
1 OverviewGraphX is a new component in Spark for graphs and graph-parallel computation. At a high level, GraphX extends the Spark RDD by introducing a...
分类:其他好文   时间:2015-11-26 15:13:07    阅读次数:359
Spark RDD操作(1)
https://www.zybuluo.com/jewes/note/35032RDD是什么?RDD是Spark中的抽象数据结构类型,任何数据在Spark中都被表示为RDD。从编程的角度来看,RDD可以简单看成是一个数组。和普通数组的区别是,RDD中的数据是分区存储的,这样不同分区的数据就可以分布在...
分类:其他好文   时间:2015-11-26 12:56:41    阅读次数:200
RDD关键性能考量之 内存管理
《Spark快速大数据分析》8.4.2关键性能考量 内存管理内存对Spark来说哟几个不同的用途,理解并调优Spark的内存使用方法可以帮助优化Spark应用。在各个执行器进程中,内存有一下所列集中用途。RDD存储当调用RDD的persist()或cache()方法时,这个RDD的分区会被存储到缓存...
分类:其他好文   时间:2015-11-20 01:32:58    阅读次数:182
RDD关键性能考量之 序列化格式
《Spark快速大数据分析》8.4.2关键性能考量 序列化格式当Spark需要通过网络传输数据,或是将数据写到磁盘上时,Spark需要把数据序列化为二进制格式。序列化会在数据进行混洗操作时发生,此时有可能需要通过网络传输大量数据。默认情况下,Spark会使用Java内建的序列化库。Spark也支持使...
分类:其他好文   时间:2015-11-20 00:14:43    阅读次数:337
RDD关键性能考量之 并行度
《Spark快速大数据分析》8.4关键性能考量并行度RDD的逻辑表示其实是一个对象的集合。在物理执行期间,RDD会被分为一系列的分区,每个分区都是整个数据的子集。当Spark调度并运行任务时,Spark会为每个分区中的数据创建出一个任务,该任务在默认情况下会需要集群中的一个计算节点来执行。Spark...
分类:其他好文   时间:2015-11-19 01:45:33    阅读次数:706
大数据笔记
1. 大数据目前代名词spark,是一个快速的集群计算系统,它的功能之一是streaming,支持实时的数据流,把实时数据流按时间变为离散数据流 discretized stream,其中每一个离散集合RDD resilient distributed dataset2. 计算函数包括:flatMa...
分类:其他好文   时间:2015-11-17 12:32:59    阅读次数:121
关于scala搞出的新概念的语法糖
对于scala搞那么多语法糖和新概念真是又爱又恨。爱的是scala引入了java一直没有的lambda特性,这对于使用高阶函数抽象来处理集合数据非常有爱(spark简洁的RDD处理得益于此)。恨的是scala搞那么多的新概念和语法...
分类:其他好文   时间:2015-11-15 17:53:28    阅读次数:256
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!