码迷,mamicode.com
首页 >  
搜索关键字:RDD    ( 1327个结果
Spark读取Hbase数据的几种方法
1、传统方法: 这种方式就是常用的TableInputFormat和TableOutputFormat来读写hbase; 用sc.newAPIHadoopRDD根据conf中配置好的scan来从Hbase的数据列族中读取包含(ImmutableBytesWritable, Result)的RDD,随 ...
分类:其他好文   时间:2018-12-02 22:35:46    阅读次数:421
spark基本概念与运行架构
Apache Spark是一个分布式计算框架,旨在简化运行于计算机集群上的并行程序的编写。 RDD:弹性分布式数据集(Resilient Distributed Dataset)是分布式内存的一个抽象概念,提供了一个高度受限的共享内存模型。一个RDD包含多个分区(Partition)。 DAG:有向 ...
分类:其他好文   时间:2018-12-02 19:17:45    阅读次数:209
RDD、DF、DS的区别与联系
RDD.DataFrame.DataSet的区别和联系 共性: 1)都是spark中得弹性分布式数据集,轻量级 2)都是惰性机制,延迟计算 3)根据内存情况,自动缓存,加快计算速度 4)都有partition分区概念 5)众多相同得算子:map flatmap 等等 区别: 1)RDD不支持SQL ...
分类:其他好文   时间:2018-12-01 13:01:39    阅读次数:266
Spark从入门到精通(一)
什么是Spark 1. 大数据计算框架 2. 离线批处理 3. 大数据体系架构图(Spark) 4. Spark包含了大数据领域常见的各种计算框架:比如Spark Core用于离线计算,Spark SQL用于交互式查询,Spark Streaming用于实时流式计算,Spark MLib用于机器学习 ...
分类:其他好文   时间:2018-12-01 00:16:11    阅读次数:204
RDD算子、RDD依赖关系
RDD:弹性分布式数据集, 是分布式内存的一个抽象概念 RDD:1.一个分区的集合, 2.是计算每个分区的函数 , 3.RDD之间有依赖关系 4.一个对于key-value的RDD的Partitioner 5.一个存储存取每个Partition的优先位置的列表 RDD算子: Transformati ...
分类:其他好文   时间:2018-11-30 00:39:53    阅读次数:231
RDDs之combineByKey()
combineByKey(crateCombiner,mergeValue,mergeCombiners,partitioner) 最常用的基于Key的聚合函数,返回的类型可以和输入的类型不一样 许多基于key的聚合函数都用到了它,例如说groupByKey() 参数解释 遍历partition中的 ...
分类:其他好文   时间:2018-11-25 20:31:54    阅读次数:221
KeyValue对RDDs
创建KeyValue对RDDs 使用函数map,返回keyvalue对 例如,包含数行数据的RDD,那每行的第一个单词作为keys。 sparl.txt中的内容如下: hello ! hello world hello spark 常见的操作: ...
分类:其他好文   时间:2018-11-25 20:00:57    阅读次数:163
RDDs基本操作之Transformations
逐元素Transformation map() map()接收函数,把函数应用到RDD的每个元素,返回新的RDD 举例: filter() filter接收函数,返回只包含满足filter()函数的元素的新RDD flatMap() 对每个输入元素,输出多个输出元素。 flat是压扁的意思,将RDD ...
分类:其他好文   时间:2018-11-25 17:48:11    阅读次数:350
RDD基本操作之Action
Action介绍 在RDD上计算出来一个结果 把结果返回给driver program或保存在文件系统,count(),save 常用的Action reduce() 接收一个函数,作用在RDD两个类型相同的元素上,返回新元素。 可以实现,RDD中元素的累加,计数,和其它类型的聚集操作。 举例: c ...
分类:其他好文   时间:2018-11-25 17:46:50    阅读次数:233
spark-groupByKey
一般来说,在执行shuffle类的算子的时候,比如groupByKey、reduceByKey、join等。 其实算子内部都会隐式地创建几个RDD出来。那些隐式创建的RDD,主要是作为这个操作的一些中间数据的表达,以及作为stage划分的边界。 因为有些隐式生成的RDD,可能是ShuffledRDD ...
分类:其他好文   时间:2018-11-25 17:46:19    阅读次数:247
1327条   上一页 1 ... 43 44 45 46 47 ... 133 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!