码迷,mamicode.com
首页 >  
搜索关键字:RDD    ( 1327个结果
spark总结4 算子问题总结
官网上最清晰 sc 启动spark时候就已经初始化好了 sc.textFile后 会产生一个rdd spark 的算子分为两类 一类 Transformation 转换 一类 Action 动作 Transformation 延迟执行 记录元数据信息 当计算任务触发Action时候才会真正的开始计算 ...
分类:其他好文   时间:2017-09-16 13:29:42    阅读次数:220
Spark学习笔记3:键值对操作
键值对RDD通常用来进行聚合计算,Spark为包含键值对类型的RDD提供了一些专有的操作。这些RDD被称为pair RDD。pair RDD提供了并行操作各个键或跨节点重新进行数据分组的操作接口。 Spark中创建pair RDD的方法:存储键值对的数据格式会在读取时直接返回由其键值对数据组成的pa ...
分类:其他好文   时间:2017-09-15 12:25:36    阅读次数:293
linux环境下Apache+Tomcat集群配置
写在前面 apache配置多个tomcat,实现请求分流,多个tomcat服务均衡负载,增加服务的可靠性。最近研究了一下,遇到许多问题,记录一下,方便以后查阅,不喜欢apache,nginx也是可以做到的。 准备 版本很重要,我就是由于版本原因,一直报错 linux 使用 #lsb_release ...
分类:Web程序   时间:2017-09-14 16:50:19    阅读次数:296
利用netcat进行网络吞吐量测试
最近工作过程中遇到一个问题:在linux现有命令的基础上(封闭只读系统),如何需要对产品的wifi模块进行吞吐量测试? 在进行测试前,我首先看了一下当前系统拥有的命令以及搜索相关资料, 发现使用nc这个命令,配合dd的时候能够进行吞吐量测试(局域网)。 使用这种方法测试的优点:免去嵌入新的软件。缺点 ...
分类:Web程序   时间:2017-09-13 15:10:06    阅读次数:232
Spark官方2 ---------Spark 编程指南(1.5.0)
概述 在高层次上,每个Spark应用程序都由一个运行用户main方法的driver program组成,并在集群上执行各种 parallel operations。Spark提供的主要抽象是resilient distributed dataset (RDD),它是可以并行操作的群集节点之间分配的元 ...
分类:其他好文   时间:2017-09-12 18:30:01    阅读次数:116
C#设计模式(5)-建造者模式
引言 上一篇介绍了设计模式中的抽象工厂模式-C#设计模式(3)-抽象工厂模式,本篇将介绍建造者模式; 点击这里查看全部设计模式系列文章导航 建造者模式简介 建造者模式是将一个复杂对象的构建与表示分离,使得同样的构建过程可以创建不同的表示。 在软件系统中,有时候会面临着“一个复杂对象”的创建工作,其通 ...
分类:Windows程序   时间:2017-09-11 18:06:18    阅读次数:286
走近RDD
RDD(Resilient Distributed Datasets)弹性分布式数据集。RDD可以看成是一个简单的"数组",对其进行操作也只需要调用有限的"数组"中的方法即可,但它与一般数组的区别在于:RDD是分布式存储,可以跟好的利用现有的云数据平台,并在内存中进行。此处的弹性指的是数据的存储方式 ...
分类:其他好文   时间:2017-09-09 13:48:30    阅读次数:152
Hive on Spark
Hive On Spark 一、概述 Hive 是一种数据仓库,即是一种sql翻译器,hive可以将sql翻译成mapreduce程序在hadoop中去执行,默认支持原生的Mapreduce引擎。从hive1.1版本以后开始支持Spark。可以将sql翻译成RDD在spark里面执行。Hive支持的 ...
分类:其他好文   时间:2017-09-08 21:53:17    阅读次数:255
spark aggregate函数
aggregate函数将每个分区里面的元素进行聚合,然后用combine函数将每个分区的结果和初始值(zeroValue)进行combine操作。这个函数最终返回的类型不需要和RDD中元素类型一致。 def aggregate[U: ClassTag](zeroValue: U)(seqOp: (U ...
分类:其他好文   时间:2017-09-08 16:20:57    阅读次数:223
spark[源码]-sparkContext详解
spark简述 sparkContext在Spark应用程序的执行过程中起着主导作用,它负责与程序和spark集群进行交互,包括申请集群资源、创建RDD、accumulators及广播变量等。sparkContext与集群资源管理器、work节点交互图如下: 官网对图下面几点说明: (1)不同的Sp ...
分类:其他好文   时间:2017-09-07 13:23:41    阅读次数:260
1327条   上一页 1 ... 70 71 72 73 74 ... 133 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!