码迷,mamicode.com
首页 >  
搜索关键字:RDD    ( 1327个结果
浅谈Spark(2) - RDD
Spark依赖于一个很特别的数据抽象,叫做弹性分布式数据集(resilient distributed datasets),也就是RDD,它是一个被集群分区(partitioned)的in-memory read-only对象。每一个RDD都是根据range(partitioning of cons
分类:其他好文   时间:2016-02-26 16:57:57    阅读次数:186
CacheManager彻底解密:CacheManager运行原理流程图和源码详解(DT大数据梦工厂)
内容:1、CacheManager重大价值;2、CacheManager运行原理图;3、CacheManager源码解析;BlockManager针对Cache这样的行为做了CacheManagerSpark出色的原因:1、Spark基于RDD构成了一体化、多元化的大数据处理中心(不需要再处理多种范式来部署多种框架,只要Spark!!!降低成..
分类:系统相关   时间:2016-02-22 16:11:00    阅读次数:358
RDD持久化、广播、累加器(DT大数据梦工厂)
内容:1、RDD持久化实战;2、Spark广播实战;3、Spark累加器实战;持久化实战几个方面:1、怎么保存结果;2、实现算法的时候cache、persist;3、checkpoint广播:构建算法至关重要,降低网络传输数据量、提高内存的使用效率、加快程序的运行速度累加器:全局的指针部件的变量,..
分类:其他好文   时间:2016-02-21 06:49:42    阅读次数:646
Spark RDD API详解(一)(转)
RDD是什么? RDD是Spark中的抽象数据结构类型,任何数据在Spark中都被表示为RDD。从编程的角度来看,RDD可以简单看成是一个数组。和普通数组 的区别是,RDD中的数据是分区存储的,这样不同分区的数据就可以分布在不同的机器上,同时可以被并行处理。因此,Spark应用程序所做的无非是把需要
分类:Windows程序   时间:2016-02-19 15:59:03    阅读次数:411
[转载] How Many Partitions Does An RDD Have
From https://databricks.gitbooks.io/databricks-spark-knowledge-base/content/performance_optimization/how_many_partitions_does_an_rdd_have.html For tun
分类:其他好文   时间:2016-02-17 17:18:55    阅读次数:190
RDD案例(DT大数据梦工厂)
内容:1、map、filter、flatmap等操作回顾;2、reduceBykey、groupBykey;3、jion、cogroug;算子共同特点:都是最常用的算子,构建复杂算法的基石,都是lazy级别的,不属于action创建SparkContext是Spark的起点,只有创建SparkContext,才能创建RDD==========map============..
分类:其他好文   时间:2016-02-08 17:31:39    阅读次数:311
如何使用Spark大规模并行构建索引
使用Spark构建索引非常简单,因为spark提供了更高级的抽象rdd分布式弹性数据集,相比以前的使用Hadoop的MapReduce来构建大规模索引,Spark具有更灵活的api操作,性能更高,语法更简洁等一系列优点。 先看下,整体的拓扑图: 然后,再来看下,使用scala写的spark程序: J
分类:其他好文   时间:2016-02-01 15:31:49    阅读次数:197
Spark IMF传奇行动第22课:RDD的依赖关系彻底解密
版权声明:本文为博主原创文章,未经博主允许不得转载。作者:HaiziS 昨晚听了王家林老师的Spark IMF传奇行动第22课:RDD的依赖关系彻底解密,笔记如下: 1,窄依赖是指每个父RDD的一个Partition最多被子RDD的一个Partition所使用,例如map、filter、union等
分类:其他好文   时间:2016-01-30 13:30:22    阅读次数:204
spark - 将RDD保存到RMDB(MYSQL)数据库中
SCALA连接数据库批量插入: scala> import java.sql.DriverManager scala> var url = "jdbc:mysql://localhost:3306/mydb?useUnicode=true&characterEncoding=utf8" scala>
分类:数据库   时间:2016-01-28 13:49:44    阅读次数:283
Spark IMF传奇行动第18课:RDD持久化、广播、累加器总结
昨晚听了王家林老师的Spark IMF传奇行动第18课:RDD持久化、广播、累加器,作业是unpersist试验,阅读累加器源码看内部工作机制:scala> val rdd = sc.parallelize(1 to 1000)rdd: org.apache.spark.rdd.RDD[Int] =...
分类:其他好文   时间:2016-01-24 12:52:11    阅读次数:471
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!