搜索关键字：spark sort-based shuffle内幕彻底解密，搜索到7004个结果！码迷,mamicode.com！

转:人气资源大集合~~~2014年12月

原文来自于:http://bbs.csdn.net/topics/3909611422月份精华资源来了~首先推荐，2014中国大数据技术大会33位核心专家演讲，会议地址：http://bdtc2014.hadooper.cn讲师PDF下载专辑地址戴金权：基于Spark软件栈的下一代大数据分析介文清：...

分类：其他好文时间：2015-01-07 10:42:10 阅读次数：207

spark-1.2.0 集群环境搭建

spark-1.2.0 集群环境搭建...

分类：其他好文时间：2015-01-06 15:32:16 阅读次数：247

我们推荐的高效工具（转）

几天前，ThoughtWorks China 咨询师团队召开了一次团结的大会，成功的大会。为期三天的会议，分享的内容并不亚于坊间举行的技术大会，包含了敏捷组织转型、C++重构、敏捷测试体系、持续交付整体解决方案、Spark 执行模型、机器学习、Scala 代码操练。课题五花八门，争辩激烈精彩。　.....

分类：其他好文时间：2015-01-06 13:46:01 阅读次数：246

Spark系列之二——一个高效的分布式计算系统

1、什么是Spark？ Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架，Spark基于map reduce算法实现的分布式计算，拥有Hadoop MadReduce所具有的优点；但不同于MapReduce的是Job中间输出的结果可以....

分类：其他好文时间：2015-01-05 18:11:16 阅读次数：323

RDD与DSM的区别

RDD（Resilient Distributed DataSet)弹性分布式数据集，是Spark的核心数据结构。 DSM（Distributed Shared Memory）分布式共享内存，它是一种通用的内存数据抽象。在DSM中，应用可以向全局地址空间的任意位置进行读写操作。 RDD与DSM主要区别在于，不仅可以通过批量转换创建（即“写”）RDD，还可以对任意内存位置对写。RDD限制应用执行...

分类：其他好文时间：2015-01-05 13:09:07 阅读次数：188

Spark技术内幕：Sort Based Shuffle实现解析

在Spark 1.2.0中，Spark Core的一个重要的升级就是将默认的Hash Based Shuffle换成了Sort Based Shuffle，即spark.shuffle.manager 从hash换成了sort，对应的实现类分别是org.apache.spark.shuffle.hash.HashShuffleManager和org.apache.spark.shuffle.sort.SortShuffleManager。那么Sort BasedShuffle“取代”Hash BasedS...

分类：其他好文时间：2015-01-05 08:17:15 阅读次数：210

spark搭建环境涉及的linux命令（简单易用型（勿喷））

从一台服务器负责内容到另一台服务器： scp jdk-6u37-linux-x64.bin spark@10.126.45.56:/home/spark/opt tar压缩和解压文件: 压缩 tar -cvf java.tar.gz java/ 解压: tar -xvf java.tar.gz 配置java环境变量: 去各种地方下载 jdk程序包：jdk-6u3...

分类：系统相关时间：2015-01-04 15:20:05 阅读次数：250

关于yarn的spark配置属性

分类：其他好文时间：2015-01-04 15:12:11 阅读次数：825

Spark 与 Hadoop 关于 TeraGen/TeraSort 的对比实验(包含源代码)

自从 Hadoop 问世以来，MapReduce 在很长时间内都是排序基准测试的纪录保持者，但这一垄断在最近被基于内存计算的 Spark 打破了。在今年Databricks与AWS一起完成的一个Daytona Gray类别的Sort Benchmark中，Spark 完胜 Hadoop MapReduce：“1/10计算资源，1/3耗时”。这是个很有意思的对比实验，因此笔者也在一个小规模集群上做了一个微缩版的类似试验。...

分类：其他好文时间：2015-01-03 22:30:20 阅读次数：286

Spark与Hadoop MapReduce的对比分析

Spark与Hadoop MapReduce均为开源集群计算系统，但是两者适用的场景并不相同。其中，Spark基于内存计算实现，可以以内存速度进行计算，优化工作负载迭代过程，加快数据分析处理速度；Hadoop MapReduce以批处理方式处理数据，每次启动任务后，需要等待较长时间才能获得结果。在机器学习和数据库查询等数据计算过程中，Spark的处理素的可以达到Hadoop MapReduce...

分类：其他好文时间：2014-12-31 16:26:30 阅读次数：136

共7004条上一页 1 ... 636 637 638 639 640 ... 701 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)