本文摘自知乎: https://www.zhihu.com/question/31346392/answer/51924208 原子性:记录之前的版本,允许回滚 一致性:事务开始和结束之间的中间状态不会被其他事务看到 隔离性:适当的破坏一致性来提升性能与并行度 例如:最终一致~=读未提交。 持久性: ...
分类:
数据库 时间:
2017-08-24 18:01:27
阅读次数:
404
原创文章,转载请务必将下面这段话置于文章开头处。本文转发自技术世界,原文链接 http://www.jasongj.com/spark/skew/ 摘要 本文结合实例详细阐明了Spark数据倾斜的几种场景以及对应的解决方案,包括避免数据源倾斜,调整并行度,使用自定义Partitioner,使用Map ...
分类:
其他好文 时间:
2017-08-15 11:24:14
阅读次数:
343
1、如何创建一个分区为2的RDD: 创建一个RDD,分区为2,即对list进行并行化,并行度为2 或者启动10个map Task进行处理,对10个分区都进行map处理 2、将一个有两个分区的RDD收集起来 3、得到这个rdd的分区数 4、想要看每个分区结果 用glom,glom是将一个RDD的每一个 ...
分类:
其他好文 时间:
2017-08-10 01:21:49
阅读次数:
312
设置Job间并行的参数是Hive.exec.parallel,将其设为true即可。默认的并行度为8,也就是最多允许sql中8个Job并行。如果想要更高的并行度,可以通过Hive.exec.parallel. thread.number参数进行设置,但要避免设置过大而占用过多资源。 减少Job数 另 ...
分类:
其他好文 时间:
2017-07-07 23:27:57
阅读次数:
275
1 异构计算、GPGPU与OpenCL OpenCL是当前一个通用的由很多公司和组织共同发起的多CPU\GPU\其他芯片 异构计算(heterogeneous)的标准,它是跨平台的。旨在充分利用GPU强大的并行计算能力以及与CPU的协同工作,更高效的利用硬件高效的完成大规模的(尤其是并行度高的)计算 ...
分类:
其他好文 时间:
2017-07-07 15:24:48
阅读次数:
206
转自:https://my.oschina.net/zc741520/blog/409949 概念: Workers (JVMs): 在一个节点上可以运行一个或多个独立的JVM 进程。一个Topology可以包含一个或多个worker(并行的跑在不同的machine上), 所以worker proc ...
分类:
其他好文 时间:
2017-07-05 13:41:32
阅读次数:
168
map是配置mapred.max.split.size,来定义map处理文件的大小,默认是256000000字段,换算就是256M。 如果想增加map的并行度,那么就是减少map处理文件的大小即可。 即set mapred.max.split.size=xxx(更小的字节) reduce和map是一 ...
分类:
其他好文 时间:
2017-07-03 19:56:04
阅读次数:
263
用的是ShuffleGrouping分组方式,并行度设置为3 这是跑下来的结果 参考代码StormTopologyShufferGrouping.java package yehua.storm; import java.util.Map; import org.apache.storm.Confi ...
分类:
其他好文 时间:
2017-06-10 13:53:23
阅读次数:
181
前言 数据倾斜调优 调优概述 数据倾斜发生时的现象 数据倾斜发生的原理 如何定位导致数据倾斜的代码 查看导致数据倾斜的key的数据分布情况 数据倾斜的解决方案 解决方案一:使用Hive ETL预处理数据 解决方案二:过滤少数导致倾斜的key 解决方案三:提高shuffle操作的并行度 解决方案四:两 ...
分类:
其他好文 时间:
2017-05-23 13:16:57
阅读次数:
284
前言 数据倾斜调优 调优概述 数据倾斜发生时的现象 数据倾斜发生的原理 如何定位导致数据倾斜的代码 查看导致数据倾斜的key的数据分布情况 数据倾斜的解决方案 解决方案一:使用Hive ETL预处理数据 解决方案二:过滤少数导致倾斜的key 解决方案三:提高shuffle操作的并行度 解决方案四:两 ...
分类:
其他好文 时间:
2017-05-11 20:26:02
阅读次数:
240