?? Storm工作原理: Storm是一个开源的分布式实时计算系统,常被称为流式计算框架。什么是流式计算呢?通俗来讲,流式计算顾名思义:数据流源源不断的来,一边来,一边计算结果,再进入下一个流。比如一般金融系统一直不断的执行,金融交易、用户全部行为都记录进日志里,日志分析出站点运维、猎户信息。海量 ...
分类:
其他好文 时间:
2017-07-01 12:47:15
阅读次数:
200
spark应用执行机制分析 前段时间一直在编写指标代码,一直采用的是--deploy-mode client方式开发测试,因此执行没遇到什么问题,但是放到生产上采用--master yarn-cluster方式运行,那问题就开始陆续暴露出来了。因此写一篇文章分析并记录一下spark的几种运行方式。 ...
分类:
其他好文 时间:
2017-06-29 17:47:04
阅读次数:
254
MapReduce的核心是:分而治之,并行处理;以及其自动化的调度和处理。 主要是Map和Reduce两个阶段 基本流程是: mr的数据处理单位是一个split,每个split对应一个map任务; 当map从HDFS上读取一个split时,这里会有“移动计算,不移动数据”的机制来减少网络的数据传输来 ...
分类:
其他好文 时间:
2017-06-25 23:12:09
阅读次数:
351
>>> import random 随机生成范围内浮点数 >>> random.uniform(10,20) 16.593660100791066 随机生成范围内整数 >>> random.randint(10,20) 20 >>> random.randint(10,20) 14 随机选取序列中的 ...
分类:
编程语言 时间:
2017-06-25 11:04:10
阅读次数:
120
二维数组的简单运用 仅供参考 代码如下: package ClassDemo; import java.util.Arrays;import java.util.Scanner; public class TwoDimensionalArray { public static void main(S ...
分类:
编程语言 时间:
2017-06-20 19:15:26
阅读次数:
153
应用场景: 第一种方法 参考代码StormTopologyTimer1.java 方法二: 所以我们应该这么干 这个方法也ok的,这个不同于前面的在main里设置定时,这个是在bolt里设置,这个方法就是针对bolt设置,针对某一个bolt设置定时任务! 参考代码StormTopologyTimer ...
分类:
其他好文 时间:
2017-06-09 00:50:18
阅读次数:
250
生成数字序列命令:seq,shuf7.1.seq功能:打印数字序列语法:seq[OPTION]...LASTseq[OPTION]...FIRSTLASTseq[OPTION]...FIRSTINCREMENTLAST常用选项:-f使用printf样式格式-s指定分隔符,默认换行符\n-w等宽,用0填充示例:数字序列:方法1:
[root@localhost~]#seq10
1
2
3
4..
分类:
其他好文 时间:
2017-05-29 16:01:03
阅读次数:
199
摘要: 通过腾讯shuffle部署对shuffle过程进行详解 摘要:腾讯分布式数据仓库基于开源软件Hadoop和Hive进行构建,TDW计算引擎包括两部分:MapReduce和Spark,两者内部都包含了一个重要的过程—Shuffle。本文对Shuffle过程进行解析,并对两个计算引擎的Shuff ...
分类:
其他好文 时间:
2017-04-10 00:41:43
阅读次数:
283
String[] beforeShuffle = new String[] {"1", "2", "3", "4", "5", "6", "7", "8", "9","10" }; List list = Arrays.asList(beforeShuffle); Collections.shuff ...
分类:
其他好文 时间:
2016-08-23 16:46:39
阅读次数:
158
随机:import sample from *random.choice(seq) # 从序列的元素中随机挑选一个元素,比如random.choice(range(10)),从0到9中随机挑选一个整数。random.sample(seq,k) # 从序列中随机挑选k个元素random.shuff.....
分类:
Web程序 时间:
2015-06-19 11:45:04
阅读次数:
188