流操作可以顺序执行也可以并行执行why.??? 流 --Java API新成员==>遍历数据集的高级迭代器 --特点:透明并行处理,无需写多线程代码 --因为filter、sorted、map和collect等操作是与具体线程模型无关的高层次构件,所以 它们的内部实现可以是单线程的,也可能透明地充分 ...
分类:
编程语言 时间:
2017-10-29 13:56:20
阅读次数:
180
DataFrame提供了一条联结所有主流数据源并自动转化为可并行处理格式的渠道,通过它Spark能取悦大数据生态链上的所有玩家,无论是善用R的数据科学家,惯用SQL的商业分析师,还是在意效率和实时性的统计工程师。 以一个常见的场景 -- 日志解析为例,有时我们需要用到一些额外的结构化数据(比如做IP ...
分类:
数据库 时间:
2017-10-27 01:30:36
阅读次数:
353
前言 上一篇我们分析了一个MapReduce在执行中的一些细节问题,这一篇分享的是MapReduce并行处理的基本过程和原理。 Mapreduce是一个分布式运算程序的编程框架,是用户开发“基于hadoop的数据分析应用”的核心框架。 Mapreduce核心功能是将用户编写的业务逻辑代码和自带默认组 ...
分类:
其他好文 时间:
2017-10-25 23:34:34
阅读次数:
223
在最开始,我们要弄清楚node会什么会存在阻塞? node是这么标榜自己的:“在node中除了代码,所有一切都是并行执行的!” 意思是,Node.js可以在不新增额外线程的情况下,依然可以对任务进行并行处理 —— Node.js是单线程的。 也就是说,我们启动的web服务器,监听8888端口的sta ...
分类:
Web程序 时间:
2017-10-24 19:33:45
阅读次数:
236
一、Zabbix3.4.3新功能1新仪表板1.1Map导航树2网络设备监控模板3Proxies代理支持远程命令4从属监控项5告警并行处理6已通知的问题确认7监控项数据预处理新预处理选项8可配置的JMX端点9JMX低级别发现10用于正则表达式的PCRE库11Web监控中的URL编码支持URL自动编码变量灵活的URL编..
分类:
其他好文 时间:
2017-10-21 19:07:13
阅读次数:
313
来自官网的Spark Programming Guide,包括个人理解的东西。 RDD是spark中最重要的抽象概念(数据结构),是集群中各节点上并行处理的分隔元素的集合(汇总),总会用到collect()方法。 RDD可以从Hadoop文件系统中的文件创建,也可以从执行程序中的Scala集合中创建 ...
分类:
其他好文 时间:
2017-10-13 15:22:37
阅读次数:
283
1. makefile的伪目标的目的不是去创建文件,而仅仅通过make指定目标来执行一些特定系统命令或其依赖为目标的规则(如all),称为伪目标。 当clean 不是伪目标的时候,第一次执行会生成clean文件,并且目标下的清除命令会被执行,但是第二次执行时则不会执行,因为当前产生了clean文件。 ...
分类:
其他好文 时间:
2017-10-10 13:16:19
阅读次数:
167
SparkSQL本质上是基于DAG模型的MPP。而Kylin核心是Cube(多维立方体)。关于MPP和Cube预处理的差异,重复如下: > MPP [1] 的基本思路是增加机器来并行计算,从而提高查询速度。比如扫描8亿记录一台机器要处理1小时,但如果用100台机器来并行处理,就只要一分钟不到。再配合 ...
分类:
数据库 时间:
2017-10-08 11:13:03
阅读次数:
188
1、Master-Worker模式 (1)、定义理解: Master-Worker是将串行处理,变为并行处理。有很多的Worker处理串行任务获得子结果集,那么需要个Master来处理这些子结果集,获取和串行相同的结果集。 (2)、角色有 Worker:工作者,处理单个任务。 Master:老板,任 ...
分类:
其他好文 时间:
2017-10-07 23:36:58
阅读次数:
425
在看《操作系统》的时候,经常看到一个名词叫做系统吞吐量,不是很清楚具体含义,就去查了查,现在记录一下。 定义 吞吐量是指在单位时间内中央处理器(CPU)从存储设备读取->处理->存储信息的量。 影响因素 1、存储设备的存取速度,即从存储器读出数据或数据写入存储器所需时间; 2、CPU性能: 1)时钟 ...
分类:
其他好文 时间:
2017-09-28 10:05:57
阅读次数:
219