是一个并行计算框架(计算的数据源比较广泛 HDFS、RDBMS、NoSQL),Hadoop的 MR模块充分利用了HDFS中所有数据节点(datanode)所在机器的内存、CUP以及少量磁盘完成对大数据集的分布式计算。MapReduce将计算分为两个阶段: 1. 通过将一个大的计算任务分割成若干个小任 ...
                            
                            
                                分类:
其他好文   时间:
2019-01-04 21:59:10   
                                阅读次数:
207
                             
                    
                        
                            
                            
                                    一、Storm与Spark、Hadoop三种框架对比 Storm与Spark、Hadoop这三种框架,各有各的优点,每个框架都有自己的最佳应用场景。所以,在不同的应用场景下,应该选择不同的框架。1.Storm是最佳的流式计算框架,Storm由Java和Clojure写成,Storm的优点是全内存计算 ...
                            
                            
                                分类:
其他好文   时间:
2018-12-22 20:35:42   
                                阅读次数:
191
                             
                    
                        
                            
                            
                                018年接近尾声,我018年接近尾声,我策划了“解读2018”年终技术盘点系列文章,希望能够给读者清晰地梳理出重要技术领域在这一年来的发展和变化。本文是实时流计算2018年终盘点,作者对实时流计算技术的发展现状进行了深入剖析,并对当前大火的各个主流实时流计算框架做了全面、客观的对比,同时对未来流计算可能的发展方向进行预测和展望。策划了“解读2018”年终技术盘点系列文章,希望能够给读者清晰地梳理出
                            
                            
                                分类:
其他好文   时间:
2018-12-21 19:33:15   
                                阅读次数:
288
                             
                    
                        
                            
                            
                                今年,实时流计算技术开始步入主流,各大厂都在不遗余力地试用新的流计算框架,实时流计算引擎和API诸如SparkStreaming、KafkaStreaming、Beam和Flink持续火爆。阿里巴巴自2015年开始改进Flink,并创建了内部分支Blink,目前服务于阿里集团内部搜索、推荐、广告和蚂蚁等大量核心实时业务。12月20日,由阿里巴巴承办的FlinkForwardChina峰会在北京国家
                            
                            
                                分类:
其他好文   时间:
2018-12-21 17:39:16   
                                阅读次数:
255
                             
                    
                        
                            
                            
                                    首先我们从宏观的视角来窥视下大数据技术框架: 图1 大数据技术框架 从图1可以看出,数据源-数据收集-数据存储-资源管理,这是我们进行数据分析和处理的基本;图中的计算框架包括批处理、交互式分析和流处理: 批处理计算:对时间没有严格要求,吞吐率要高 交互式计算:支持类SQL语言,快速进行数据分析 流式 ...
                            
                            
                                分类:
其他好文   时间:
2018-12-18 19:51:30   
                                阅读次数:
218
                             
                    
                        
                            
                            
                                    MapReduce 离线计算框架 分而治之 input map shuffle reduce output 分布式并行的计算框架 将计算过程分为两个阶段,Map和Reduce Map阶段并行处理输入数据 Reduce阶段对Map结果进行汇总 Shuffle链接Map和Reduce两个阶段 Map T ...
                            
                            
                                分类:
其他好文   时间:
2018-12-17 14:30:40   
                                阅读次数:
198
                             
                    
                        
                            
                            
                                Apache Spark是一个分布式计算框架,旨在简化运行于计算机集群上的并行程序的编写。 RDD:弹性分布式数据集(Resilient Distributed Dataset)是分布式内存的一个抽象概念,提供了一个高度受限的共享内存模型。一个RDD包含多个分区(Partition)。 DAG:有向 ...
                            
                            
                                分类:
其他好文   时间:
2018-12-02 19:17:45   
                                阅读次数:
209
                             
                    
                        
                            
                            
                                    什么是Spark 1. 大数据计算框架 2. 离线批处理 3. 大数据体系架构图(Spark) 4. Spark包含了大数据领域常见的各种计算框架:比如Spark Core用于离线计算,Spark SQL用于交互式查询,Spark Streaming用于实时流式计算,Spark MLib用于机器学习 ...
                            
                            
                                分类:
其他好文   时间:
2018-12-01 00:16:11   
                                阅读次数:
204
                             
                    
                        
                            
                            
                                    引言 Apache Flink是面向数据流处理和批处理的分布式开源计算框架,2016年阿里巴巴引入Flink框架,改造为Blink。2017年,阿里整合了所有流计算产品,决定以Blink引擎为基础,打造一款全球领先的实时计算引擎。当年双11,Blink支持了二十多个事业部/群,同时运行了上千个实时计 ...
                            
                            
                                分类:
其他好文   时间:
2018-11-23 14:06:25   
                                阅读次数:
181
                             
                    
                        
                            
                            
                                    ThinkerPop Apache 顶级项目 概述 TinkerPop是一个面向实时事务处理(OLAP)以及批量、分析型(OLTP)的开源的图计算框架。TinkerPop是一个可以应用于不同图形数据库的抽象层,避免应用程序与特定数据库高度依赖。 目标 提供通用的API和工具,使开发人员可以基于不同图 ...
                            
                            
                                分类:
其他好文   时间:
2018-11-22 14:22:29   
                                阅读次数:
831