导读:Storm是一个分布式计算框架,主要使用Clojure与Java语言编写,最初是由NathanMarz带领Backtype公司团队创建,在Backtype公司被Twitter公司收购后进行开源。最初的版本是在2011年9月17日发行,版本号0.5.0。2013年9月,Apache基金会开始接管并孵化Storm项目。ApacheStorm是在EclipsePublicLicense下进行开发的
分类:
其他好文 时间:
2018-06-28 22:52:25
阅读次数:
219
一、 基本的离线数据处理架构: 数据采集 Flume:Web日志写入到HDFS 数据清洗 脏数据 Spark、Hive、MR等计算框架来完成。 清洗完之后再放回HDFS 数据处理 按照需要,进行业务的统计和分析。 也通过计算框架完成 处理结果入库 存放到RDBMS、NoSQL中 数据可视化 通过图形 ...
分类:
数据库 时间:
2018-06-15 00:02:22
阅读次数:
386
在spark中很多时候我们常常以为一个文件是会被完整读入到内存,然后做各种变换。其实并不是这样的,除非你主动对RDD进行Cache/Persist缓存操作。 举一个简单的例子: sc.textfile("test.txt").map().saveasTextfile(); 使用sc.textfile ...
分类:
其他好文 时间:
2018-06-09 23:20:56
阅读次数:
841
1.概念 1.1什么是hadoop? hadoop 是大数据存储和处理的框架,主要组成为文件存储系统hdfs和分布式计算框架mapreduce。 1.2能做什么,擅长做什么,不擅长做什么? 1.2.1能做什么,如何做? hadoop 支持处理TB,PB级别的文件。举个栗子:如100M的文件,过滤出含 ...
分类:
其他好文 时间:
2018-06-09 16:40:43
阅读次数:
190
近年来,大数据的计算引擎越来越受到关注,spark作为最受欢迎的大数据计算框架,也在不断的学习和完善中。在Spark2.x中,新开放了一个基于DataFrame的无下限的流式处理组件——Structured Streaming,它也是本系列的主角,废话不多说,进入正题吧! 简单介绍 在有过1.6的s ...
分类:
其他好文 时间:
2018-06-02 17:10:16
阅读次数:
757
一、Hadoop框架 1.HDFS(分布式文件系统) 2.MapReduce(分布式计算框架) 3.YARN(集群资源管理器) 4.Zookeeper(分布式协作服务) 5.Ambari(管理工具) 二、Spark(内存计算框架) 1.Scala 2.Spark SQL 3.Spark Stream ...
分类:
其他好文 时间:
2018-05-18 11:28:00
阅读次数:
137
Apache Parquet是Hadoop生态圈中一种新型列式存储格式,它可以兼容Hadoop生态圈中大多数计算框架(Mapreduce、Spark等),被多种查询引擎支持(Hive、Impala、Drill等),并且它是语言和平台无关的。Parquet最初是由Twitter和Cloudera合作开 ...
分类:
其他好文 时间:
2018-05-17 11:58:34
阅读次数:
192
一、引言 在了解GraphX之前,需要先了解关于通用的分布式图计算框架的两个常见问题:图存储模式和图计算模式。 二、图存储模式 巨型图的存储总体上有边分割和点分割两种存储方式。2013年,GraphLab2.0将其存储方式由边分割变为点分割,在性能上取得重大提升,目前基本上被业界广泛接受并使用。 2 ...
分类:
其他好文 时间:
2018-05-16 20:54:39
阅读次数:
155
1、Hadoop系统运行于一个由普通商用服务器组成的计算集群上,能提供大规模分布式数据存储资源的同时,也提供了大规模的并行化计算资源。 2、Hadoop生态系统 3、MapReduce并行计算框架 MapReduce并行计算框架是一个并行化程序执行系统。它提供了一个包含Map和Reduce两个阶段的 ...
分类:
其他好文 时间:
2018-05-16 00:46:15
阅读次数:
375
一、MapReduce编程模型 一种分布式计算框架,解决海量数据的计算问题。 MapReduce将整个并行计算过程抽象到两个函数: Map(映射):对一些独立元素组成的列表的每一个元素进行制定的操作,可以高度并行。 Reduce(化简):对一个列表的元素进行合并。 一个简单的MapReduce程序只 ...
分类:
其他好文 时间:
2018-04-27 12:17:43
阅读次数:
152