搜索关键字：计算框架，搜索到492个结果！码迷,mamicode.com！

大数据实战项目必备技能三：storm

导读：Storm是一个分布式计算框架，主要使用Clojure与Java语言编写，最初是由NathanMarz带领Backtype公司团队创建，在Backtype公司被Twitter公司收购后进行开源。最初的版本是在2011年9月17日发行，版本号0.5.0。2013年9月，Apache基金会开始接管并孵化Storm项目。ApacheStorm是在EclipsePublicLicense下进行开发的

分类：其他好文时间：2018-06-28 22:52:25 阅读次数：219

Spark SQL实现日志离线批处理

一、基本的离线数据处理架构：数据采集 Flume：Web日志写入到HDFS 数据清洗脏数据 Spark、Hive、MR等计算框架来完成。清洗完之后再放回HDFS 数据处理按照需要，进行业务的统计和分析。也通过计算框架完成处理结果入库存放到RDBMS、NoSQL中数据可视化通过图形 ...

分类：数据库时间：2018-06-15 00:02:22 阅读次数：386

对spark内存迭代计算框架的理解误区

在spark中很多时候我们常常以为一个文件是会被完整读入到内存，然后做各种变换。其实并不是这样的，除非你主动对RDD进行Cache/Persist缓存操作。举一个简单的例子： sc.textfile("test.txt").map().saveasTextfile(); 使用sc.textfile ...

分类：其他好文时间：2018-06-09 23:20:56 阅读次数：841

hadoop学习（一）概念理解

1.概念 1.1什么是hadoop？ hadoop 是大数据存储和处理的框架，主要组成为文件存储系统hdfs和分布式计算框架mapreduce。 1.2能做什么，擅长做什么，不擅长做什么？ 1.2.1能做什么，如何做？ hadoop 支持处理TB，PB级别的文件。举个栗子：如100M的文件，过滤出含 ...

分类：其他好文时间：2018-06-09 16:40:43 阅读次数：190

Structured Streaming教程(1) —— 基本概念与使用

近年来，大数据的计算引擎越来越受到关注，spark作为最受欢迎的大数据计算框架，也在不断的学习和完善中。在Spark2.x中，新开放了一个基于DataFrame的无下限的流式处理组件——Structured Streaming，它也是本系列的主角，废话不多说，进入正题吧！简单介绍在有过1.6的s ...

分类：其他好文时间：2018-06-02 17:10:16 阅读次数：757

大数据技术（一）大数据软件框架

一、Hadoop框架 1.HDFS（分布式文件系统） 2.MapReduce（分布式计算框架） 3.YARN（集群资源管理器） 4.Zookeeper（分布式协作服务） 5.Ambari（管理工具）二、Spark（内存计算框架） 1.Scala 2.Spark SQL 3.Spark Stream ...

分类：其他好文时间：2018-05-18 11:28:00 阅读次数：137

Parquet存储格式 - 论文翻译【转】

Apache Parquet是Hadoop生态圈中一种新型列式存储格式，它可以兼容Hadoop生态圈中大多数计算框架(Mapreduce、Spark等)，被多种查询引擎支持（Hive、Impala、Drill等），并且它是语言和平台无关的。Parquet最初是由Twitter和Cloudera合作开 ...

分类：其他好文时间：2018-05-17 11:58:34 阅读次数：192

Spark学习之路（二十八）分布式图计算系统

一、引言在了解GraphX之前，需要先了解关于通用的分布式图计算框架的两个常见问题：图存储模式和图计算模式。二、图存储模式巨型图的存储总体上有边分割和点分割两种存储方式。2013年，GraphLab2.0将其存储方式由边分割变为点分割，在性能上取得重大提升，目前基本上被业界广泛接受并使用。 2 ...

分类：其他好文时间：2018-05-16 20:54:39 阅读次数：155

Hadoop平台基本组成

1、Hadoop系统运行于一个由普通商用服务器组成的计算集群上，能提供大规模分布式数据存储资源的同时，也提供了大规模的并行化计算资源。 2、Hadoop生态系统 3、MapReduce并行计算框架 MapReduce并行计算框架是一个并行化程序执行系统。它提供了一个包含Map和Reduce两个阶段的 ...

分类：其他好文时间：2018-05-16 00:46:15 阅读次数：375

hadoop学习笔记（八）：MapReduce

一、MapReduce编程模型一种分布式计算框架，解决海量数据的计算问题。 MapReduce将整个并行计算过程抽象到两个函数： Map（映射）：对一些独立元素组成的列表的每一个元素进行制定的操作，可以高度并行。 Reduce（化简）：对一个列表的元素进行合并。一个简单的MapReduce程序只 ...

分类：其他好文时间：2018-04-27 12:17:43 阅读次数：152

共492条上一页 1 ... 14 15 16 17 18 ... 50 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)