hadoop(二MapReduce) 介绍 MapReduce:其实就是把数据分开处理后再将数据合在一起. Map负责“分”,即把复杂的任务分解为若干个“简单的任务”来并行处理。可以进行拆分的前提是这些小任务可以并行计算,彼此间几乎没有依赖关系。Reduce负责“合”,即对map阶段的结果进行全局汇 ...
分类:
其他好文 时间:
2019-08-12 01:05:38
阅读次数:
184
mapReduce 的优势在于分布式,这一节记录一个分布式统计的示例,整个过程分为这几步:启动分布式服务、手动分片、导入数据、执行 mapReduce。下面单独说说这几步。 1、启动分布式服务 参考前面的第10节和第11节,不在重复说了。 2、手动分片: sh.enableSharding('tes ...
分类:
数据库 时间:
2019-08-11 23:18:50
阅读次数:
165
mapReduce从功能上说类似于RDBMS中的group,它的强大之处在于很好的支持分布式。相比于group、aggregate,mapReduce的用法很简单,其实它的工作原理也很简单,下面介绍一下。 mapReduce工作分为两步,一是映射,即map,将数据按照某一个规则映射到一个数组里,比如 ...
分类:
数据库 时间:
2019-08-11 01:18:19
阅读次数:
201
Programming Assignment 1: A simple MapReduce-like compute framework Yuanli Wang wang8662 Ruoyan Kong kong0135 1 Design document 1.1 System overview We ...
分类:
其他好文 时间:
2019-08-10 17:20:13
阅读次数:
82
本周主要是熟悉HDFS的操作。 在虚拟机安装好Hadoop后,我需要先熟悉下其自带的HDFS文件系统以及MapReduce的一系列操作,为接下来HBase的学习做好铺垫。因为HBase的文件存储系统是HDFS、数据处理方式是MapReduce,在很多操作上面有很多需要操作HDFS来进行的,所以我需要 ...
分类:
其他好文 时间:
2019-08-09 21:56:58
阅读次数:
101
一、Hive介绍 Apache官网给出的logo,一半是Hadoop大象的头,一半是蜜蜂的身体,也是寓意着它是基于Hadoop,哈哈,纯属个人理解,进入正题。 Hive是基于Hadoop的一个数据仓库工具,可以将sql语句转换成MapReduce任务来运行。可以用来数据提取、转化、加载(ETL),这 ...
分类:
其他好文 时间:
2019-08-07 23:02:06
阅读次数:
242
Hive 数据仓库,Hive 的本质其实就相当于将 HDFS 中已经存储的文件在Mysql中做了一个双射关系,以方便使用 HQL 去管理查询 用于数据分析、清洗,Hive 适用于离线的数据分析和清洗,延迟较高 基于 HDFS、MapReduce,Hive存储的数据依旧在DataNode上,编写的 H ...
分类:
其他好文 时间:
2019-08-05 14:23:06
阅读次数:
90
大数据的发展历程总体上可以划分为三个重要阶段,萌芽期、成熟期和大规模应用期,20世纪90年至21世纪初,为萌芽期,随着,一批商业智能工具和知识管理技术的开始和应用,度过了数据萌芽,21世纪前十年则为成熟期,主要标志为,大数据解决方案逐渐走向成熟,形成了并行计算与分布式系统两大核心技,谷歌的GFS和MapReduce等大数据技术受到追捧,Hadoop平台开始大行期道,2010年以后,为大规模应用期,
分类:
其他好文 时间:
2019-08-01 11:50:38
阅读次数:
132
一、WordCount原理 初学MapReduce编程,WordCount作为入门经典,类似于初学编程时的Hello World。WordCount的逻辑就是给定一个/多个文本,统计出文本中每次单词/词出现的次数。网上找的一张MapReduce实现WordCount的图例,基本描述清楚了WordCo ...
分类:
其他好文 时间:
2019-08-01 00:04:29
阅读次数:
254
Apache Spark的高性能一定程度上取决于它采用的异步并发模型(这里指server/driver 端采用的模型),这与Hadoop 2.0(包括YARN和MapReduce)是一致的。Hadoop 2.0自己实现了类似Actor的异步并发模型,实现方式是epoll+状态机,而Apache Sp ...
分类:
编程语言 时间:
2019-07-30 21:30:40
阅读次数:
125