[hadoop@localhost mapreduce]$ hadoop jar hadoop-mapreduce-examples-2.7.3.jar wordcount /home/hadoop/data/input/sp.txt /home/hadoop/data/output/sp_2018... ...
分类:
其他好文 时间:
2018-12-25 20:20:15
阅读次数:
218
一、InputSplit MapReduce框架调用job.setINputFormatClass定义的InputFormat读取数据 InputFormat接口里包括两个方法:getSplits()和createRecordReader(),这两个方法分别用来定义输入分片和读取分片的方法。 1、计 ...
分类:
其他好文 时间:
2018-12-25 13:16:44
阅读次数:
136
一、什么是大数据 四个特性(4个V) 数据量大(Volume) 大数据摩尔定律:IDC估测数据一直以50%的速度增长,到2020年,全球将拥有35ZB的数据量。(GB>TB>PB>EB>ZB) 快速化(Velocity) 处理速度快,1秒级决策 多样化(Varity) 数据类型繁多,大部分为非结构化 ...
分类:
其他好文 时间:
2018-12-24 22:35:05
阅读次数:
411
Impala大数据分析引擎视频教程课程链接:https://pan.baidu.com/s/1Q9hSTyIxG2VDOJKF6y4Q3A密码:ne8qImpala由Cloudera公司主导开发的大数据实时查询分析工具,宣称比原来基于MapReduce的HiveSQL查询速度提升3~90倍,且更加灵活易用。提供类SQL的查询语句,能够查询存储在Hadoop的HDFS、Kudu、HBase(实际生产
分类:
其他好文 时间:
2018-12-24 13:52:33
阅读次数:
132
Python内建了map()和reduce()函数。 原文在这里MapReduce: Simplified Data Processing on Large Clusters,map/reduce的概念。 我们先看map。map()函数接收两个参数,一个是函数,一个是Iterable,map将传入的 ...
分类:
编程语言 时间:
2018-12-22 18:27:18
阅读次数:
255
一、Spark概述 Spark 是一个用来实现快速而通用的集群计算的平台。 在速度方面,Spark 扩展了广泛使用的 MapReduce 计算模型,而且高效地支持更多计算模式,包括交互式查询和流处理。 在处理大规模数据集时,速度是非常重要的。速度快就意味着我们可以进行交互式的数据操作,否则我们每次操 ...
分类:
其他好文 时间:
2018-12-22 13:07:27
阅读次数:
235
Hadoop与 Spark中的Shuffle之区别与联系 2018年08月22日 20:24:46 小爷欣欣 阅读数:175 Hadoop与 Spark中的Shuffle之区别与联系 2018年08月22日 20:24:46 小爷欣欣 阅读数:175 Hadoop与 Spark中的Shuffle之区 ...
分类:
其他好文 时间:
2018-12-22 11:54:49
阅读次数:
184
shuffle阶段其实就是多个map任务的输出,按照不同的分区,通过网络copy到不同的reduce节点上。 Map端: 1、在map端首先接触的是InputSplit,在InputSplit中含有DataNode中的数据,每一个InputSplit都会分配一个Mapper任务,Mapper任务结束 ...
分类:
其他好文 时间:
2018-12-21 15:24:10
阅读次数:
212
hive的库、表等数据实际是hdfs系统中的目录和文件,让开发者可以通过sql语句,像操作关系数据库一样操作文件内容,比如执行查询,统计,插入等操作。一直很好奇hive是如何做到这些的。hive的整体架构图如下所示,compiler部分负责把HiveSQL转换成MapReduce任务。基本转换步骤hiveSQL转换成MapReduce的执行计划包括如下几个步骤:HiveSQL->AST(抽象
分类:
数据库 时间:
2018-12-20 16:54:12
阅读次数:
230
什么是Map、什么是Reduce MapReduce是一个分布式编程计算模型,用于大规模数据集的分布式系统计算。 我个人理解,Map(映射、过滤)就是对一个分布式文件系统(HDFS)中的每一行(每一块文件)执行相同的函数进行处理; Reduce(规约、化简)就是对Map处理好的数据进行两两运算,因此 ...
分类:
其他好文 时间:
2018-12-20 11:54:38
阅读次数:
256