码迷,mamicode.com
首页 >  
搜索关键字:mapreduce    ( 4054个结果
hadoop2.7.3 词频统计
[hadoop@localhost mapreduce]$ hadoop jar hadoop-mapreduce-examples-2.7.3.jar wordcount /home/hadoop/data/input/sp.txt /home/hadoop/data/output/sp_2018... ...
分类:其他好文   时间:2018-12-25 20:20:15    阅读次数:218
MapReduce流程
一、InputSplit MapReduce框架调用job.setINputFormatClass定义的InputFormat读取数据 InputFormat接口里包括两个方法:getSplits()和createRecordReader(),这两个方法分别用来定义输入分片和读取分片的方法。 1、计 ...
分类:其他好文   时间:2018-12-25 13:16:44    阅读次数:136
大数据的概述
一、什么是大数据 四个特性(4个V) 数据量大(Volume) 大数据摩尔定律:IDC估测数据一直以50%的速度增长,到2020年,全球将拥有35ZB的数据量。(GB>TB>PB>EB>ZB) 快速化(Velocity) 处理速度快,1秒级决策 多样化(Varity) 数据类型繁多,大部分为非结构化 ...
分类:其他好文   时间:2018-12-24 22:35:05    阅读次数:411
Impala大数据分析引擎视频教程
Impala大数据分析引擎视频教程课程链接:https://pan.baidu.com/s/1Q9hSTyIxG2VDOJKF6y4Q3A密码:ne8qImpala由Cloudera公司主导开发的大数据实时查询分析工具,宣称比原来基于MapReduce的HiveSQL查询速度提升3~90倍,且更加灵活易用。提供类SQL的查询语句,能够查询存储在Hadoop的HDFS、Kudu、HBase(实际生产
分类:其他好文   时间:2018-12-24 13:52:33    阅读次数:132
Python3的map/reduce
Python内建了map()和reduce()函数。 原文在这里MapReduce: Simplified Data Processing on Large Clusters,map/reduce的概念。 我们先看map。map()函数接收两个参数,一个是函数,一个是Iterable,map将传入的 ...
分类:编程语言   时间:2018-12-22 18:27:18    阅读次数:255
Centos6.8 安装spark-2.3.1 以及 scala-2.12.2
一、Spark概述 Spark 是一个用来实现快速而通用的集群计算的平台。 在速度方面,Spark 扩展了广泛使用的 MapReduce 计算模型,而且高效地支持更多计算模式,包括交互式查询和流处理。 在处理大规模数据集时,速度是非常重要的。速度快就意味着我们可以进行交互式的数据操作,否则我们每次操 ...
分类:其他好文   时间:2018-12-22 13:07:27    阅读次数:235
Hadoop与 Spark中的Shuffle之区别与联系
Hadoop与 Spark中的Shuffle之区别与联系 2018年08月22日 20:24:46 小爷欣欣 阅读数:175 Hadoop与 Spark中的Shuffle之区别与联系 2018年08月22日 20:24:46 小爷欣欣 阅读数:175 Hadoop与 Spark中的Shuffle之区 ...
分类:其他好文   时间:2018-12-22 11:54:49    阅读次数:184
MapReduce shuffle的过程分析
shuffle阶段其实就是多个map任务的输出,按照不同的分区,通过网络copy到不同的reduce节点上。 Map端: 1、在map端首先接触的是InputSplit,在InputSplit中含有DataNode中的数据,每一个InputSplit都会分配一个Mapper任务,Mapper任务结束 ...
分类:其他好文   时间:2018-12-21 15:24:10    阅读次数:212
Hive系列之HSQL转换成MapReduce过程
hive的库、表等数据实际是hdfs系统中的目录和文件,让开发者可以通过sql语句,像操作关系数据库一样操作文件内容,比如执行查询,统计,插入等操作。一直很好奇hive是如何做到这些的。hive的整体架构图如下所示,compiler部分负责把HiveSQL转换成MapReduce任务。基本转换步骤hiveSQL转换成MapReduce的执行计划包括如下几个步骤:HiveSQL->AST(抽象
分类:数据库   时间:2018-12-20 16:54:12    阅读次数:230
Spark RDD与MapReduce
什么是Map、什么是Reduce MapReduce是一个分布式编程计算模型,用于大规模数据集的分布式系统计算。 我个人理解,Map(映射、过滤)就是对一个分布式文件系统(HDFS)中的每一行(每一块文件)执行相同的函数进行处理; Reduce(规约、化简)就是对Map处理好的数据进行两两运算,因此 ...
分类:其他好文   时间:2018-12-20 11:54:38    阅读次数:256
4054条   上一页 1 ... 68 69 70 71 72 ... 406 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!