码迷,mamicode.com
首页 >  
搜索关键字:hadoop-mapreduce    ( 502个结果
WordCount
Map过程需要继承org.apache.hadoop.mapreduce包中Mapper类,并重写其 map方法。通过在map方法中添加两句把key值和value值输出到控制台的代码,可以发现map方法中value值存储的是文本文件中的一行(以回 车符为行结束标记),而key值为该行的首字母相对于文 ...
分类:其他好文   时间:2016-05-31 18:39:14    阅读次数:104
yarn对mapreducev1的重构,根本的思想是将 JobTracker 两个主要的功能分离成单独的组件,这两个功能是资源管理和任务调度 / 监控。
为从根本上解决旧 MapReduce 框架的性能瓶颈,促进 Hadoop 框架的更长远发展,从 0.23.0 版本开始,Hadoop 的 MapReduce 框架完全重构,发生了根本的变化。新的 Hadoop MapReduce 框架命名为 MapReduceV2 或者叫 Yarn,yarn对map... ...
分类:其他好文   时间:2016-05-25 12:54:43    阅读次数:195
Spark入门实战系列--4.Spark运行架构
1、 Spark运行架构 1.1 术语定义 lApplication:Spark Application的概念和Hadoop MapReduce中的类似,指的是用户编写的Spark应用程序,包含了一个Driver 功能的代码和分布在集群中多个节点上运行的Executor代码; lDriver:Spark中的Driver即运行上述Application的main()函数并且创建SparkCon...
分类:其他好文   时间:2016-05-18 19:19:01    阅读次数:239
K-Means Hadoop MapReduce
聚类与分类聚类(clustering)是指根据“物以类聚”的原理,将本身没有类别的样本聚集成不同的组,这样的一组数据对象的集合叫做簇,并且对每一个这样的簇进行描述的过程。 在分类( classification )中,对于目标数据库中存在哪些类是知道的,要做的就是将每一条记录分别属于哪一类标记出来。 聚类分析也称无监督学习, 因为和分类学习相比,聚类的样本没有标记,需要由聚类学习算法来自动确定。...
分类:其他好文   时间:2016-05-18 19:18:17    阅读次数:291
Hbase安装详解
一、简介 HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。HBase利用Hadoop HDFS作为其文件存储系统,利用Hadoop MapReduce来处理HBase中的海量数据,利用Zookeeper作为协调工具。 1.HBase(NoSQL)的数据模型 1)...
分类:其他好文   时间:2016-05-12 22:53:38    阅读次数:235
Hadoop的体系结构之MapReduce的体系结构
MapReduce的体系结构 Hadoop MapReduce是一个使用简易的软件框架,基于它写出来的应用程序能够运行在上千个商用机器组成的大型集群上,并以一种可靠容错的方式并行处理上TB的数据集。 采用MapReduce架构实现的程序能够在大量的普通配置的计算机构成的集群中实现并行化操作。MapR... ...
分类:其他好文   时间:2016-05-11 10:51:44    阅读次数:161
Hadoop MapReduce编程创建maven项目时所用到的pom依赖
...
分类:其他好文   时间:2016-05-07 19:40:16    阅读次数:239
spark源码阅读笔记RDD(七) RDD的创建、读取和保存
Spark支持很多输入和输入源,同时还支持内建RDD。Spark本身是基于Hadoop的生态圈,它可以通过 Hadoop MapReduce所使用的InpoutFormat和OutputFormat接口访问数据。而且大部分的文件格式和存储系统 (HDFS,Hbase,S3等)都支持这种接口。Spark常见的数据源如下: (1) 文件格式和文件系统,也就是我们经常用的TXT,JSON,CSV等...
分类:其他好文   时间:2016-05-07 11:28:59    阅读次数:492
在(MRv1)中JobTracker工作方式
在 Hadoop MapReduce 中,JobTracker 具有两种不同的职责: 管理集群中的计算资源,这涉及到维护活动节点列表、可用和占用的 map 和 reduce slots 列表,以及依据所选的调度策略将可用 slots 分配给合适的作业和任务 协调在集群上运行的所有任务,这涉及到指导 ...
分类:其他好文   时间:2016-05-03 20:23:18    阅读次数:190
Hadoop2.6.0子项目hadoop-mapreduce-examples的简单介绍
引文 学习Hadoop的同学们,一定知道如果运行Hadoop自带的各种例子,以大名鼎鼎的wordcount为例,你会输入以下命令: 当然,有些人还会用以下替代方式: 相比于原始的执行方式,使用jar命令方式,让我们不用再敲入繁琐的完整包路径。比如我们知道hadoop-mapreduce-exampl ...
分类:其他好文   时间:2016-04-29 14:24:30    阅读次数:252
502条   上一页 1 ... 18 19 20 21 22 ... 51 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!