码迷,mamicode.com
首页 >  
搜索关键字:hadoop-mapreduce    ( 502个结果
MapReduce shuffle过程剖析及调优
MapReduce简介在Hadoop MapReduce中,框架会确保reduce收到的输入数据是根据key排序过的。数据从Mapper输出到Reducer接收,是一个很复杂的过程,框架处理了所有问题,并提供了很多配置项及扩展点。一个MapReduce的大致数据流如下图:更详细的MapReduce介绍参考Hadoop MapReduce原理与实例。Mapper的...
分类:其他好文   时间:2016-07-18 04:24:38    阅读次数:342
Hadoop MapReduce原理及实例
MapReduce是用于数据处理的一种编程模型,简单但足够强大,专门为并行处理大数据而设计。1. 通俗理解MapReduceMapReduce的处理过程分为两个步骤:map和reduce。每个阶段的输入输出都是key-value的形式,key和value的类型可以自行指定。map阶段对切分好的数据进行并行处理,处理结果传输给reduce,由reduce函数完成最后的汇总。例如从大量历史数据中找出往年...
分类:其他好文   时间:2016-07-17 00:54:41    阅读次数:179
Hadoop-MapReduce操作
1、准备文件并设置编码格式为UTF-8并上传Linux 2、新建一个Java Project 3、导入jar 4、编写Map()和Reduce() 5、将代码输出成jar 6、在linux中启动hdfs 7、修改两个配置文件 8、在linux中启动yarn 9、运行mapReduce 10、查看运行 ...
分类:其他好文   时间:2016-07-15 20:39:44    阅读次数:116
Hadoop:MapReduce编程-WordCount统计单词个数-eclipse-java环境
之前习惯用hadoop streaming环境编写python程序,下面总结编辑java的eclipse环境配置总结,及一个WordCount例子运行。 一 下载eclipse安装包及hadoop插件 1去官网下载linux版本的eclipse安装包(或者在本人为了大家方便下载,上传到了csdn下载 ...
分类:编程语言   时间:2016-07-10 16:57:01    阅读次数:335
Linux下Spark框架配置(Python)
简述 Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据 ...
分类:编程语言   时间:2016-07-08 21:32:00    阅读次数:285
使用hadoop mapreduce分析mongodb数据:(2)
在上一篇使用hadoop mapreduce分析mongodb数据:(1)中,介绍了如何使用Hadoop MapReduce连接MongoDB数据库以及如何处理数据库,本文结合一个案例来进一步说明Hadoop MapReduce处理MongoDB的细节 原始数据 > db.stackin.find( ...
分类:数据库   时间:2016-06-19 11:26:52    阅读次数:220
MapReduce
https://0x0fff.com/hadoop-mapreduce-comprehensive-description/ https://0x0fff.com/wp-content/uploads/2014/12/MapReduce-v3.png ...
分类:其他好文   时间:2016-06-15 01:39:22    阅读次数:108
spark集群安装配置
spark集群安装配置 一. Spark简介 Spark是一个通用的并行计算框架,由UCBerkeley的AMP实验室开发。Spark基于map reduce 算法模式实现的分布式计算,拥有Hadoop MapReduce所具有的优点;但不同于Hadoop MapReduce的是Job中间输出和结果 ...
分类:其他好文   时间:2016-06-14 10:11:26    阅读次数:158
ubuntu14.04中spark集群安装配置
一. Spark简介 Spark是一个通用的并行计算框架,由UCBerkeley的AMP实验室开发。Spark基于map reduce 算法模式实现的分布式计算,拥有Hadoop MapReduce所具有的优点;但不同于Hadoop MapReduce的是Job中间输出和结果可以保存在内存中,从而不 ...
分类:系统相关   时间:2016-06-14 00:55:34    阅读次数:204
使用hadoop mapreduce分析mongodb数据:(1)
最近考虑使用hadoop mapreduce来分析mongodb上的数据,从网上找了一些demo,东拼西凑,终于运行了一个demo,下面把过程展示给大家 环境 ubuntu 14.04 64bit hadoop 2.6.4 mongodb 2.4.9 Java 1.8 mongo-hadoop-co ...
分类:数据库   时间:2016-06-09 13:27:07    阅读次数:337
502条   上一页 1 ... 17 18 19 20 21 ... 51 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!