码迷,mamicode.com
首页 >  
搜索关键字:mapreduce    ( 4054个结果
Hadoop学习笔记(6) ——重新认识Hadoop
Hadoop学习笔记(6) ——重新认识Hadoop 之前,我们把hadoop从下载包部署到编写了helloworld,看到了结果。现是得开始稍微更深入地了解hadoop了。 Hadoop包含了两大功能DFS和MapReduce, DFS可以理解为一个分布式文件系统,存储而已,所以这里暂时就不深入....
分类:其他好文   时间:2014-07-30 09:44:03    阅读次数:344
MapReduce:详解Shuffle过程
Shuffle过程是MapReduce的核心,也被称为奇迹发生的地方。要想理解MapReduce, Shuffle是必须要了解的。我看过很多相关的资料,但每次看完都云里雾里的绕着,很难理清大致的逻辑,反而越搅越混。前段时间在做MapReduce job 性能调优的工作,需要深入代码研究MapReduce的运行机制,这才对Shuffle探了个究竟。考虑到之前我在看相关资料而看不懂时很恼火,所以在这里...
分类:其他好文   时间:2014-07-29 21:56:42    阅读次数:327
论文摘抄 - FlumeJava
核心抽象和基本原语 PCollection是一个不可变的bag,可以是有序的(Sequence),也可以是无序的(Collection)。PCollection可以来自于内存里的Java PCollection对象,也可以读取自文件。 PTable,可以看成PCollection<Pair>,不可变无序multi-map。 第一个原语是parallelDo(),把PCollection变成新的PCollection,处理方式定义在DoFn里。e...
分类:编程语言   时间:2014-07-29 18:08:02    阅读次数:294
论文摘抄 - Tenzing
背景 异构数据的适配及数据可扩展性,资源可扩展性,廉价机器,SQL查询。 架构概述 Worker pool,query server,clientinterfaces,metadata server Worker线程是long-running的,worker pool包括master节点和worker节点,以及一个master watcher。 Query server把query解析,优化之后传给master执行,优化包括一些基本的规则优化和基于成本的优化。...
分类:其他好文   时间:2014-07-29 18:07:02    阅读次数:250
Window7中Eclipse运行MapReduce程序报错的问题
按照文档:http://www.micmiu.com/bigdata/hadoop/hadoop2x-eclipse-mapreduce-demo/安装配置好Eclipse后,运行WordCount程序报错: log4j:WARN No appenders could be found for lo...
分类:Windows程序   时间:2014-07-29 16:39:32    阅读次数:482
关于Hadoop-Streaming中碰到的问题
Hadoop在分布式计算方面很强大,而Python在文本处理也是相当方便,那么有这两者的结合吗?有,答案就是Hadoop-Streaming。Hadoop-Streaming可以将Hadoop与主流语言结合起来,使用方便,效果很好。个人觉得Pig在处理数据集时很不方便,特别是在计算百分比等运算时,而Hadoop-Streaming是可以替代Pig的。 1.Streaming固定的代码,该代码可以...
分类:其他好文   时间:2014-07-29 14:39:08    阅读次数:340
MapReduce:详解Shuffle过程
Shuffle过程是MapReduce的核心,也被称为奇迹发生的地方。要想理解 MapReduce, Shuffle是必须要了解的。我看过很多相关的资料,但每次看完都云里雾里的绕着,很难理清大致的逻辑,反而越搅越混。前段时间在做MapReduce job 性能调优的工作,需要深入代码研究MapRed...
分类:其他好文   时间:2014-07-29 13:38:48    阅读次数:219
用mapreduce实现将mysql数据导出到HDFS上
因为业务需要,需要将一批mysql数据导入到HBASE,现在先将数据从Mysql导出到HDFS。版本:hadoop CDH4.5,Hbase-0.946 1、实体类 YqBean 是我的实体类,请根据自己需要修改,实体类需要 implements Writable, DBWritable。 ...
分类:数据库   时间:2014-07-29 11:50:56    阅读次数:292
海量推荐系统:mapreduce的方法
1. Motivation2. MapReduceMapReduce是一种数据密集型并行计算框架。待处理数据以“块”为单位存储在集群机器文件系统中(HDFS),并以(key, value)的键值对形式保存。当任务启动时,系统将计算任务分配给存储数据的相应机器。MapReduce计算任务可以划分为两个...
分类:其他好文   时间:2014-07-28 15:16:13    阅读次数:202
Hadoop学习笔记(5) ——编写HelloWorld(2)
Hadoop学习笔记(5) ——编写HelloWorld(2) 前面我们写了一个Hadoop程序,并让它跑起来了。但想想不对啊,Hadoop不是有两块功能么,DFS和MapReduce。没错,上一节我们写了一个MapReduce的HelloWorld程序,那这一节,我们就也学一学DFS程序的编写。....
分类:其他好文   时间:2014-07-27 22:24:49    阅读次数:280
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!