传入函数要理解“函数本身也可以作为参数传入”,可以从Python内建的map/reduce函数入手。如果你读过Google的那篇大名鼎鼎的论文“MapReduce: Simplified Data Processing on Large Clusters”,你就能大概明白map/reduce的概念。...
分类:
编程语言 时间:
2014-09-28 01:51:30
阅读次数:
223
前面4篇文章介绍了如何编写一个简单的日志提取程序,读取HDFS share/logs目录下的所有csv日志文件,然后提取数据后,最终输出到share/output目录下。本篇停留一下,梳理一下主要过程,然后提出新的改进目标。首先声明一下,所有的代码都是maven工程的,没有使用任何IDE。 这是我一贯的编程风格,用Emacs + JDEE开发。需要使用IDE的只需要学习如何在IDE中使用mave...
分类:
其他好文 时间:
2014-09-27 22:45:50
阅读次数:
256
MapReduce程序编译是可以在普通的Java环境下进行,现在来到真实的环境上运行。首先,将日志文件放到HDFS目录下$ hdfs dfs -put *.csv /user/chenshu/share/logs/
14/09/27 17:03:22 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your...
分类:
其他好文 时间:
2014-09-27 21:04:00
阅读次数:
233
Spark概述
当前,MapReduce编程模型已经成为主流的分布式编程模型,它极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。但是MapReduce也存在一些缺陷,如高延迟、不支持DAG模型、Map与Reduce的中间数据落地等。因此在近两年,社区出现了优化改进M...
分类:
其他好文 时间:
2014-09-27 18:23:00
阅读次数:
573
转自: http://www.csdn.net/article/2013-12-04/2817707-Impala-Big-Data-Engine大数据处理是云计算中非常重要的领域,自Google公司提出MapReduce分布式处理框架以来,以Hadoop为代表的开源软件受到越来越多公司的重视和青睐...
分类:
其他好文 时间:
2014-09-26 22:27:38
阅读次数:
219
hive简单概念 hive是一种基于Hadoop的数据仓库的处理工具,目前只支持简单的类似传统关系型数据库的SQL查询,修改操作功能,他可以直接将SQL转化为MapReduce程序,开发人员不必一定要学会写MR程序,提高了开发效率...
分类:
其他好文 时间:
2014-09-26 19:40:28
阅读次数:
232
MapReduce原理:
MapReduce采用"分而治之"的思想,把对大规模数据集的操作,分发给一个主节点管理下的各个分节点共同完成,然后通过整合各个节点的中间结果,得到最终结果。简单地说,MapReduce就是"任务的分解与结果的汇总"。
在Hadoop中,用于执行MapReduce任务的机器角色有两个:一个是JobTracker;另一个是TaskTrac...
分类:
编程语言 时间:
2014-09-26 19:07:08
阅读次数:
187
前言 几周前,当我最初听到,以致后来初次接触Hadoop与MapReduce这两个东西,我便稍显兴奋,觉得它们很是神秘,而神秘的东西常能勾起我的兴趣,在看过介绍它们的文章或论文之后,觉得Hadoop是一项富有趣味和挑战性的技术,且它还牵扯到了一个我更加感兴趣的话题:海量数据处理。 由此,最近凡是空闲...
分类:
其他好文 时间:
2014-09-26 05:21:18
阅读次数:
285
现在想从日志中提取数据,日志文件如下:2014-05-10 13:36:40,140307000287,536dbacc4700aab274729cca,login
2014-05-10 13:37:46,140310000378,536dbae74700aab274729ccb,login
2014-05-10 13:39:20,140310000382,536dbb284700aab27472...
分类:
其他好文 时间:
2014-09-26 02:38:28
阅读次数:
340
Reduce代码就是做加和统计,package org.freebird.reducer;
import java.io.IOException;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.mapreduce.Reducer.Context;
import org.apache.hadoop.mapredu...
分类:
其他好文 时间:
2014-09-26 02:02:58
阅读次数:
146