1、数据去重 "数据去重"主要是为了掌握和利用并行化思想来对数据进行有意义的筛选。统计大数据集上的数据种类个数、从网站日志中计算访问地等这些看似庞杂的任务都会涉及数据去重。下面就进入这个实例的MapReduce程序设计。 1.1 实例描述 对数据文件中的数据进行去重。数据文件中的每行都是一个数据。
分类:
其他好文 时间:
2016-03-03 13:06:03
阅读次数:
156
1、VSFTP简介 VSFTP是一个基于GPL发布的类Unix系统上使用的FTP服务器软件,它的全称是Very Secure FTP 从此名称可以看出来,编制者的初衷是代码的安全。 安全性是编写VSFTP的初衷,除了这与生俱来的安全特性以外,高速与高稳定性也是VSFTP的两个重要特点。 在速度方面,
分类:
其他好文 时间:
2016-03-03 13:00:05
阅读次数:
275
1、Hadoop开发环境简介 1.1 Hadoop集群简介 Java版本:jdk-6u31-linux-i586.bin Linux系统:CentOS6.0 Hadoop版本:hadoop-1.0.0.tar.gz 1.2 Windows开发简介 Java版本:jdk-6u31-windows-i5
分类:
系统相关 时间:
2016-03-03 11:27:04
阅读次数:
369
1、HDFS简介 HDFS(Hadoop Distributed File System)是Hadoop项目的核心子项目,是分布式计算中数据存储管理的基础,是基于流数据模式访问和处理超大文件的需求而开发的,可以运行于廉价的商用服务器上。它所具有的高容错、高可靠性、高可扩展性、高获得性、高吞吐率等特征
分类:
其他好文 时间:
2016-03-03 11:25:47
阅读次数:
197
1、MapReduce理论简介 1.1 MapReduce编程模型 MapReduce采用"分而治之"的思想,把对大规模数据集的操作,分发给一个主节点管理下的各个分节点共同完成,然后通过整合各个节点的中间结果,得到最终结果。简单地说,MapReduce就是"任务的分解与结果的汇总"。 在Hadoop
分类:
其他好文 时间:
2016-03-03 11:24:46
阅读次数:
198
转载自 http://www.cnblogs.com/xia520pi/archive/2012/05/28/2520813.html , 感谢虾皮工作室这一系列精彩的文章. Hadoop集群(第8期)_HDFS初探之旅 1、HDFS简介 HDFS(Hadoop Distributed File S
分类:
其他好文 时间:
2016-03-01 23:57:19
阅读次数:
466
概要 这是一个Giraph的入门教程,主要用来运行少量输入的Giraph程序,并不能用于生产环境。 在这个教程中,我们将会在一个物理机器行部署一个单节点,伪分布的Hadoop集群。这个节点既是master,又是slave。那即是,它将会运行NameNode,SecondaryNameNode,Job
分类:
其他好文 时间:
2016-02-26 15:28:11
阅读次数:
2421
Hadoop集群搭建Hadoop是Apache软件基金会旗下的一个开源分布式计算平台。以Hadoop分布式文件系统(HDFS,HadoopDistributedFilesystem)和MapReduce(GoogleMapReduce的开源实现)为核心的Hadoop为用户提供了系统底层细节透明的分布式基础架构。对于Hadoop的集群来讲,可以分成..
分类:
其他好文 时间:
2016-02-24 15:51:40
阅读次数:
406
一、简介 为了开发调试方便,本文介绍在Eclipse下搭建开发环境,连接和提交任务到Hadoop集群。 二、安装前准备: 1)Eclipse:Luna 4.4.1 2)eclipse插件:hadoop-eclipse-plugin-2.6.0.jar 3)hadoop版本:hadoop-2.6.0.
分类:
系统相关 时间:
2016-02-24 15:43:21
阅读次数:
374
安装步骤: 1) JDK -- Hadoop是用Java写的,不安装Java虚拟机怎么运行Hadoop的程序; 2)创建专门用于运行和执行hadoop任务(比如map和reduce任务)的linux用户,就像windows下的服务账户,并且授权给他可以访问运行JDK目录权限,让他可以执行java虚拟
分类:
系统相关 时间:
2016-02-18 00:00:02
阅读次数:
521