一、前置条件
1、操作系统准备
(1)Linux可以用作开发平台及产品平台。
(2)win32只可用作开发平台,且需要cygwin的支持。
2、安装jdk 1.6或以上
3、安装ssh,并配置免密码登录。(root用户)
$ ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa
$ cat ~/.ssh/id_dsa.pub >> ~/.ssh/auth...
分类:
其他好文 时间:
2014-08-17 11:48:42
阅读次数:
214
有如图所示的输入文件。其中第一列代表ip地址,之后的偶数列代表搜索词,数字(奇数列)代表搜索次数,使用"\t"分隔。现在需要对搜索词进行分词并统计词频,此处不考虑搜索次数,可能是翻页,亦不考虑搜索链接的行为。...
分类:
其他好文 时间:
2014-08-17 11:47:02
阅读次数:
306
1 安装环境1.1 客户端1.2 服务端1.3 安装准备 2 操作系统安装2.1.1 BIOS打开虚拟化支持2.1.2 关闭防火墙2.1.3 安装VNC3 JAVA安装 3.1 配置目的3.2 配置过程3.3 结果验证4 主机名配置4.1 配置目的4.2 配置过程4.3 结果验证5 增加hadoop...
分类:
其他好文 时间:
2014-08-17 06:02:33
阅读次数:
969
hadoop是一种分布式系统的平台,通过它可以很轻松的搭建一个高效、高质量的分布系统,而且它还有许多其它的相关子项目,也就是对它的功能的极大扩充,包括Zookeeper,Hive,Hbase等。MapReduce是hadoop的核心组件之一,hadoop要分布式包括两部分,一是分布式文件系统hdfs,一部是..
分类:
其他好文 时间:
2014-08-17 01:11:02
阅读次数:
241
WordCount是一个入门的MapReduce程序(从src\examples\org\apache\hadoop\examples粘贴过来的):package org.apache.hadoop.examples;import java.io.IOException;import java.ut...
分类:
其他好文 时间:
2014-08-16 23:48:21
阅读次数:
340
安装完hadoop后启动hadoop会报一个Warning。解决办法vi /etc/profile进入编辑模式,添加下面这行export HADOOP_HOME_WARN_SUPPRESS=1保存退出立即生效:source /etc/profile重新启动hadoop消除警告成功!
分类:
其他好文 时间:
2014-08-16 23:46:21
阅读次数:
275
从hadoop框架与MapReduce模式中谈海量数据处理前言 几周前,当我最初听到,以致后来初次接触Hadoop与MapReduce这两个东西,我便稍显兴奋,认为它们非常是神奇,而神奇的东西常能勾起我的兴趣,在看过介绍它们的文章或论文之后,认为Hadoop是一项富有趣味和挑战性的技术,且它还牵扯到...
分类:
其他好文 时间:
2014-08-16 18:29:30
阅读次数:
339
HDFS可靠性冗余副本策略机架策略心跳机制安全模式校验和回收站元数据保护在数据节点启动后,会把本地的文件系统遍历一次,产生一份数据块以及本地文件对应关系的清单叫做块报告,会汇报给NameNodeHadoop机架感知集群中各个节点之间会相互传递信息包心跳机制nameNode周期性从dat..
分类:
其他好文 时间:
2014-08-16 17:15:21
阅读次数:
317
在虚拟机利用两台centos(64位),由于使用的机器是64位,所以要自己编译好安装包1、建Hadoop运行组和用户root下运行命令,创建组和用户groupadd hadoopuseradd -g hadoop hadooppasswd hadoop2、修改/etc/hosts192.168.13...
分类:
其他好文 时间:
2014-08-16 12:21:20
阅读次数:
263