近日新写完的spark任务放到yarn上面执行时,在yarn的slave节点中一直看到报错日志:连接不到0.0.0.0:8030 。1 The logs are as below:2 2014-08-11 20:10:59,795 INFO [main] org.apache.hadoop.yarn...
分类:
其他好文 时间:
2014-08-17 21:08:52
阅读次数:
890
1、为什么需要Hadoop
目前,一块硬盘容量约为1TB,读取速度约为100M/S,因此完成一块硬盘的读取需时约2.5小时(写入时间更长)。若把数据放在同一硬盘上,且全部数据均需要同一个程序进行处理,此程序的处理时间将主要浪费在I/O时间上。
在过去几十年,硬盘的读取速度并未明显增长,而网络传输速度此飞速上升。
因此,若把数据分散到多个硬盘上进行存储(如分成100份存...
分类:
其他好文 时间:
2014-08-17 19:59:32
阅读次数:
394
HDFS Architecture
Introduction
HDFS是分布式文件系统,它被设计为运行在普通商用硬件之上。它与已经存在的文件系统有很多相似性。但是,也有巨大的不同。HDFS有很高的容错,被设计为部署在低廉的硬件上。HDFS提供为应用程序的数据提供一个高通量的访问,适合有大量数据的应用程序。HDFS放松了一些POSIX的需求,以使可以用流的方式访问文件系统的数据。HDFS最初作为...
分类:
其他好文 时间:
2014-08-17 17:02:32
阅读次数:
249
我的测试环境是三台机器分别是Hadoop-Yarn.Hark.Com 192.168.1.200Hadoop-Slave1.Hark.Com 192.168.1.201Hadoop.Slave2.Hark.Com 192.168.1.202我为了自己能充分练习hadoop 64位源码编译,所以三台机...
分类:
其他好文 时间:
2014-08-17 15:29:52
阅读次数:
236
Hostname
IP
Hadoop版本
Hadoop
功能
系统
hadoop2
192.168.119.131
2.2.0
namenode
jdk1.6+hadoop
centos5.9
h2slave1
192.168.119...
分类:
其他好文 时间:
2014-08-17 14:21:32
阅读次数:
257
Hbase的安装需要考虑Hadoop的版本,即兼容性。有不足的希望能指出。以下考究官网得到的,关于hadoop版本和hbase版本可到以下网址中下载:http://mirror.bit.edu.cn/apache/hbaseHBase-0.92.xHBase-0.94.xHBase-0.96.xHB...
分类:
其他好文 时间:
2014-08-17 14:13:02
阅读次数:
150
一、前置条件
1、操作系统准备
(1)Linux可以用作开发平台及产品平台。
(2)win32只可用作开发平台,且需要cygwin的支持。
2、安装jdk 1.6或以上
3、安装ssh,并配置免密码登录。(root用户)
$ ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa
$ cat ~/.ssh/id_dsa.pub >> ~/.ssh/auth...
分类:
其他好文 时间:
2014-08-17 11:48:42
阅读次数:
214
有如图所示的输入文件。其中第一列代表ip地址,之后的偶数列代表搜索词,数字(奇数列)代表搜索次数,使用"\t"分隔。现在需要对搜索词进行分词并统计词频,此处不考虑搜索次数,可能是翻页,亦不考虑搜索链接的行为。...
分类:
其他好文 时间:
2014-08-17 11:47:02
阅读次数:
306
1 安装环境1.1 客户端1.2 服务端1.3 安装准备 2 操作系统安装2.1.1 BIOS打开虚拟化支持2.1.2 关闭防火墙2.1.3 安装VNC3 JAVA安装 3.1 配置目的3.2 配置过程3.3 结果验证4 主机名配置4.1 配置目的4.2 配置过程4.3 结果验证5 增加hadoop...
分类:
其他好文 时间:
2014-08-17 06:02:33
阅读次数:
969
hadoop是一种分布式系统的平台,通过它可以很轻松的搭建一个高效、高质量的分布系统,而且它还有许多其它的相关子项目,也就是对它的功能的极大扩充,包括Zookeeper,Hive,Hbase等。MapReduce是hadoop的核心组件之一,hadoop要分布式包括两部分,一是分布式文件系统hdfs,一部是..
分类:
其他好文 时间:
2014-08-17 01:11:02
阅读次数:
241