HDFS:HDFS是一个分布式文件系统。因为HDFS具有高容错性(fault-tolerent)的特点,所以可以部署到低廉的硬件上。它可以通过提高吞吐率(highthroughput)来访问应用程序的数据,适合那些有着超大数据集的应用程序。HDFS放宽了对可移植操作系统接口(POSIX,portable Operating System Interface)的要求。这样可以实现以流的形式访问文件系...
分类:
其他好文 时间:
2015-03-09 19:07:04
阅读次数:
129
本文转载至http://sery.blog.51cto.com/10037/263515原创作品,允许转载,转载时请务必以超链接形式标明文章原始出处、作者信息和本声明。否则将追究法律责任。http://sery.blog.51cto.com/10037/263515分布式文件系统MFS(moosef...
分类:
其他好文 时间:
2015-03-05 20:49:26
阅读次数:
196
很早就听说hadoop,但项目中一直没怎么接触,今天终于下定决心,花了一天的时间,搭起了基本的开发环境,总结如下。
一.软件准备
jdk、hadoop软件包、eclipse软件包(linux版)
二.安装java
详见http://blog.csdn.net/tonytfjing/article/details/42167599
三.安装hadoop(单机伪分布式)
3...
分类:
其他好文 时间:
2015-03-04 22:49:30
阅读次数:
213
本文来源于《Hadoop技术内幕深入解析Hadoop common和HDFS架构设计与实现原理》一、Hadoop基本概念Hadoop是Apache基金会下的一个开源分布式计算平台,以Hadoop分布式文件系统(HDFS)和MapReduce分布式计算框架为核心,为用户提供了底层细节透明的分布式基础设...
分类:
其他好文 时间:
2015-03-03 21:58:21
阅读次数:
136
输入命令可查看在分布式文件系统下的输出文件信息:也可将输出文件从分布式文件系统拷贝到本地文件系统查看:
分类:
其他好文 时间:
2015-03-03 21:52:09
阅读次数:
96
当数据集的大小超过一台独立物理计算机的存储能力时,就有必要对它进行分区并且存储到若干台单独的计算机上。管理网络中跨多台计算机存储的文件系统被称为分布式文件系统(distributed filesystem).
分布式文件系统架构于网络智商,势必会引入网络编程的复杂性,因此分布式文件系统比普通磁盘文件系统更加复杂,比如文件系统能够容忍节点故障但是不丢失数据就是一个很大的挑战。
...
分类:
其他好文 时间:
2015-03-01 11:55:38
阅读次数:
150
FastDFS是一个开源的轻量级分布式文件系统,它对文件进行管理,功能包括:文件存储、文件同步、文件访问(文件上传、文件下载)等,解决了大容量存储和负载均衡的问题。特别适合以文件为载体的在线服务,如相册网站、视频网站等等。FastDFS服务端有两个角色:跟踪器(tracker)和存储节点(stora...
分类:
其他好文 时间:
2015-02-26 11:20:45
阅读次数:
168
日志收集分析系统架构
一.部署架构
日志收集系统一般包括如图所示三层。Web服务器层,日志收集层,日志存储层。Web服务器层是日志的来源,一般部署web应用供用户访问,产生日志,该节点上一般需要部署日志收集程序的agent。日志收集层手机web服务器产生的日志传输给日志存储层,存储层一般使用分布式文件系统HDFS,日志可以存储在hdfs上或者hbase上。
以scribe作...
分类:
其他好文 时间:
2015-02-23 17:55:28
阅读次数:
265
首先,今天是羊年初一。祝看到这篇博文的朋友们新春快乐!身体健康!心想事成!万事胜意! 言归正传。hadoop中的两大核心分别是HDFS以及MapReduce。HDFS分布式文件系统有NameNode、DataNode以及SecondaryNameNode三种节点进程,同时MR有JobTrack...
分类:
其他好文 时间:
2015-02-19 17:28:09
阅读次数:
256
参考资料:http://os.51cto.com/art/201211/364374.htm上边这是个结构概览吧。默认情况下,一个file被分成很多个block,每个block被分配到两个rack(机架)的共3个DataNode上,也就是有两个备份。在NameNode保存了每个block对应的Dat...
分类:
其他好文 时间:
2015-02-17 14:03:20
阅读次数:
219