当数据集的大小超过一台独立物理计算机的存储能力时,就有必要对它进行分区并且存储到若干台单独的计算机上。管理网络中跨多台计算机存储的文件系统被称为分布式文件系统(distributed filesystem).
分布式文件系统架构于网络智商,势必会引入网络编程的复杂性,因此分布式文件系统比普通磁盘文件系统更加复杂,比如文件系统能够容忍节点故障但是不丢失数据就是一个很大的挑战。
...
分类:
其他好文 时间:
2015-03-01 11:55:38
阅读次数:
150
遇到的问题如下:错误原因是HDFS还没有把这个input文件夹加入。敲入命令并查看HDFS:问题解决。
分类:
其他好文 时间:
2015-02-28 18:27:32
阅读次数:
107
SQOOP是用于对数据进行导入导出的。 (1)把MySQL、Oracle等数据库中的数据导入到HDFS、Hive、HBase中 (2)把HDFS、Hive、HBase中的数据导出到MySQL、Oracle等数据库中 (3)导入导出的事务是以Mapper任务为单位。1、sqoop的安装步骤 1....
分类:
其他好文 时间:
2015-02-28 18:05:17
阅读次数:
199
Hadoop 伪分布式环境时运行wordcount程序,之前已经运行过一次,再次将input文件夹中的内容上传至HDFS时会出现重复,但是还是可以上传成功。但是当再次运行wordcount程序时就会报错:可以看到导致错误的原因时HDFS中的output文件夹已经存在了,所以必须要删除。(因为outo...
分类:
其他好文 时间:
2015-02-28 16:18:42
阅读次数:
482
Hadoop HDFS源码分析 关于数据块的类1.BlocksMap官方代码中的注释为:/** * This class maintains the map from a block to its metadata. * block's metadata currently includes blo...
分类:
其他好文 时间:
2015-02-28 00:11:24
阅读次数:
294
6、HDFS API详解 Hadoop中关于文件操作类疾病上全部在“org.apache.hadoop.fs”包中,这些API能够支持的操作包含:打开文件、读写文件、删除文件等。 Hadoop类库中最终面...
分类:
其他好文 时间:
2015-02-27 21:28:45
阅读次数:
263
1、HDFS简介 HDFS(Hadoop Distributed File System)是Hadoop项目的核心...
分类:
其他好文 时间:
2015-02-27 20:08:22
阅读次数:
200
在报表项目中,报表源数据常常会来自于多种异构数据源。例如:关系型数据库(oracle、db2、mysql),nosql数据库(mongodb),http数据源,hadoop(hive、hdfs)甚至是excel或者文本文件。通常的做法是采用ETL工具,将这些数据源都同步到数据仓库中。但是这样做的问题在于:1、..
分类:
其他好文 时间:
2015-02-27 18:49:13
阅读次数:
245
由于之前远程桌面不好使,集群出现了missing block的时候没法登陆远程桌面查看是那些节点由于重启导致DataNode进程挂掉。同时简单的用命令hdfs dfsadmin -report查看又不方便,信息量太多,以下是一个用sed和awk实现的简单的脚本:...
分类:
其他好文 时间:
2015-02-26 11:43:39
阅读次数:
187