引言Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。它和现有的分布式文件系统有很多共同点。但同时,它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数...
分类:
其他好文 时间:
2015-04-13 22:25:32
阅读次数:
171
在项目中遇到的一些问题,当我们需要使用sqoop在关系数据库与HDFS、Hive之间导入/导出数据时候遇到的一些问题,如何让sqoop支持自主研发的不能够支持全部jdbc接口数据库的导入导出,分析sqoop源码寻找解决方案。...
分类:
其他好文 时间:
2015-04-13 20:58:58
阅读次数:
180
简介 HDFS(Hadoop Distributed File System )Hadoop分布式文件系统。是根据google发表的论文翻版的。论文为GFS(Google File System)Google 文件系统(中文,英文)。 HDFS有很多特点: ? ??①?保存多个副...
分类:
其他好文 时间:
2015-04-13 19:09:44
阅读次数:
170
1、Hadoop-root-datanode-master.log 中有如下错误:ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: java.io.IOException: Incompatible namespaceIDs in导致dat...
分类:
其他好文 时间:
2015-04-13 18:49:08
阅读次数:
158
首先,Hive 没有专门的数据存储格式,也没有为数据建立索引,用户可以非常自由的组织 Hive 中的表,只需要在创建表的时候告诉 Hive 数据中的列分隔符和行分隔符,Hive 就可以解析数据。
其次,Hive 中所有的数据都存储在 HDFS 中,Hive 中包含以下数据模型:Table,External Table,Partition,Bucket。
Hive 中的 Table 和数据库...
分类:
其他好文 时间:
2015-04-13 16:49:23
阅读次数:
103
使用java代码连接hbase服务器报错: java.lang.VerifyError: class org.apache.hadoop.hdfs.protocol.proto.ClientNamenodeProtocolProtos$AppendRequestProto overrides fi....
分类:
其他好文 时间:
2015-04-13 12:31:10
阅读次数:
738
最近学习了hadoop这个框架,把自己的理解总结如下:
1、hadoop通过一个jobtracker分派任务到一系列tasktracker来运行,tasktracker同时向jobtracker返回任务运行结果。
jobtracker对作业的输入数据进行分片,然后为每个分片创建一个map任务,同时创建一定数量的reduce任务,并指派空闲的tasktracker来执行这些任务。
tasktr...
分类:
其他好文 时间:
2015-04-13 11:00:17
阅读次数:
113
HDFS配置:
客户端中的配置参数可以覆盖服务端的参数。
例如:副本数,切块大小
HDFS文件存储:
服务端存储block的实际大小,但是不适合存储小文件,小文件会占用namenode的元数据空间。
对于小文件数据的优化,可以在上传之前先合并再上传。
例如:压缩、文本文件合并
HDFS扩展:
hdfs支持rest API,与平台无关
jetty 容器
hdfs支持rest command
分布式任务...
分类:
其他好文 时间:
2015-04-11 22:38:55
阅读次数:
180
Hadoop学习笔记0003——从Hadoop URL读取数据
从HadoopURL读取数据
要从Hadoop文件系统中读取文件,一个最简单的方法是使用java.net.URL对象来打开一个数据流,从而从中读取数据。一般的格式如下:
InputStream in = null;
try {
in = new URL("hdfs://host/path").op...
分类:
Web程序 时间:
2015-04-11 13:19:19
阅读次数:
176