HDFS小文件问题及解决方案:http://dongxicheng.org/mapreduce/hdfs-small-files-solution/Hadoop升级方案(一):Hadoop
1.0内部版本升级(初稿):http://dongxicheng.org/mapreduce-nextgen/...
分类:
其他好文 时间:
2014-05-10 02:08:24
阅读次数:
327
很久不写 BO-KE 了,来一篇吧,记住这个成功的一刻,把几个主要文件贴出来:
core-site.xml:
fs.defaultFS
hdfs://fc20:9000
hadoop.tmp.dir
/home/ljq/hadoop/tm...
分类:
其他好文 时间:
2014-05-09 00:35:27
阅读次数:
342
摘要:HDFS是Hadoop的核心模块之一,围绕HDFS是什么、HDFS的设计思想和HDFS的体系结构三方面来介绍。关键词:Hadoop
HDFS 分布式存储系统HDFS是Hadoop的核心模块之一,HDFS是什么?它是Hadoop分布式文件系统(Hadoop Distributed File
S....
分类:
其他好文 时间:
2014-05-08 23:38:42
阅读次数:
412
摘要:介绍Hadoop生态系统,从Hadoop生态系统有什么成员,成员能做什么和Hadoop生态系统能够提供大数据问题解决方案两方面来认识。关键词:Hadoop
HDFS MapReduce HBase Hive PigHadoop生态图,通俗地说,就是Hadoop核心模块和衍生的子项目。一幅Ha....
分类:
其他好文 时间:
2014-05-08 23:16:24
阅读次数:
387
这里介绍一下hadoop的组成, hadoop主要由两部分组成,,一个是hdfs,另一个是mapreduce
这两个部分在hadoop 2.2.0中分别用start-dfs.sh和start-yarn.sh启动。mapreduce 在2.0版本中有了一个新名字yarn.
dfs 主要用来启动 namenode 和 datanode, namenode既是是传说中的matser, datanod...
分类:
其他好文 时间:
2014-05-07 04:33:35
阅读次数:
359
HDFSEventSink是flume中一个很重要的sink,配置文件中type=hdfs。与此sink相关的类都在org.apache.flume.sink.hdfs包中。
HDFSEventSink算是一个比较复杂的sink,包下涉及的源代码文件数多达13个。。。可配置的参数众多。。。希望...
分类:
其他好文 时间:
2014-05-07 02:06:05
阅读次数:
563
参考书籍: Hadoop in action, 吴超沉思录1.Hbase简介
1.面向列的分布式数据库 2. 以HDFS作为文件系统 3. 利用MapReduce处理Hbase中海量数据 4. ZookKeeper作为协调工具 5.
sqoop提供Hbase到关系型数据库中数据导入功能 ...
分类:
其他好文 时间:
2014-05-07 00:35:59
阅读次数:
424
mapreduce数据本地化(核心特征)、无共享。
1 HDFS的设计
为了存储超大文件 流式访问(一次写入多次读取)商用硬件(不需要超豪华的机器)
2 数据快(block)
磁盘一般是512字节 HDFS默认是64M 但与其他文件系统不同的是小于一个块大小的文件不会占用整个块的空间。块为什么设置这么大?(最小化寻址开销)块抽象带来的好处(一个文件的...
分类:
其他好文 时间:
2014-05-06 23:26:24
阅读次数:
519
关于HBase的sink的所有内容均在org.apache.flume.sink.hbase包下。
每个sink包括自己定制的,都extends AbstractSink implements Configurable。
一、首先是configure(Context context)方法。该...
分类:
其他好文 时间:
2014-05-05 10:55:40
阅读次数:
462
1.核心 HDFS 分布式文件系统 主从结构,一个namenoe和多个datanode,
分别对应独立的物理机器
1)NameNode是主服务器,管理文件系统的命名空间和客户端对文件的访问操作。NameNode执行文件系统的命名空间操作,比如打开关闭重命名文件或者目录等,它也负责...
分类:
其他好文 时间:
2014-05-05 10:35:14
阅读次数:
432