# (WJW)高可用,完全分布式Hadoop集群HDFS和MapReduce安装配置指南 > 为了部署HA集群,应该准备以下事情: * namenode服务器: 运行namenode的服务器应该有相同的硬件配置. * journalnode服务器:运行的journalnode进程...
分类:
其他好文 时间:
2015-01-08 13:33:04
阅读次数:
166
hive设置fs.hdfs.impl.disable.cache=true时,使用insert overwrite命令更改分区数据时会出现把分区的路径修改掉异常,根据源码排查了下出现该问题的原因!...
分类:
其他好文 时间:
2015-01-08 11:17:48
阅读次数:
343
http://www.tuicool.com/articles/VfEFjmNutch 2.x 与 Nutch 1.x 相比,剥离出了存储层,放到了gora中,可以使用多种数据库,例如HBase, Cassandra, MySql来存储数据了。Nutch 1.7 则是把数据直接存储在HDFS上。1....
分类:
其他好文 时间:
2015-01-08 11:16:36
阅读次数:
4606
引言 前提和设计目标 硬件错误 流式数据访问 大规模数据集 简单的一致性模型 “移动计算比移动数据更划算” 异构软硬件平台间的可移植性 Namenode 和 Datanode 文件系统的名字空间 (namespace) 数据复制 副本存放: 最最开始的一步 副本选择 安全模式 文件系统元数据的持久化...
分类:
其他好文 时间:
2015-01-08 11:12:54
阅读次数:
166
准备工作:1、笔记本4G内存 ,操作系统WIN7 (屌丝的配置)2、工具VMware Workstation3、虚拟机:CentOS6.4共四台虚拟机设置:每台机器:内存512M,硬盘40G,网络适配器:NAT模式选择高级,新生成虚机Mac地址(克隆虚拟机,Mac地址不会改变,每次最后手动重新生成)...
分类:
其他好文 时间:
2015-01-07 18:35:19
阅读次数:
214
需求:将hive数据库中的TBLS表导出到HDFS之上; $SQOOP2_HOME/bin/sqoop.sh client sqoop:000> set server --host hadoop000 --port 12000 --webapp sqoopServer is set successf...
分类:
数据库 时间:
2015-01-07 18:26:42
阅读次数:
190
接触Hdoop将近一年,昨日偶发阅读其源码之雅兴,宛如少女姨妈突至,势不可遏。读一个开源框架的源码,个人习惯一般是先熟悉其整体结构,不拘泥于个别类。一个设计优秀的框架,往往每个包都有其职责,旨在完成某个特定的功能。因此将每个包或其相关的包 抽出来,单独打包成一个 jar文件,就能被第三方系统...
分类:
其他好文 时间:
2015-01-07 16:33:09
阅读次数:
317
简介HDFS(Hadoop Distributed File System )Hadoop分布式文件系统。是根据google发表的论文翻版的。论文为GFS(Google File System)Google 文件系统(中文,英文)。HDFS有很多特点: ①保存多个副本,且提供容错机制,副本丢失或宕机...
分类:
其他好文 时间:
2015-01-07 00:29:30
阅读次数:
196
NameNode类位于org.apache.hadoop.hdfs.server.namenode包下。NameNode serves as both directory namespace manager and "inode table" for the Hadoop DFS. There is...
分类:
其他好文 时间:
2015-01-06 22:52:07
阅读次数:
365
需求:通过开源软件fluentd收集各个设备的apache访问日志到fluentd的转发服务器中,然后通过webHDFS接口,写入到hdfs文件系统中。软件版本说明:hadoop版本:1.1.2fluentd版本:1.1.21测试环境说明:node29服务器上安装了apache,以及fluentd,作为fluentd的客户端;node1服务..
分类:
其他好文 时间:
2015-01-06 18:16:52
阅读次数:
192