TDW 是腾讯最大的离线数据处理平台。本文主要从需求、挑战、方案和未来计划等方面,介绍了TDW在建设单个大规模集群中采取的 JobTracker 分散化和 NameNode 高可用两个优化方案。TDW(Tencent distributed Data Warehouse,腾讯分布式数据仓库)基于开源...
分类:
其他好文 时间:
2014-08-21 16:39:04
阅读次数:
252
Centralized Cache Management inHDFS
Overview
HDFS中的集中式缓存管理是一个显式的管理缓存的机制,它允许用户指定被HDFS缓存的路径。NameNode将与磁盘上有所需的Block的DataNode通信,命令其在堆外缓存里缓存Block。
HDFS中的集中式缓存管理有许多重要的优势。
1. 明确地防止频繁使用的数据被赶出内存。当工作集的...
分类:
其他好文 时间:
2014-08-21 15:07:24
阅读次数:
346
hadoop是基于java的数据计算平台,引入第三方库,例如C语言实现的开发包将会大大增强数据分析的效率和能力。 通常在是用一些工具的时候都要用到一些配置文件、资源文件等。接下来,借一个例子来说明hadoop上面如何使用JNI、以及调用资源文件。首先介绍一下ICTClass,ICTClass是中国科...
分类:
其他好文 时间:
2014-08-21 11:07:13
阅读次数:
265
下面我们进行说明一下hadoop集群的搭建配置.本文假设读者具有hadoop单机配置的基础,相同的部分不在重述。以三台测试机为例搭建一个小集群,三台机器的ip分别为192.168.200.1;192.168.200.2;192.168.200.3cygwin,jdk的安装同windows下hadoo...
HDFS Architecture
Introduction
HDFS是分布式文件系统,它被设计为运行在普通商用硬件之上。它与已经存在的文件系统有很多相似性。但是,也有巨大的不同。HDFS有很高的容错,被设计为部署在低廉的硬件上。HDFS提供为应用程序的数据提供一个高通量的访问,适合有大量数据的应用程序。HDFS放松了一些POSIX的需求,以使可以用流的方式访问文件系统的数据。HDFS最初作为...
分类:
其他好文 时间:
2014-08-17 17:02:32
阅读次数:
249
HDFS
HDFS是一个具有高度容错性的分布式文件系统,适合部署在廉价的机器上,它具有以下几个特点:
1)适合存储非常大的文件
2)适合流式数据读取,即适合“只写一次,读多次”的数据处理模式
3)适合部署在廉价的机器上
但HDFS不适合以下场景(任何东西都要分两面看,只有适合自己业务的技术才是真正的好技术):
1)不适合存储大量的小文件,因为受Namenode内...
分类:
其他好文 时间:
2014-08-14 16:46:28
阅读次数:
260
Hadoop 2.2.0 集群配置攻略
用户输入标识: chmod
+x jdk-7u45-linux-x64.rpm 为黑色带底纹
系统输出标识: java version "1.7.0_51"
为绿色小字
2014年3月20-日 by lilihao Q 404536204
1. 安装sun jdk
(1). 到Oracle的官方网站...
分类:
系统相关 时间:
2014-08-13 18:55:57
阅读次数:
543
实施Hadoop集群--分布式安装Hadoop 说明:以Ubuntu配置为例,其中与CentOS不同之处会给出详细说明 现有三台服务器:其IP与主机名对应关系为:192.168.139.129 master #NameNode/JobTrackerr结点
192.168.139.132 slave01 #DataNode/TaskTracker结点
192.168.139.137 slave...
分类:
其他好文 时间:
2014-08-12 17:28:24
阅读次数:
297
2014-08-12HDFS存储过慢,内存过高而且不释放网络方面:使用 netstat-n |awk'/^tcp/ {++S[$NF]} END {for(a in S) print a, S[a]}' 查看网络情况:情况如下: CLOSE_WAIT 102 FIN_WAIT2 2 ESTABLIS...
分类:
其他好文 时间:
2014-08-12 13:07:14
阅读次数:
601