核心功能描述 应用程序通常会通过提供map和reduce来实现Mapper和Reducer接口,它们组成作业的核心。 Map是一类将输入记录集转换为中间格式记录集的独立任务。 这种转换的中间格式记录集不需要与输入记录集的类型一致。一个给定的输入键值对可以映射成0个或多个输出键值对。Hadoop .....
分类:
其他好文 时间:
2014-08-21 18:40:34
阅读次数:
756
TDW 是腾讯最大的离线数据处理平台。本文主要从需求、挑战、方案和未来计划等方面,介绍了TDW在建设单个大规模集群中采取的 JobTracker 分散化和 NameNode 高可用两个优化方案。TDW(Tencent distributed Data Warehouse,腾讯分布式数据仓库)基于开源...
分类:
其他好文 时间:
2014-08-21 16:39:04
阅读次数:
252
HBase分布式集群环境搭建成功后,连续4、5天实验客户端Map/Reduce程序开发,这方面的代码网上多得是,写个测试代码非常容易,可是真正运行起来可说是历经挫折。下面就是我最终调通并让程序在集群上运行起来的一些经验教训。 一、首先说一下我的环境: 1,集群的环境配置请见这篇博文。 2,...
分类:
其他好文 时间:
2014-08-21 16:26:54
阅读次数:
366
Centralized Cache Management inHDFS
Overview
HDFS中的集中式缓存管理是一个显式的管理缓存的机制,它允许用户指定被HDFS缓存的路径。NameNode将与磁盘上有所需的Block的DataNode通信,命令其在堆外缓存里缓存Block。
HDFS中的集中式缓存管理有许多重要的优势。
1. 明确地防止频繁使用的数据被赶出内存。当工作集的...
分类:
其他好文 时间:
2014-08-21 15:07:24
阅读次数:
346
Hadoop HDFS文件常用操作及注意事项1.Copy a file from the local file system to HDFSThe srcFile variable needs to contain the full name (path + file name) of the fi...
分类:
其他好文 时间:
2014-08-21 12:50:04
阅读次数:
224
1.Copy a file from the local file system to HDFSThe srcFile variable needs to contain the full name (path + file name) of the file in the local file s...
分类:
其他好文 时间:
2014-08-21 11:24:34
阅读次数:
242
hadoop是基于java的数据计算平台,引入第三方库,例如C语言实现的开发包将会大大增强数据分析的效率和能力。 通常在是用一些工具的时候都要用到一些配置文件、资源文件等。接下来,借一个例子来说明hadoop上面如何使用JNI、以及调用资源文件。首先介绍一下ICTClass,ICTClass是中国科...
分类:
其他好文 时间:
2014-08-21 11:07:13
阅读次数:
265
局部自适应阈值二值化相对全局阈值二值化,自然就有局部自适应阈值二值化,本文利用Emgu CV实现局部自适应阈值二值化算法,并通过调节block大小,实现图像的边缘检测。一、理论概述(转载自《OpenCV_基于局部自适应阈值的图像二值化》) 局部自适应阈值则是根据像素的邻域块的像素值分布来确定该像素....
分类:
其他好文 时间:
2014-08-21 00:03:43
阅读次数:
447
首先介绍一下tar打包命令的基本格式,下面的三种之间不能混淆。 tar [-j|-z] [cv] [-f 新文件名] file1 file2 ...; tar [-j|-z] [tv] [-f 新文件名]; <== 查看文件名 tar [-j|-z] [xv] [-f 新文件名] [-C 目录...
分类:
系统相关 时间:
2014-08-20 22:30:53
阅读次数:
267
hive partitions hdfs 内部表 外部表 view...
分类:
其他好文 时间:
2014-08-20 19:39:52
阅读次数:
191