一、几个可能会用到的属性值 1、mapred.map.tasks.speculative.execution和mapred.reduce.tasks.speculative.execution 这两个属性可以决定Map任务和Reduce任务是否开启推测式执行策略。推测式执行策略在Hadoop中用.....
分类:
其他好文 时间:
2014-09-03 19:48:07
阅读次数:
358
Text是Hadoop中的一个Writable类,定义了Hadoop中的其中的数据类型以及操作。 This class stores text using standard UTF8 encoding. It provides methods to serialize, deserialize, ....
分类:
其他好文 时间:
2014-09-03 16:28:37
阅读次数:
370
第四步:配置Hadoop伪分布模式并运行Wordcount示例伪分布模式主要涉及一下的配置信息:修改Hadoop的核心配置文件core-site.xml,主要是配置HDFS的地址和端口号;修改Hadoop中HDFS的配置文件hdfs-site.xml,主要是配置replication;修改Hadoo...
分类:
其他好文 时间:
2014-08-25 16:51:54
阅读次数:
267
目录: 一、Nginx的相关配置,以及测试数据 二、Hadoop中创建使用目录 三、Hive的日志表创建,并同步到Hbase中 1)创建自增长ID的类,并添加到Hive环境中 2)在Hive中创建日志表 3)将Nginx的日志数据导入到Hive日志表中 方法一:将本...
分类:
其他好文 时间:
2014-08-24 14:04:32
阅读次数:
246
有如图所示的输入文件。其中第一列代表ip地址,之后的偶数列代表搜索词,数字(奇数列)代表搜索次数,使用"\t"分隔。现在需要对搜索词进行分词并统计词频,此处不考虑搜索次数,可能是翻页,亦不考虑搜索链接的行为。...
分类:
其他好文 时间:
2014-08-17 11:47:02
阅读次数:
306
今天没事干,看了以下Hadoop中的MultipleOutput使用,出现错误. 错误信息: 14/08/12 12:44:02 WARN util.NativeCodeLoader: Unable to load native-ha:oop library for your platform... using builtin-java c...
分类:
其他好文 时间:
2014-08-12 17:46:24
阅读次数:
233
本章内容提要●理解企业级应用的安全顾虑●理解Hadoop尚未为企业级应用提供的安全机制●考察用于构建企业级安全解决方案的方法 第10章讨论了Hadoop安全性以及Hadoop中用于提供安全控制的机制。当构建企业级安全解决方案(它可能会围绕着与Hadoop数据集交互的许多应用程序和企业级服务)时,.....
分类:
其他好文 时间:
2014-08-11 11:26:22
阅读次数:
368
Hive是什么1)Hive 是建立在Hadoop (HDFS/MR)上的用于管理和查询结果化/非结构化的数据仓库;2)一种可以存储、查询和分析存储在Hadoop 中的大规模数据的机制;3)Hive 定义了简单的类SQL 查询语言,称为HQL,它允许熟悉SQL 的用户查询数据;4)允许用Java开发自...
分类:
其他好文 时间:
2014-08-09 23:10:49
阅读次数:
288
1TB排序通常用于衡量分布式数据处理框架的数据处理能力。Terasort是Hadoop中的的一个排序作业,在2008年,Hadoop在1TB排序基准评估中赢得第一名,耗时209秒。那么Terasort在Hadoop中是怎样实现的呢?本文主要从算法设计角度分析Terasort作业。2、算法思想实际上,...
分类:
其他好文 时间:
2014-08-05 22:28:20
阅读次数:
357
在用Hadoop框架处理大数据时使用最多就是HDFS--分布式文件系统,但Hadoop的文件系统不仅只有分布式文件系统,例如:hfs,HSFTP,HAR等在Hadoop中都是有集成的,用来处理存储在不同体系中的数据。事实上应该这么说,Hadoop其实是一个综合性的文件系统。 下面来看看文件系统...
分类:
其他好文 时间:
2014-08-05 03:01:09
阅读次数:
291