使用Docker一段时间之后,准备在公司内部使用Docker +
Hadoop(HDFS)组件内部一个私有云,统一管理公司和产品/项目组内部的代码、文档。我选择先从文档管理开始,在底层架子搭建好之后,需要给内部人员提供一个好的“门面”,在没有这个门面之前,我们大量使用SSH+Command方式操作,...
分类:
其他好文 时间:
2014-05-24 03:44:10
阅读次数:
1071
cd ~/srcmkdir classesjavac -classpath
~/hadoop-0.20.2/hadoop-0.20.2-core.jar WordCount.java -d classesjar -cvf
WordCount.jar -C classes/ .hadoop jar W...
分类:
其他好文 时间:
2014-05-23 22:22:04
阅读次数:
341
Hadoop 的优势
Hadoop 是 一 个 能 够 让 用 户 轻 松 架 构 和 使 用 的 分 布 式 计 算 平 台。 用 户 可 以 轻 松 地 在Hadoop 上开发运行处理海量数据的应用程序。它主要有以下几个优点:
1.高可靠性。Hadoop 按位存储和处理数据的能力值得人们信赖。
2.高扩展性。Hadoop 是在可用的计算机集簇间分配数据完成计算任务的, 这些集簇可以方便地...
分类:
其他好文 时间:
2014-05-22 12:26:27
阅读次数:
217
这篇文章不提原理,讲讲hadoop及其周边项目的作用。
hadoop这个词已经流行好多年了,一提到大数据就会想到hadoop,那么hadoop的作用是什么呢?
官方定义:hadoop是一个开发和运行处理大规模数据的软件平台。核心词语是平台,也就是说我们有大量的数据,又有好几个电脑,我们知道应该把处理数据的任务分解到各个电脑上,但是不知道怎样分配任务,怎样回收结果,hadoop大概就帮助我们做了...
分类:
其他好文 时间:
2014-05-22 10:34:39
阅读次数:
288
目的
使用 CLI MiniCluster, 用户可以简单地只用一个命令就启动或关闭一个单一节点的Hadoop集群,不需要设置任何环境变量或管理配置文件。 CLI MiniCluster 同时启动一个 YARN/MapReduce 和 HDFS 集群。
这对那些想要快速体验一个真实的Hadoop集群或是测试依赖明显的Hadoop函数的非Java程序 的用户很有用。
Hadoop Ta...
分类:
其他好文 时间:
2014-05-18 18:41:39
阅读次数:
319
hadoop streaming允许我们使用任何可执行脚本来处理按行组织的数据流,数据取自UNIX的标准输入STDIN,并输出到STDOUT
通过设定mapper为‘RandomSample.py 10’,我们按十分之一的采样率,没有设定特殊的reducer,一般默认使用IdentityReducer(把输入直接转向输出)
通过HDFS的命令getMerge(输出合并)或其他文件操作,可以获得...
分类:
其他好文 时间:
2014-05-18 15:12:21
阅读次数:
380
版权所有: zhe-jiang.he@hp.com 严禁转载!
1.安装插件
准备程序:
eclipse-3.3.2(这个版本的插件只能用这个版本的eclipse)
hadoop-0.20.2-eclipse-plugin.jar (在hadoop-0.20.2/contrib/eclipse-plugin目录下)
将hadoop-0.20.2-eclipse-plugin.j...
分类:
系统相关 时间:
2014-05-18 07:32:13
阅读次数:
396
本篇介绍为了保证Hadoop集群平稳地运行,需要深入掌握的知识,以及一些管理监控的手段,日常维护的工作。...
分类:
其他好文 时间:
2014-05-18 05:32:10
阅读次数:
546
概览
这个入门教程描述了native(本地?原生?)hadoop库,包含了一小部分关于native hadoop共享库的讨论。
This guide describes the native hadoop library and includes a small discussion about native shared libraries.
注意: 根据你的环境,词组 "native l...
分类:
其他好文 时间:
2014-05-18 03:21:01
阅读次数:
458