使用Docker一段时间之后,准备在公司内部使用Docker +
Hadoop(HDFS)组件内部一个私有云,统一管理公司和产品/项目组内部的代码、文档。我选择先从文档管理开始,在底层架子搭建好之后,需要给内部人员提供一个好的“门面”,在没有这个门面之前,我们大量使用SSH+Command方式操作,...
分类:
其他好文 时间:
2014-05-24 03:44:10
阅读次数:
1071
cd ~/srcmkdir classesjavac -classpath
~/hadoop-0.20.2/hadoop-0.20.2-core.jar WordCount.java -d classesjar -cvf
WordCount.jar -C classes/ .hadoop jar W...
分类:
其他好文 时间:
2014-05-23 22:22:04
阅读次数:
341
Hadoop 的优势
Hadoop 是 一 个 能 够 让 用 户 轻 松 架 构 和 使 用 的 分 布 式 计 算 平 台。 用 户 可 以 轻 松 地 在Hadoop 上开发运行处理海量数据的应用程序。它主要有以下几个优点:
1.高可靠性。Hadoop 按位存储和处理数据的能力值得人们信赖。
2.高扩展性。Hadoop 是在可用的计算机集簇间分配数据完成计算任务的, 这些集簇可以方便地...
分类:
其他好文 时间:
2014-05-22 12:26:27
阅读次数:
217
作者在工作中遇到了类似流式数据实时接入的业务场景,所以对淘宝的实时数据仓库这一块做了一些调研和了解。本文从业务场景和设计上介绍了淘宝的TimeTunnel工具,文中的图片来自淘宝数据仓库团队交流过程中的sildes,也参考了一些相关文档。
业务背景
TimeTunnel(简称TT)是一个基于thrift通讯框架搭建的实时数据传输平台,具有高性能、实时性、顺序性、高可靠性、高可用性、可扩展性等特点(基于Hbase)。
目前TimeTunnel在阿里巴巴广泛的应用于日志收集、数据监控、广告反馈、量子统计、数据...
分类:
其他好文 时间:
2014-05-22 10:58:59
阅读次数:
334
简介
此文档描述了一个超级用户如何在安全的方式下以另一用户的名义提交作业或访问hdfs。
Use Case
下一部分描述的的代码示例对此用户用例是可用的。
一个用户名为'super'的超级用户想要以另一用户joe的名义提交作业或访问hdfs。超级用户有kerberos证书但是用户joe并没有。任务要求以用户joe的角色运行并且namenode上的文件访问也需要由joe完成。需要用户...
分类:
其他好文 时间:
2014-05-22 10:40:41
阅读次数:
255
这篇文章不提原理,讲讲hadoop及其周边项目的作用。
hadoop这个词已经流行好多年了,一提到大数据就会想到hadoop,那么hadoop的作用是什么呢?
官方定义:hadoop是一个开发和运行处理大规模数据的软件平台。核心词语是平台,也就是说我们有大量的数据,又有好几个电脑,我们知道应该把处理数据的任务分解到各个电脑上,但是不知道怎样分配任务,怎样回收结果,hadoop大概就帮助我们做了...
分类:
其他好文 时间:
2014-05-22 10:34:39
阅读次数:
288
hadoop有种简化机制来管理job和control的非线性作业之间的依赖,job对象时mapreduce的表现形式。job对象的实例化可通过传递一个jobconf对象到作业的构造函数中来实现。
x.addDeopendingJob(y)意味着x在y完成之前不会启动。
鉴于job对象存储着配置和依赖信息,jobcontrol对象会负责监管作业的执行,通过addjob(),你可以为jobcont...
分类:
其他好文 时间:
2014-05-22 07:27:41
阅读次数:
287
版本:CDH5.0.0 (hdfs:2.3,mapreduce:2.3,yarn:2.3)hadoop多文件格式输入,一般可以使用MultipleInputs类指定不同的输入文件路径以及输入文件格式。比如现在有如下的需求:现有两份数据:phone:123,good number
124,common number
125,bad numberuser:zhangsan,123
lisi,124
w...
分类:
其他好文 时间:
2014-05-22 06:23:52
阅读次数:
391
对nutch添加中文网站抓取功能。1、中文网页抓取
A、调整mysql配置,避免存入mysql的中文出现乱码。修改 ${APACHE_NUTCH_HOME}
/runtime/local/conf/gora.properties ################################ .....
分类:
Web程序 时间:
2014-05-19 17:44:52
阅读次数:
326
前言1.
创建表:(由master完成)首先需要获取master地址(master启动时会将地址告诉zookeeper)因而客户端首先会访问zookeeper获取master的地址client和master通信,然后有master来创建表(包括表的列簇,是否cache,设置存储的最大版本数,是否压缩...
分类:
编程语言 时间:
2014-05-19 14:23:43
阅读次数:
392