http://www.zlovezl.cn/articles/40/简介: Zookeeper 分布式服务框架是 Apache Hadoop 的一个子项目,它主要是用来解决分布式应用中经常遇到的一些数据管理问题,如:统一命名服务、状态同步服务、集群管理、分布式应用配置项的管理等。具体简介可以参照这....
分类:
编程语言 时间:
2014-06-26 18:43:35
阅读次数:
281
Sqoop官网:http://sqoop.apache.org/*) Sqoop介绍Sqoop用来在Hadoop和关系数据库中传递数据。通过sqoop,我们可以方便的将数据从关系数据库导入到HDFS,或者将数据从HDFS导出到关系数据库。参考链接:http://blog.csdn.net/yfkis...
分类:
其他好文 时间:
2014-06-26 17:49:46
阅读次数:
212
摘要:Hadoop已经成为大数据的代名词。短短几年间,Hadoop从一种边缘技术成为事实上的标准。而另一方面,MapReduce在谷歌已不再显赫。当企业瞩目MapReduce的时候,谷歌好像早已进入到了下一个时代。 Hadoop技术已经无处不在。不管是好是坏,Hadoop已经成为大数据的代名词。短短...
分类:
其他好文 时间:
2014-06-26 17:02:48
阅读次数:
191
关键字:微信公众平台开发作者:方倍工作室在这篇微信公众平台开发教程中,我们假定你已经有了PHP语言程序、MySQL数据库、计算机网络通讯、及HTTP/XML/CSS/JS等基础。我们将使用微信公众账号方倍工作室作为讲解的例子,二维码见底部。本系列教程将引导你完成如下任务:创建新浪云计算平台应用启用微...
分类:
微信 时间:
2014-06-26 17:02:11
阅读次数:
590
Apache Storm是一个免费、开源、分布式的实时计算系统。相对于Hadoop适用于批处理而言,利用Storm可以非常容易地对流式数据进行实时可靠处理。Storm使用简单,支持多种编程语言且非常有趣!...
分类:
其他好文 时间:
2014-06-26 14:20:52
阅读次数:
294
ElasticSearch是一个基于Lucene构建的开源,分布式,RESTful搜索引擎。设计用于云计算中,能够达到实时搜索,稳定,可靠,快速,安装使用方便。支持通过HTTP使用JSON进行数据索引。 我们建立一个网站或应用程序,并要添加搜索功能,令我们受打击的是:搜索工作是很难的。我们希望...
分类:
其他好文 时间:
2014-06-26 12:33:39
阅读次数:
197
最近一直很忙,在做一个全国性项目的IT架构,所以一直没有更新,好在算是告一段落,继续努力吧。项目沟通中过程客户反复在强调,大数据的安全性,言下之意,用了大数据,就不安全了,就有漏洞了。所以花了些时间,针对大数据的安全设计做了一个总结,算是阶段性的成果吧,分享给大家。...
分类:
其他好文 时间:
2014-06-26 10:46:32
阅读次数:
242
# 学习前言
想学习一下Flume,网上找了好多文章基本上都说的很简单,只有一半什么的,简直就是坑爹,饿顿时怒火就上来了,学个东西真不容易,然后自己耐心的把这些零零碎碎的东西整理整理,各种搭环境实验之后才弄好的,也不容易啊,希望可以帮到想学Flume的你 、、、
# Flume介绍
Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制...
分类:
其他好文 时间:
2014-06-26 08:01:52
阅读次数:
449
使用MultipleInputs.addInputPath 对多个路径输入
现在假设有三个目录,并使用了三个mapper去处理,
经过map处理后,输出的结果会根据key 进行join,
如果使用TextPair,会根据第一个字段jion,第二个字段排序
然后在作为reduce的输入,进行计算...
分类:
其他好文 时间:
2014-06-26 07:49:51
阅读次数:
250
DMCTextFilter和HTMLFilter数据过滤器我们已经进入了大数据处理时代,需要快速、简单的处理海量数据,海量数据处理的三个主要因素:大容量数据、多格式数据和速度,DMCTextFilter和HTMLFilter是由北京红樱枫软件有限公司研制和开发的纯文本抽出和HTML转换通用程序库产品。本产..
分类:
其他好文 时间:
2014-06-26 06:34:02
阅读次数:
239