Hadoop MapReduce Next Generation - Setting up a Single Node Cluster.PurposeThis document describes how to set up and configure a single-node Hadoop in...
分类:
其他好文 时间:
2014-07-30 23:41:45
阅读次数:
284
本文介绍在centos7上面通过hadoop2.4.1源码构建hadoop distribution 版本,即hadoop的运行版本。 为何要自己building,而不用Apache的distribution 【bin】版本,因为hadoop涉及到Linux系统的底层实现,如: hado...
分类:
其他好文 时间:
2014-07-30 23:41:25
阅读次数:
284
jpshadoop namenode -formatdfs directory : /home/hadoop/dfs --data --current/VERSION#Wed Jul 30 20:41:03 CST 2014storageID=DS-ab96ad90-7352-4cd5-a0de.....
分类:
其他好文 时间:
2014-07-30 23:16:25
阅读次数:
228
HDFS和MapReduce是Hadoop的两大核心。整个Hadoop体系结构主要是通过HDFS来实现分布式存储的底层支持的,并且通过MapReduce来实现分布式并行任务处理的程序支持。...
分类:
其他好文 时间:
2014-07-30 20:57:44
阅读次数:
238
OpenTSDB是基于HBase的开源监控系统,可以支持上万规模集群监控和上亿数据点采集。其中TSDB代表Time Series Database,OpenTSDB在时间序列数据的存储和查询上都做了相当多的优化工作。
架构Overview
概念上OpenTSDB由三部分组成:tcollector数据采集、tsd数据服务和HBase数据存储。
数据采集流程
如上图,tco...
分类:
数据库 时间:
2014-07-30 17:33:34
阅读次数:
510
代码测试环境:Hadoop2.4应用场景:在Reducer端一般是key排序,而没有value排序,如果想对value进行排序,则可以使用此技巧。应用实例描述:比如针对下面的数据:a,5
b,7
c,2
c,9
a,3
a,1
b,10
b,3
c,1如果使用一般的MR的话,其输出可能是这样的:a 1
a 3
a 5
b 3
b 10
b 7
c 1
c 9
c 2从数据中可以看到其键是排序的,但...
分类:
其他好文 时间:
2014-07-30 17:29:34
阅读次数:
358
敏捷数据科学:用Hadoop创建数据分析应用(数据分析最佳实践入门敏捷大数据首作分步骤|全流程演示思路、工具与方法)【美】Russell Jurney(拉塞尔·朱尔尼) 著 冯文中 朱洪波 译ISBN 978-7-121-23619-82014年7月出版定价:49.00元 184页16开编辑推荐对大...
分类:
其他好文 时间:
2014-07-30 17:21:04
阅读次数:
253
mapreduce中我们自定义的mapper和reducer程序在执行后有可能遇上出错退出的情况,mapreduce中jobtracker会全程追踪任务的执行情况,对于出错的任务mapreduce也定义了一套自己的处理方式。...
分类:
其他好文 时间:
2014-07-30 12:21:22
阅读次数:
209
一、Impala简介
Cloudera Impala对你存储在Apache Hadoop在HDFS,HBase的数据提供直接查询互动的SQL。除了像Hive使用相同的统一存储平台,Impala也使用相同的元数据,SQL语法(Hive SQL),ODBC驱动程序和用户界面(Hue Beeswax)。Impala还提供了一个熟悉的面向批量或实时查询和统一平台。
二、Impala安装
1.安装要求...
分类:
其他好文 时间:
2014-07-30 09:59:03
阅读次数:
358
收集:各种开源的分布式日志收集系统:Scribe, Flume等等存储可以同时包含各种不同的存储类型,可根据不同的需求增减相应的存储类型:底层存储:能够存储大量的数据,最好具有可扩展性 HDFS S3等等关系存储:MySQL,Postgresql等等键值存储:HBase,Redis等等计算计算能力也...
分类:
其他好文 时间:
2014-07-30 09:48:23
阅读次数:
213