码迷,mamicode.com
首页 >  
搜索关键字:hadoop nutch hbase    ( 16575个结果
Hadoop MapReduce Next Generation - Setting up a Single Node Cluster
Hadoop MapReduce Next Generation - Setting up a Single Node Cluster.PurposeThis document describes how to set up and configure a single-node Hadoop in...
分类:其他好文   时间:2014-07-30 23:41:45    阅读次数:284
building hadoop2.4.1 on centos7[在centos7上面构建hadoop2.4.1]
本文介绍在centos7上面通过hadoop2.4.1源码构建hadoop distribution 版本,即hadoop的运行版本。 为何要自己building,而不用Apache的distribution 【bin】版本,因为hadoop涉及到Linux系统的底层实现,如: hado...
分类:其他好文   时间:2014-07-30 23:41:25    阅读次数:284
hadoop namenode多次格式化后,导致datanode启动不了
jpshadoop namenode -formatdfs directory : /home/hadoop/dfs --data --current/VERSION#Wed Jul 30 20:41:03 CST 2014storageID=DS-ab96ad90-7352-4cd5-a0de.....
分类:其他好文   时间:2014-07-30 23:16:25    阅读次数:228
Hadoop学习笔记(一)——Hadoop体系结构
HDFS和MapReduce是Hadoop的两大核心。整个Hadoop体系结构主要是通过HDFS来实现分布式存储的底层支持的,并且通过MapReduce来实现分布式并行任务处理的程序支持。...
分类:其他好文   时间:2014-07-30 20:57:44    阅读次数:238
读书笔记-HBase in Action-第三部分应用-(1)OpenTSDB
OpenTSDB是基于HBase的开源监控系统,可以支持上万规模集群监控和上亿数据点采集。其中TSDB代表Time Series Database,OpenTSDB在时间序列数据的存储和查询上都做了相当多的优化工作。 架构Overview 概念上OpenTSDB由三部分组成:tcollector数据采集、tsd数据服务和HBase数据存储。 数据采集流程 如上图,tco...
分类:数据库   时间:2014-07-30 17:33:34    阅读次数:510
hadoop编程小技巧(9)---二次排序(值排序)
代码测试环境:Hadoop2.4应用场景:在Reducer端一般是key排序,而没有value排序,如果想对value进行排序,则可以使用此技巧。应用实例描述:比如针对下面的数据:a,5 b,7 c,2 c,9 a,3 a,1 b,10 b,3 c,1如果使用一般的MR的话,其输出可能是这样的:a 1 a 3 a 5 b 3 b 10 b 7 c 1 c 9 c 2从数据中可以看到其键是排序的,但...
分类:其他好文   时间:2014-07-30 17:29:34    阅读次数:358
敏捷数据科学:用Hadoop创建数据分析应用
敏捷数据科学:用Hadoop创建数据分析应用(数据分析最佳实践入门敏捷大数据首作分步骤|全流程演示思路、工具与方法)【美】Russell Jurney(拉塞尔·朱尔尼) 著 冯文中 朱洪波 译ISBN 978-7-121-23619-82014年7月出版定价:49.00元 184页16开编辑推荐对大...
分类:其他好文   时间:2014-07-30 17:21:04    阅读次数:253
mapreduce任务失败、重试、推测式执行机制小结
mapreduce中我们自定义的mapper和reducer程序在执行后有可能遇上出错退出的情况,mapreduce中jobtracker会全程追踪任务的执行情况,对于出错的任务mapreduce也定义了一套自己的处理方式。...
分类:其他好文   时间:2014-07-30 12:21:22    阅读次数:209
Cloudera impala简介及安装详解
一、Impala简介 Cloudera Impala对你存储在Apache Hadoop在HDFS,HBase的数据提供直接查询互动的SQL。除了像Hive使用相同的统一存储平台,Impala也使用相同的元数据,SQL语法(Hive SQL),ODBC驱动程序和用户界面(Hue Beeswax)。Impala还提供了一个熟悉的面向批量或实时查询和统一平台。 二、Impala安装 1.安装要求...
分类:其他好文   时间:2014-07-30 09:59:03    阅读次数:358
一个数据应用闭环(转载)
收集:各种开源的分布式日志收集系统:Scribe, Flume等等存储可以同时包含各种不同的存储类型,可根据不同的需求增减相应的存储类型:底层存储:能够存储大量的数据,最好具有可扩展性 HDFS S3等等关系存储:MySQL,Postgresql等等键值存储:HBase,Redis等等计算计算能力也...
分类:其他好文   时间:2014-07-30 09:48:23    阅读次数:213
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!