搜索关键字：hadoop nutch hbase，搜索到16575个结果！码迷,mamicode.com！

Hadoop MapReduce Next Generation - Setting up a Single Node Cluster

Hadoop MapReduce Next Generation - Setting up a Single Node Cluster.PurposeThis document describes how to set up and configure a single-node Hadoop in...

分类：其他好文时间：2014-07-30 23:41:45 阅读次数：284

building hadoop2.4.1 on centos7[在centos7上面构建hadoop2.4.1]

本文介绍在centos7上面通过hadoop2.4.1源码构建hadoop distribution 版本，即hadoop的运行版本。为何要自己building，而不用Apache的distribution 【bin】版本，因为hadoop涉及到Linux系统的底层实现，如： hado...

分类：其他好文时间：2014-07-30 23:41:25 阅读次数：284

hadoop namenode多次格式化后，导致datanode启动不了

jpshadoop namenode -formatdfs directory : /home/hadoop/dfs --data --current/VERSION#Wed Jul 30 20:41:03 CST 2014storageID=DS-ab96ad90-7352-4cd5-a0de.....

分类：其他好文时间：2014-07-30 23:16:25 阅读次数：228

Hadoop学习笔记（一）——Hadoop体系结构

HDFS和MapReduce是Hadoop的两大核心。整个Hadoop体系结构主要是通过HDFS来实现分布式存储的底层支持的，并且通过MapReduce来实现分布式并行任务处理的程序支持。...

分类：其他好文时间：2014-07-30 20:57:44 阅读次数：238

读书笔记-HBase in Action-第三部分应用-(1)OpenTSDB

OpenTSDB是基于HBase的开源监控系统，可以支持上万规模集群监控和上亿数据点采集。其中TSDB代表Time Series Database，OpenTSDB在时间序列数据的存储和查询上都做了相当多的优化工作。架构Overview 概念上OpenTSDB由三部分组成：tcollector数据采集、tsd数据服务和HBase数据存储。数据采集流程如上图，tco...

分类：数据库时间：2014-07-30 17:33:34 阅读次数：510

hadoop编程小技巧（9）---二次排序（值排序）

代码测试环境：Hadoop2.4应用场景：在Reducer端一般是key排序，而没有value排序，如果想对value进行排序，则可以使用此技巧。应用实例描述：比如针对下面的数据：a,5 b,7 c,2 c,9 a,3 a,1 b,10 b,3 c,1如果使用一般的MR的话，其输出可能是这样的：a 1 a 3 a 5 b 3 b 10 b 7 c 1 c 9 c 2从数据中可以看到其键是排序的，但...

分类：其他好文时间：2014-07-30 17:29:34 阅读次数：358

敏捷数据科学：用Hadoop创建数据分析应用

敏捷数据科学：用Hadoop创建数据分析应用（数据分析最佳实践入门敏捷大数据首作分步骤|全流程演示思路、工具与方法）【美】Russell Jurney(拉塞尔·朱尔尼) 著冯文中朱洪波译ISBN 978-7-121-23619-82014年7月出版定价：49.00元 184页16开编辑推荐对大...

分类：其他好文时间：2014-07-30 17:21:04 阅读次数：253

mapreduce任务失败、重试、推测式执行机制小结

mapreduce中我们自定义的mapper和reducer程序在执行后有可能遇上出错退出的情况，mapreduce中jobtracker会全程追踪任务的执行情况，对于出错的任务mapreduce也定义了一套自己的处理方式。...

分类：其他好文时间：2014-07-30 12:21:22 阅读次数：209

Cloudera impala简介及安装详解

一、Impala简介 Cloudera Impala对你存储在Apache Hadoop在HDFS，HBase的数据提供直接查询互动的SQL。除了像Hive使用相同的统一存储平台，Impala也使用相同的元数据，SQL语法（Hive SQL），ODBC驱动程序和用户界面（Hue Beeswax）。Impala还提供了一个熟悉的面向批量或实时查询和统一平台。二、Impala安装 1.安装要求...

分类：其他好文时间：2014-07-30 09:59:03 阅读次数：358

一个数据应用闭环（转载）

收集：各种开源的分布式日志收集系统：Scribe， Flume等等存储可以同时包含各种不同的存储类型，可根据不同的需求增减相应的存储类型：底层存储：能够存储大量的数据，最好具有可扩展性 HDFS S3等等关系存储：MySQL，Postgresql等等键值存储：HBase，Redis等等计算计算能力也...

分类：其他好文时间：2014-07-30 09:48:23 阅读次数：213

共16575条上一页 1 ... 1572 1573 1574 1575 1576 ... 1658 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)