搜索关键字：mapreduce partitioner，搜索到4100个结果！码迷,mamicode.com！

Hadoop集群（第9期）_MapReduce初级案例

1、数据去重 "数据去重"主要是为了掌握和利用并行化思想来对数据进行有意义的筛选。统计大数据集上的数据种类个数、从网站日志中计算访问地等这些看似庞杂的任务都会涉及数据去重。下面就进入这个实例的MapReduce程序设计。1.1 实例描述对数据文件中的数据进行去重。数据文件中的每行都是一个数据。.....

分类：其他好文时间：2015-01-15 18:00:34 阅读次数：377

Hadoop管理员的十个最佳实践

前言接触Hadoop有两年的时间了，期间遇到很多的问题，既有经典的NameNode和JobTracker内存溢出故障，也有HDFS存储小文件问题，既有任务调度问题，也有MapReduce性能问题.遇到的这些问题有些是Hadoop自身的缺陷（短板），有些则是使用的不当。在解决问题的过程中，有时需要翻源...

分类：其他好文时间：2015-01-15 12:17:12 阅读次数：150

mapreduce的二次排序实现方式

本文主要介绍下二次排序的实现方式我们知道mapreduce是按照key来进行排序的，那么如果有有个需求就是先按照第一个字段排序，在第一个字段相等的情况下，按照第二个字段排序，这个其实就是二次排序。下面就具体说一下二次排序的实现方式...

分类：编程语言时间：2015-01-14 00:58:03 阅读次数：271

典型大数据计算模式与系统

典型大数据计算模式与系统典型大数据计算模式典型系统大数据查询分析计算 HBase，Hive，Cassandra，Impala，Shark，Hana等批处理计算 Hadoop MapReduce，Spark等流式计算 Scribe，Flume，Storm，S4, Spark S...

分类：其他好文时间：2015-01-13 21:33:30 阅读次数：382

Hadoop2.3、 Hbase0.98、 Hive0.13架构中Hive的安装部署配置以及数据测试

简介：Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库的统计分析。 1，适用场景Hive 构建在基于静态批处理的Hadoop 之上，Hadoo...

分类：其他好文时间：2015-01-13 15:56:05 阅读次数：256

5行代码怎么实现Hadoop的WordCount？

初学编程的人，都知道helloworld的含义，当你第一次从控制台里打印出了helloworld，就意味着，你已经开始步入了编程的大千世界，这和第一个吃螃蟹的人的意义有点类似，虽然这样比喻并不恰当。如果说学会了使用helloworld就代表着你踏入了单机编程的大门，那么学会在分布式环境..

分类：其他好文时间：2015-01-13 01:32:46 阅读次数：373

hadoop(十三) - mahout安装与使用

一. mahout简介： Mahout 是一个很强大的数据挖掘工具，是一个分布式机器学习算法的集合，包括：被称为Taste的分布式协同过滤的实现、分类、聚类等。Mahout最大的优点就是基于hadoop实现，把很多以前运行于单机上的算法，转化为了MapReduce模式，这样大大提升了算法可处理的数据量和处理性能。以下为在mahout实现的机器学习算法：算法类...

分类：其他好文时间：2015-01-13 00:09:27 阅读次数：251

YARN Apache Hadoop 的下一代MapReduce

在hadoop-0.23版本中， MapReduce已经做了一次全面的修改，这也正是我们现在所说的 MapReduce 2.0 (MRv2) 或者是 YARN. MRv2的基本思想是将JobTracker的两个主要的功能，一个是资源管理，一个是作业的调度和监控，分成各自独立的后台进程。这个思想说的是拥有一个全局的资源管理器（ ResourceManager (RM)），还有一个是每个应用程序都拥有的应用主控器（ApplicationMaster (AM)）。一个应用程序可以是一个传统的Map-Reduce...

分类：Web程序时间：2015-01-09 17:27:45 阅读次数：192

Pig优化之路之巧用Macro

问题：去年用Pig进行了一系列报表和ETL的开发，感觉Pig很不错，没有Hive的娇贵，又比粗糙的MapReduce来的精巧，很称手。新年正好涉及以前的程序调整，借此之机，对Pig写的脚本进行了优化。毕竟，越用越熟，越能发现Pig的魅力。在整理以前的Pig程序里，发现了一个问题，就是pig没有提取数据集大小的功能，所以每次要取数据集条数的工作，总会遗留下如下代码： curr...

分类：系统相关时间：2015-01-09 17:24:48 阅读次数：203

共4100条上一页 1 ... 338 339 340 341 342 ... 410 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)