码迷,mamicode.com
首页 >  
搜索关键字:mapreduce partitioner    ( 4100个结果
Hadoop集群(第9期)_MapReduce初级案例
1、数据去重 "数据去重"主要是为了掌握和利用并行化思想来对数据进行有意义的筛选。统计大数据集上的数据种类个数、从网站日志中计算访问地等这些看似庞杂的任务都会涉及数据去重。下面就进入这个实例的MapReduce程序设计。1.1 实例描述 对数据文件中的数据进行去重。数据文件中的每行都是一个数据。.....
分类:其他好文   时间:2015-01-15 18:00:34    阅读次数:377
Hadoop管理员的十个最佳实践
前言接触Hadoop有两年的时间了,期间遇到很多的问题,既有经典的NameNode和JobTracker内存溢出故障,也有HDFS存储小文件问题,既有任务调度问题,也有MapReduce性能问题.遇到的这些问题有些是Hadoop自身的缺陷(短板),有些则是使用的不当。在解决问题的过程中,有时需要翻源...
分类:其他好文   时间:2015-01-15 12:17:12    阅读次数:150
mapreduce的二次排序实现方式
本文主要介绍下二次排序的实现方式 我们知道mapreduce是按照key来进行排序的,那么如果有有个需求就是先按照第一个字段排序,在第一个字段相等的情况下,按照第二个字段排序,这个其实就是二次排序。 下面就具体说一下二次排序的实现方式...
分类:编程语言   时间:2015-01-14 00:58:03    阅读次数:271
典型大数据计算模式与系统
典型大数据计算模式与系统  典型大数据计算模式 典型系统 大数据查询分析计算 HBase,Hive,Cassandra,Impala,Shark,Hana等 批处理计算 Hadoop MapReduce,Spark等 流式计算 Scribe,Flume,Storm,S4, Spark S...
分类:其他好文   时间:2015-01-13 21:33:30    阅读次数:382
Hadoop2.3、 Hbase0.98、 Hive0.13架构中Hive的安装部署配置以及数据测试
简介:Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。 1, 适用场景Hive 构建在基于静态批处理的Hadoop 之上,Hadoo...
分类:其他好文   时间:2015-01-13 15:56:05    阅读次数:256
5行代码怎么实现Hadoop的WordCount?
初学编程的人,都知道helloworld的含义,当你第一次从控制台里打印出了helloworld,就意味着,你已经开始步入了编程的大千世界,这和第一个吃螃蟹的人的意义有点类似,虽然这样比喻并不恰当。如果说学会了使用helloworld就代表着你踏入了单机编程的大门,那么学会在分布式环境..
分类:其他好文   时间:2015-01-13 01:32:46    阅读次数:373
hadoop(十三) - mahout安装与使用
一. mahout简介: Mahout 是一个很强大的数据挖掘工具,是一个分布式机器学习算法的集合,包括:被称为Taste的分布式协同过滤的实现、分类、聚类等。Mahout最大的优点就是基于hadoop实现,把很多以前运行于单机上的算法,转化为了MapReduce模式,这样大大提升了算法可处理的数据量和处理性能。 以下为在mahout实现的机器学习算法: 算法类...
分类:其他好文   时间:2015-01-13 00:09:27    阅读次数:251
YARN Apache Hadoop 的下一代MapReduce
在hadoop-0.23版本中, MapReduce已经做了一次全面的修改,这也正是我们现在所说的 MapReduce 2.0 (MRv2) 或者是 YARN. MRv2的基本思想是将JobTracker的两个主要的功能,一个是资源管理,一个是作业的调度和监控, 分成各自独立的后台进程。这个思想说的是拥有一个全局的资源管理器( ResourceManager (RM)),还有一个是每个应用程序都拥有的应用主控器(ApplicationMaster (AM))。一个应用程序可以是一个传统的Map-Reduce...
分类:Web程序   时间:2015-01-09 17:27:45    阅读次数:192
Pig优化之路之巧用Macro
问题:    去年用Pig进行了一系列报表和ETL的开发,感觉Pig很不错,没有Hive的娇贵,又比粗糙的MapReduce来的精巧,很称手。新年正好涉及以前的程序调整,借此之机,对Pig写的脚本进行了优化。毕竟,越用越熟,越能发现Pig的魅力。     在整理以前的Pig程序里,发现了一个问题,就是pig没有提取数据集大小的功能,所以每次要取数据集条数的工作,总会遗留下如下代码: curr...
分类:系统相关   时间:2015-01-09 17:24:48    阅读次数:203
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!