1、数据去重 "数据去重"主要是为了掌握和利用并行化思想来对数据进行有意义的筛选。统计大数据集上的数据种类个数、从网站日志中计算访问地等这些看似庞杂的任务都会涉及数据去重。下面就进入这个实例的MapReduce程序设计。1.1 实例描述 对数据文件中的数据进行去重。数据文件中的每行都是一个数据。.....
分类:
其他好文 时间:
2015-01-15 18:00:34
阅读次数:
377
前言接触Hadoop有两年的时间了,期间遇到很多的问题,既有经典的NameNode和JobTracker内存溢出故障,也有HDFS存储小文件问题,既有任务调度问题,也有MapReduce性能问题.遇到的这些问题有些是Hadoop自身的缺陷(短板),有些则是使用的不当。在解决问题的过程中,有时需要翻源...
分类:
其他好文 时间:
2015-01-15 12:17:12
阅读次数:
150
本文主要介绍下二次排序的实现方式
我们知道mapreduce是按照key来进行排序的,那么如果有有个需求就是先按照第一个字段排序,在第一个字段相等的情况下,按照第二个字段排序,这个其实就是二次排序。
下面就具体说一下二次排序的实现方式...
分类:
编程语言 时间:
2015-01-14 00:58:03
阅读次数:
271
典型大数据计算模式与系统
典型大数据计算模式
典型系统
大数据查询分析计算
HBase,Hive,Cassandra,Impala,Shark,Hana等
批处理计算
Hadoop MapReduce,Spark等
流式计算
Scribe,Flume,Storm,S4, Spark S...
分类:
其他好文 时间:
2015-01-13 21:33:30
阅读次数:
382
简介:Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。 1, 适用场景Hive 构建在基于静态批处理的Hadoop 之上,Hadoo...
分类:
其他好文 时间:
2015-01-13 15:56:05
阅读次数:
256
初学编程的人,都知道helloworld的含义,当你第一次从控制台里打印出了helloworld,就意味着,你已经开始步入了编程的大千世界,这和第一个吃螃蟹的人的意义有点类似,虽然这样比喻并不恰当。如果说学会了使用helloworld就代表着你踏入了单机编程的大门,那么学会在分布式环境..
分类:
其他好文 时间:
2015-01-13 01:32:46
阅读次数:
373
一. mahout简介:
Mahout 是一个很强大的数据挖掘工具,是一个分布式机器学习算法的集合,包括:被称为Taste的分布式协同过滤的实现、分类、聚类等。Mahout最大的优点就是基于hadoop实现,把很多以前运行于单机上的算法,转化为了MapReduce模式,这样大大提升了算法可处理的数据量和处理性能。
以下为在mahout实现的机器学习算法:
算法类...
分类:
其他好文 时间:
2015-01-13 00:09:27
阅读次数:
251
在hadoop-0.23版本中, MapReduce已经做了一次全面的修改,这也正是我们现在所说的 MapReduce 2.0 (MRv2) 或者是 YARN.
MRv2的基本思想是将JobTracker的两个主要的功能,一个是资源管理,一个是作业的调度和监控,
分成各自独立的后台进程。这个思想说的是拥有一个全局的资源管理器( ResourceManager (RM)),还有一个是每个应用程序都拥有的应用主控器(ApplicationMaster (AM))。一个应用程序可以是一个传统的Map-Reduce...
分类:
Web程序 时间:
2015-01-09 17:27:45
阅读次数:
192
问题:
去年用Pig进行了一系列报表和ETL的开发,感觉Pig很不错,没有Hive的娇贵,又比粗糙的MapReduce来的精巧,很称手。新年正好涉及以前的程序调整,借此之机,对Pig写的脚本进行了优化。毕竟,越用越熟,越能发现Pig的魅力。
在整理以前的Pig程序里,发现了一个问题,就是pig没有提取数据集大小的功能,所以每次要取数据集条数的工作,总会遗留下如下代码:
curr...
分类:
系统相关 时间:
2015-01-09 17:24:48
阅读次数:
203