同事总结的hive sql 优化 Hive是将符合SQL语法的字符串解析生成可以在Hadoop上执行的MapReduce的工具。 使用Hive尽量按照分布式计算的一些特点来设计sql,和传统关系型数据库有区别, 所以需要去掉原...
分类:
数据库 时间:
2014-11-17 12:39:17
阅读次数:
393
日常的OLTP环境中,有时会涉及到一些统计方面的SQL语句,这些语句可能消耗巨大,进而影响整体运行环境,这里我为大家介绍如何利用SQL Server中的”类MapReduce”方式,在特定的统计情形中不牺牲响应速度的情形下减少资源消耗.
分类:
数据库 时间:
2014-11-17 10:30:35
阅读次数:
186
1. Design Patterns and MapReduce. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Design PatternsMapReduce...
分类:
其他好文 时间:
2014-11-16 21:29:32
阅读次数:
153
Partition的中文意思就是分区,分片的意思,这个阶段也是整个MapReduce过程的第三个阶段,就在Map任务的后面,他的作用就是使key分到通过一定的分区算法,分到固定的区域中,给不同的Reduce做处理,达到负载均衡的目的。他的执行过程其实就是发生在上篇文章提到的collect的过程阶段,当输入的key调用了用户的map函数时,中间结果就会被分区了。虽说这个过程看似不是很重要,但是也有值...
分类:
其他好文 时间:
2014-11-16 17:25:40
阅读次数:
235
上篇我刚刚学习完,Spilt的过程,还算比较简单的了,接下来学习的就是Map操作的过程了,Map和Reduce一样,是整个MapReduce的重要内容,所以,这一篇,我会好好的讲讲里面的内部实现过程。首先要说,MapTask,分为4种,可能这一点上有人就可能知道了,分别是Job-setup Task,Job-cleanup Task,Task-cleanup和Map Task。前面3个都是辅助性质...
分类:
其他好文 时间:
2014-11-15 11:33:03
阅读次数:
307
本文通过具体的实例,介绍如何使用hadoop中mapreduce程序解决平均数以及top N的相关问题。...
分类:
其他好文 时间:
2014-11-14 14:16:48
阅读次数:
199
昨天经过几个小时的学习,把MapReduce的第一个阶段的过程学习了一下,也就是最最开始的时候从文件中的Data到key-value的映射,也就是InputFormat的过程。虽说过程不是很难,但是也存在很多细节的。也很少会有人对此做比较细腻的研究,学习。今天,就让我来为大家剖析一下这段代码的原理。我还为此花了一点时间做了几张结构图,便于大家理解。在这里先声明一下,我研究的MapReduce主要研...
分类:
其他好文 时间:
2014-11-14 12:40:55
阅读次数:
156
很久以前为了满足公司的需求写过一些自定义InputFormat,今天有时间拿出来记一下 ? ? 需求是这样的,如果如果使用FileInputFormat作为输入,是按照行来读取日志的,也就是按照\n来区分每一条日志的,而由...
分类:
其他好文 时间:
2014-11-13 13:08:35
阅读次数:
124
函数是Python内建支持的一种封装,我们通过把大段代码拆成函数,通过一层一层的函数调用,就可以把复杂任务分解成简单的任务,这种分解可以称之为面向过程的程序设计。函数就是面向过程的程序设计的基本单元。传入函数函数的本身也可以作为参数。Python内建的mapreduce的函数。(来源于谷歌的,后来被...
分类:
编程语言 时间:
2014-11-13 12:30:47
阅读次数:
251