摘要:Hadoop使用了MapReduce编程范式,目前已经被公认为是分布式环境中分析大数据的标准框架。然而,它并不能很好的应用于大规模的计算几何处理。本文介绍的CG_Hadoop是一套可伸缩的和高效的MapReduce算法,用于处理各种基本计算几何问题,例如多边形合并、skyline(轮廓线)、convex hull(凸包)、farthest pair(最远相对)以及最近相对等,这些都是其它几何算法的基础。对于每一个计算几何操作,CG_Hadoop有两个版本,一个基于Apache Hadoop系统,一个基...
分类:
其他好文 时间:
2014-12-26 20:24:40
阅读次数:
227
1) NullWritable是Writable的一个特殊类,序列化的长度为,实现方法为空实现,不从数据流中读数据,也不写入数据,只充当占位符,如在MapReduce中,如果你不需要使用键或值,你就可以将键或值声明为NullWritable,NullWritable是一个不可变的单实例类型。2)
分类:
编程语言 时间:
2014-12-26 16:37:37
阅读次数:
251
简介:spark是一个内存计算框架,解决了mapreduce在迭代与交互方面的不足迭代:多轮算法计算形式,pagerank,逻辑回归等交互:实时数据,数据仓库查询等spark重要概念:RDD: 弹性分布式数据集,弹性(数据多节点分片)分布式(集群节点)数据集(默认加载至内存)操作:转换(transformation)rdd..
分类:
其他好文 时间:
2014-12-26 14:47:34
阅读次数:
186
本文发表于本人博客。今天继续写练习题,上次对分区稍微理解了一下,那根据那个步骤分区、排序、分组、规约来的话,今天应该是要写个排序有关的例子了,那好现在就开始! 说到排序我们可以查看下hadoop源码里面的WordCount例子中对LongWritable类型定义,它实现抽象接口WritableCom...
分类:
编程语言 时间:
2014-12-26 14:35:39
阅读次数:
256
三,深入RDD RDD本身是一个抽象类,具有很多具体的实现子类:RDD都会基于Partition进行计算:默认的Partitioner如下所示:其中HashPartitioner的文档说明如下:另外一种常用的Partitioner是RangePartitioner:RDD在持久化的需要考虑内存策略:...
分类:
其他好文 时间:
2014-12-26 14:21:43
阅读次数:
183
继上篇《Hadoop阅读笔记(一)——强大的MapReduce》对MapReduce进行了理论的阐述,本篇通过WordCount加强版——求平均数以及WordCount阉割版——去重两个案例加深对于MapReduce的理解,了解了map过程、combine过程以及reduce过程,结合数据集完美呈现...
分类:
其他好文 时间:
2014-12-25 23:21:59
阅读次数:
181
今天跟大家分享一下mongodb中比较好玩的知识,主要包括:聚合,游标。一: 聚合 常见的聚合操作跟sql server一样,有:count,distinct,group,mapReduce。 count count是最简单,最容易,也是最常用的聚合工具,它的使用跟我们C#里面的count...
分类:
数据库 时间:
2014-12-25 20:04:48
阅读次数:
163
1.[译]下一代的HadoopMapreduce–如何编写YARN应用程序http://www.rigongyizu.com/hadoop-mapreduce-next-generation-writing-yarn-applications/
分类:
其他好文 时间:
2014-12-25 18:42:21
阅读次数:
117
hadoop是一个分布式的基础架构,利用分布式实现高效的计算与储存,最核心的设计在于HDFS与MapReduce,HDFS提供了大量数据的存储,mapReduce提供了大量数据计算的实现,通过Java项目实现hadoop job处理海量数据解决复杂的需求。一、基本环境及相关软件的配置 具体配置说明:...
分类:
其他好文 时间:
2014-12-25 17:59:55
阅读次数:
104
1、插入HBase表传统方法具有什么问题?我们先看下HBase的写流程:通常MapReduce
在写HBase时使用的是TableOutputFormat方式,在map/reduce中直接生成put对象写入HBase,该方式在大量数据写入时效率低下,因为HBase会block写入,频繁进行flush、split、compact等大量IO操作,这..
分类:
其他好文 时间:
2014-12-25 06:44:40
阅读次数:
223