码迷,mamicode.com
首页 >  
搜索关键字:mapreduce partitioner    ( 4100个结果
CG_Hadoop:基于MapReduce的计算几何
摘要:Hadoop使用了MapReduce编程范式,目前已经被公认为是分布式环境中分析大数据的标准框架。然而,它并不能很好的应用于大规模的计算几何处理。本文介绍的CG_Hadoop是一套可伸缩的和高效的MapReduce算法,用于处理各种基本计算几何问题,例如多边形合并、skyline(轮廓线)、convex hull(凸包)、farthest pair(最远相对)以及最近相对等,这些都是其它几何算法的基础。对于每一个计算几何操作,CG_Hadoop有两个版本,一个基于Apache Hadoop系统,一个基...
分类:其他好文   时间:2014-12-26 20:24:40    阅读次数:227
terasort 算法随笔
1) NullWritable是Writable的一个特殊类,序列化的长度为,实现方法为空实现,不从数据流中读数据,也不写入数据,只充当占位符,如在MapReduce中,如果你不需要使用键或值,你就可以将键或值声明为NullWritable,NullWritable是一个不可变的单实例类型。2)
分类:编程语言   时间:2014-12-26 16:37:37    阅读次数:251
Spark简介
简介:spark是一个内存计算框架,解决了mapreduce在迭代与交互方面的不足迭代:多轮算法计算形式,pagerank,逻辑回归等交互:实时数据,数据仓库查询等spark重要概念:RDD: 弹性分布式数据集,弹性(数据多节点分片)分布式(集群节点)数据集(默认加载至内存)操作:转换(transformation)rdd..
分类:其他好文   时间:2014-12-26 14:47:34    阅读次数:186
Hadoop mapreduce自定义排序WritableComparable
本文发表于本人博客。今天继续写练习题,上次对分区稍微理解了一下,那根据那个步骤分区、排序、分组、规约来的话,今天应该是要写个排序有关的例子了,那好现在就开始! 说到排序我们可以查看下hadoop源码里面的WordCount例子中对LongWritable类型定义,它实现抽象接口WritableCom...
分类:编程语言   时间:2014-12-26 14:35:39    阅读次数:256
【Spark亚太研究院系列丛书】Spark实战高手之路-第3章Spark架构设计与编程模型第3节:Spark架构设计(2)
三,深入RDD RDD本身是一个抽象类,具有很多具体的实现子类:RDD都会基于Partition进行计算:默认的Partitioner如下所示:其中HashPartitioner的文档说明如下:另外一种常用的Partitioner是RangePartitioner:RDD在持久化的需要考虑内存策略:...
分类:其他好文   时间:2014-12-26 14:21:43    阅读次数:183
Hadoop阅读笔记(二)——利用MapReduce求平均数和去重
继上篇《Hadoop阅读笔记(一)——强大的MapReduce》对MapReduce进行了理论的阐述,本篇通过WordCount加强版——求平均数以及WordCount阉割版——去重两个案例加深对于MapReduce的理解,了解了map过程、combine过程以及reduce过程,结合数据集完美呈现...
分类:其他好文   时间:2014-12-25 23:21:59    阅读次数:181
8天学通MongoDB——第三天 细说高级操作
今天跟大家分享一下mongodb中比较好玩的知识,主要包括:聚合,游标。一: 聚合 常见的聚合操作跟sql server一样,有:count,distinct,group,mapReduce。 count count是最简单,最容易,也是最常用的聚合工具,它的使用跟我们C#里面的count...
分类:数据库   时间:2014-12-25 20:04:48    阅读次数:163
[译]下一代的Hadoop Mapreduce – 如何编写YARN应用程序
1.[译]下一代的HadoopMapreduce–如何编写YARN应用程序http://www.rigongyizu.com/hadoop-mapreduce-next-generation-writing-yarn-applications/
分类:其他好文   时间:2014-12-25 18:42:21    阅读次数:117
使用Hadoop的MapReduce与HDFS处理数据
hadoop是一个分布式的基础架构,利用分布式实现高效的计算与储存,最核心的设计在于HDFS与MapReduce,HDFS提供了大量数据的存储,mapReduce提供了大量数据计算的实现,通过Java项目实现hadoop job处理海量数据解决复杂的需求。一、基本环境及相关软件的配置 具体配置说明:...
分类:其他好文   时间:2014-12-25 17:59:55    阅读次数:104
利用BulkLoad导入Hbase表
1、插入HBase表传统方法具有什么问题?我们先看下HBase的写流程:通常MapReduce 在写HBase时使用的是TableOutputFormat方式,在map/reduce中直接生成put对象写入HBase,该方式在大量数据写入时效率低下,因为HBase会block写入,频繁进行flush、split、compact等大量IO操作,这..
分类:其他好文   时间:2014-12-25 06:44:40    阅读次数:223
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!