搜索关键字：mapreduce partitioner，搜索到4100个结果！码迷,mamicode.com！

CG_Hadoop：基于MapReduce的计算几何

摘要：Hadoop使用了MapReduce编程范式，目前已经被公认为是分布式环境中分析大数据的标准框架。然而，它并不能很好的应用于大规模的计算几何处理。本文介绍的CG_Hadoop是一套可伸缩的和高效的MapReduce算法，用于处理各种基本计算几何问题，例如多边形合并、skyline（轮廓线）、convex hull(凸包)、farthest pair(最远相对)以及最近相对等，这些都是其它几何算法的基础。对于每一个计算几何操作，CG_Hadoop有两个版本，一个基于Apache Hadoop系统，一个基...

分类：其他好文时间：2014-12-26 20:24:40 阅读次数：227

terasort 算法随笔

1） NullWritable是Writable的一个特殊类，序列化的长度为，实现方法为空实现，不从数据流中读数据，也不写入数据，只充当占位符，如在MapReduce中，如果你不需要使用键或值，你就可以将键或值声明为NullWritable,NullWritable是一个不可变的单实例类型。2）

分类：编程语言时间：2014-12-26 16:37:37 阅读次数：251

Spark简介

简介:spark是一个内存计算框架,解决了mapreduce在迭代与交互方面的不足迭代:多轮算法计算形式,pagerank,逻辑回归等交互:实时数据,数据仓库查询等spark重要概念:RDD: 弹性分布式数据集,弹性(数据多节点分片)分布式(集群节点)数据集(默认加载至内存)操作:转换(transformation)rdd..

分类：其他好文时间：2014-12-26 14:47:34 阅读次数：186

Hadoop mapreduce自定义排序WritableComparable

本文发表于本人博客。今天继续写练习题，上次对分区稍微理解了一下，那根据那个步骤分区、排序、分组、规约来的话，今天应该是要写个排序有关的例子了，那好现在就开始！说到排序我们可以查看下hadoop源码里面的WordCount例子中对LongWritable类型定义，它实现抽象接口WritableCom...

分类：编程语言时间：2014-12-26 14:35:39 阅读次数：256

【Spark亚太研究院系列丛书】Spark实战高手之路-第3章Spark架构设计与编程模型第3节：Spark架构设计(2)

三，深入RDD RDD本身是一个抽象类，具有很多具体的实现子类：RDD都会基于Partition进行计算：默认的Partitioner如下所示：其中HashPartitioner的文档说明如下：另外一种常用的Partitioner是RangePartitioner：RDD在持久化的需要考虑内存策略：...

分类：其他好文时间：2014-12-26 14:21:43 阅读次数：183

Hadoop阅读笔记（二）——利用MapReduce求平均数和去重

继上篇《Hadoop阅读笔记（一）——强大的MapReduce》对MapReduce进行了理论的阐述，本篇通过WordCount加强版——求平均数以及WordCount阉割版——去重两个案例加深对于MapReduce的理解，了解了map过程、combine过程以及reduce过程，结合数据集完美呈现...

分类：其他好文时间：2014-12-25 23:21:59 阅读次数：181

8天学通MongoDB——第三天细说高级操作

今天跟大家分享一下mongodb中比较好玩的知识，主要包括：聚合，游标。一：聚合常见的聚合操作跟sql server一样，有：count，distinct，group，mapReduce。 count count是最简单，最容易，也是最常用的聚合工具，它的使用跟我们C#里面的count...

分类：数据库时间：2014-12-25 20:04:48 阅读次数：163

[译]下一代的Hadoop Mapreduce – 如何编写YARN应用程序

1.[译]下一代的HadoopMapreduce–如何编写YARN应用程序http://www.rigongyizu.com/hadoop-mapreduce-next-generation-writing-yarn-applications/

分类：其他好文时间：2014-12-25 18:42:21 阅读次数：117

使用Hadoop的MapReduce与HDFS处理数据

hadoop是一个分布式的基础架构，利用分布式实现高效的计算与储存，最核心的设计在于HDFS与MapReduce，HDFS提供了大量数据的存储，mapReduce提供了大量数据计算的实现，通过Java项目实现hadoop job处理海量数据解决复杂的需求。一、基本环境及相关软件的配置具体配置说明：...

分类：其他好文时间：2014-12-25 17:59:55 阅读次数：104

利用BulkLoad导入Hbase表

1、插入HBase表传统方法具有什么问题？我们先看下HBase的写流程：通常MapReduce 在写HBase时使用的是TableOutputFormat方式，在map/reduce中直接生成put对象写入HBase，该方式在大量数据写入时效率低下，因为HBase会block写入，频繁进行flush、split、compact等大量IO操作，这..

分类：其他好文时间：2014-12-25 06:44:40 阅读次数：223

共4100条上一页 1 ... 343 344 345 346 347 ... 410 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)