摘要:Hadoop使用了MapReduce编程范式,目前已经被公认为是分布式环境中分析大数据的标准框架。然而,它并不能很好的应用于大规模的计算几何处理。本文介绍的CG_Hadoop是一套可伸缩的和高效的MapReduce算法,用于处理各种基本计算几何问题,例如多边形合并、skyline(轮廓线)、convex hull(凸包)、farthest pair(最远相对)以及最近相对等,这些都是其它几何算法的基础。对于每一个计算几何操作,CG_Hadoop有两个版本,一个基于Apache Hadoop系统,一个基...
分类:
其他好文 时间:
2014-12-26 20:24:40
阅读次数:
227
1、Hadoop开发环境简介1.1 Hadoop集群简介 Java版本:jdk-6u31-linux-i586.bin Linux系统:CentOS6.0 Hadoop版本:hadoop-1.0.0.tar.gz1.2 Windows开发简介 Java版本:jdk-6u31-windows-...
分类:
系统相关 时间:
2014-12-24 00:00:43
阅读次数:
491
1、系统管理1.1 连接MySQL 格式: mysql -h主机地址 -u用户名 -p用户密码 举例: 例1:连接到本机上的MySQL。 首先在打开DOS窗口,然后进入目录 mysqlbin,再键入命令"mysql –u root –p",回车后提示你输密码,如果刚安装好MySQL,超级用户...
分类:
数据库 时间:
2014-12-23 22:38:13
阅读次数:
224
2、MapReduce与MySQL交互 MapReduce技术推出后,曾遭到关系数据库研究者的挑剔和批评,认为MapReduce不具备有类似于关系数据库中的结构化数据存储和处理能力。为此,Google和MapReduce社区进行了很多努力。一方面,他们设计了类似于关系数据中结构化数据表的技术(Go....
分类:
数据库 时间:
2014-12-23 22:27:47
阅读次数:
355
1、MapReduce理论简介1.1 MapReduce编程模型 MapReduce采用"分而治之"的思想,把对大规模数据集的操作,分发给一个主节点管理下的各个分节点共同完成,然后通过整合各个节点的中间结果,得到最终结果。简单地说,MapReduce就是"任务的分解与结果的汇总"。 在Hadoo.....
分类:
其他好文 时间:
2014-12-23 22:27:03
阅读次数:
151
1、数据去重 "数据去重"主要是为了掌握和利用并行化思想来对数据进行有意义的筛选。统计大数据集上的数据种类个数、从网站日志中计算访问地等这些看似庞杂的任务都会涉及数据去重。下面就进入这个实例的MapReduce程序设计。1.1 实例描述 对数据文件中的数据进行去重。数据文件中的每行都是一个数据。.....
分类:
其他好文 时间:
2014-12-23 22:26:38
阅读次数:
169
1、分布式环境搭建 采用4台安装Linux环境的机器来构建一个小规模的分布式集群。图1 集群的架构 其中有一台机器是Master节点,即名称节点,另外三台是Slaver节点,即数据节点。这四台机器彼此间通过路由器相连,从而实验相互通信以及数据传输。它们都可以通过路由器访问Internet,实验网.....
分类:
其他好文 时间:
2014-12-23 22:25:17
阅读次数:
233
CentOS 是什么? CentOS是一个基于Red Hat企业级 Linux提供的可自由使用的源代码企业级的 Linux 发行版本。每个版本的CentOS都会获得七年的支持(通过安全更新方式)。新版本的CentOS每两年发行一次,而每个版本的 CentOS 会定期(大概每六个月)更新一次,以便支....
分类:
其他好文 时间:
2014-12-21 13:48:05
阅读次数:
224
这次配置的环境是Hadoop1.2.1版本,Hadoop在13年推出了Hadoop2.0版本,该版本在Hadoop1.0版本的基础上作了较大的改动,提升了Hadoop集群任务调度、资源分配以及故障处理方面的效率。 Hadoop2.0在Hadoop1.0的基础上,首先对HDFS作了改动,在Had...
分类:
其他好文 时间:
2014-12-19 14:10:00
阅读次数:
147