Hadoop2中的Yarn是一个分布式计算资源的管理平台,由于其有极好的模型抽象,非常有可能成为分布式计算资源管理的事实标准。其主要职责将是分布式计算集群的管理,集群中计算资源的管理与分配。Yarn为应用程序开发提供了比较好的实现标准,Spark支持Yarn部署,本文将就Spark如何实现在Yarn...
分类:
其他好文 时间:
2014-05-16 04:20:26
阅读次数:
455
HADOOP HA配置
hadoop2.x的ha配置,此文档中描述有hdfs与yarn的ha配置。
此文档的假定条件是zk已经安装并配置完成,其实也没什么安装的。
hdfs ha配置
首先,先配置core-site.xml配置文件:
在老版本中使用mr1时,还可能使用fs.default.name来进行配置
fs.defaultFS
此处配置的mycluster目前还没...
分类:
其他好文 时间:
2014-05-15 23:40:10
阅读次数:
705
数据导入HBase最常用的三种方式及实践分析
摘要:要使用Hadoop,需要将现有的各种类型的数据库或数据文件中的数据导入HBase。一般而言,有三种常见方式:使用HBase的API中的Put方法,使用HBase
的bulk load工具和使用定制的MapReduce Job方式。本文均有详细描述。
【编者按】要使用Hadoop,数据合并至...
分类:
其他好文 时间:
2014-05-15 18:15:19
阅读次数:
495
当今信息化时代充斥着大量的数据。海量数据存储是一个必然的趋势。然而数据如何的存储和查询,尤其是当今非结构化数据的快速增长,对其数据的存储,处理,查询。使得如今的 关系数据库存储带来了巨大的挑战。分布存储技术是云计算的基础,主要研究如何存储、组织和管理数据中心上的大规模海量数据.由于面临的数据规模和用户规模更加庞大,在可扩展性、容错性以及成本控制方面面临着更加严峻的挑战[1]。
...
分类:
其他好文 时间:
2014-05-15 18:13:55
阅读次数:
438
版本:CDH5.0.0,HDFS:2.3.0,Mapreduce:2.3.0,Yarn:2.3.0。场景描述:求一组数据中按照不同类别的最大值,比如,如下的数据:data1:A,10
A,11
A,12
A,13
B,21
B,31
B,41
B,51data2:A,20
A,21
A,22
A,23
B,201
B,301
B,401
B,501最后输出为:A,23
B,501假如这样的逻辑的m...
分类:
其他好文 时间:
2014-05-15 08:15:04
阅读次数:
374
HLog概述hbase在写入数据之前会先写入MemStore,成功了再写入HLog,当MemStore的数据丢失的时候,还可以用HLog的数据来进行恢复,下面先看看HLog的图。旧版的HLog是实际上是一个SequceneFile,0.96的已经使用Protobuf来进行序列化了。从Writer和R...
分类:
其他好文 时间:
2014-05-15 07:38:50
阅读次数:
377
1.我使用的Hadoop2.0-cdh4.3.0,对应hive配套版本hive-0.10.0-cdh4.3.0。
2.修改hive/conf下hive-site.xml文件,无则创建hive-site.xml,在底部添加如下内容:
[html] view
plaincopy
xml version="1.0" encoding="UTF-8"...
分类:
其他好文 时间:
2014-05-15 04:05:27
阅读次数:
341
很多复杂的报表项目,是借助报表工具(或插件)来实现的,下面以jasperReport举例。这些报表工具可以对传统的数据源(关系型数据库、collections、javaBeanArray)进行很好的支持。HBase的数据结构虽然与关系型数据库不一样,但HBase本身就是java开发的。有专门的javaAPI实现对HB..
分类:
其他好文 时间:
2014-05-14 18:23:58
阅读次数:
281
一、 创建表
在官方的wiki里,example是这样的:
Sql代码
CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name [(col_name data_type [COMMENT col_comment], ...)] [COMMENT table_comment] [PARTITION...
分类:
数据库 时间:
2014-05-14 14:50:27
阅读次数:
463