简介: Cloudera Manager 是 Cloudera 公司推出的 Hadoop 集群管理工具,通过该管理工具可以方便的部署、配置、监控集群。 Cloudera 公司自己发布的 Hadoop 版本叫 CDH,全称 Cloudera Distribution Hadoop。 环境介绍: 192 ...
分类:
其他好文 时间:
2017-03-27 13:34:17
阅读次数:
466
Oracle里存储的结构化数据导出到Hadoop体系做离线计算是一种常见数据处置手段。近期有场景需要做Oracle到Hadoop体系的实时导入,这里以此案例做以介绍。Oracle作为商业化的数据库解决方案,自发性的获取数据库事务日志等比较困难,故选择官方提供的同步工具OGG(Oracle Golde ...
分类:
数据库 时间:
2017-03-18 23:57:47
阅读次数:
376
http://os.51cto.com/art/201211/364374.htm 本文将着重于讨论Hadoop集群的体系结构和方法,及它如何与网络和服务器基础设施的关系。最开始我们先学习一下Hadoop集群运作的基础原理。 云计算和Hadoop中网络是讨论得相对比较少的领域。本文原文由Dell企业 ...
分类:
其他好文 时间:
2017-03-16 18:36:38
阅读次数:
212
前言 大家在搭建hadoop集群时,第一次格式化后,一路要做好快照。别随便动不动缺少什么进程,就来个格式化。 问题描述:启动hadoop时报namenode未初始化:java.io.IOException: NameNode is not formatted. 同时,若单独启动namenode,则出 ...
分类:
系统相关 时间:
2017-03-15 14:43:42
阅读次数:
283
简介 本文主要记录如何安装配置Hive on Spark,在执行以下步骤之前,请先确保已经安装Hadoop集群,Hive,MySQL,JDK,Scala,具体安装步骤不再赘述。 背景 Hive默认使用MapReduce作为执行引擎,即Hive on mr。实际上,Hive还可以使用Tez和Spark ...
分类:
其他好文 时间:
2017-03-14 13:15:51
阅读次数:
247
Parquet是Twitter贡献给开源社区的一个列数据存储格式,采用和Dremel相同的文件存储算法,支持树形结构存储和基于列的访问。Cloudera Impala也将使用Parquet作为底层的存储格式。在很多大数据的应用场景下面,比如电信行业,具有一定规则的数据,字段很多,但是每次查询仅仅针对 ...
分类:
其他好文 时间:
2017-03-14 13:14:35
阅读次数:
368
准备条件:部署hadoop集群部署spark集群安装python(本人安装的是anaconda3,python是3.6)配置环境环境变量:vi.bashrc#添加如下内容
exportSPARK_HOME=/opt/spark/current
exportPYTHONPATH=$SPARK_HOME/python/:$SPARK_HOME/python/lib/py4j-0.10.4-src.zipps:spark里面会自..
分类:
数据库 时间:
2017-03-10 19:26:13
阅读次数:
1637
1、先安装好hadoop 集群 参考文档http://www.cnblogs.com/bornteam/p/6517960.html 1、先安装好hadoop 集群 参考文档http://www.cnblogs.com/bornteam/p/6517960.html 2、首先安装好集群,再把去下载h ...
1.Zookeeper 作为 Hadoop 项目中的一个子项目,是 Hadoop 集群管理的一个必不可少的模块,它主要用来控制集群中的数据,如它管理 Hadoop 集群中的 NameNode,还有 Hbase 中 Master Election、Server 之间状态同步等。Zoopkeeper 提 ...
分类:
其他好文 时间:
2017-03-01 16:13:25
阅读次数:
145
1、主机规划序号主机名IP地址角色1nn-1192.168.9.21NameNode、mr-jobhistory、zookeeper、JournalNode2nn-2192.168.9.22Secondary NameNode、JournalNode3dn-1192.168.9.23DataNode... ...
分类:
Web程序 时间:
2017-03-01 15:54:24
阅读次数:
576