1.Hive1.1 在hadoop生态圈中属于数据仓库的角色。他能够管理hadoop中的数据,同时可以查询hadoop中的数据。 本质上讲,hive是一个SQL解析引擎。Hive可以把SQL查询转换为MapReduce中的job来运行。 hive有一套映射工具,可以把SQL转换为MapReduce中 ...
分类:
其他好文 时间:
2017-04-09 00:15:55
阅读次数:
258
本贴记录学习hadoop中遇到的各种异常, 包括推荐系统分类下的和本分类下的, 持续更新 1, 搭建ha时, active和standy之间不能自由切换 经检查, 配置文件错误, 私钥配置 root 前没加 / 2, eclipse插件安装好以后, 不能上传文件 插件版本 hadoop-eclips ...
分类:
其他好文 时间:
2017-04-03 16:00:13
阅读次数:
214
本贴记录学习hadoop中遇到的各种异常, 包括推荐系统分类下的和本分类下的, 持续更新 1, 搭建ha时, active和standy之间不能自由切换 经检查, 配置文件错误, 私钥配置 root 前没加 / 2, eclipse插件安装好以后, 不能上传文件 插件版本 hadoop-eclips ...
分类:
其他好文 时间:
2017-04-03 13:14:15
阅读次数:
261
MapReduce 应用举例:单词计数 WorldCount可以说是MapReduce中的helloworld了,下面来看看hadoop中的例子worldcount对其进行的处理过程,也能对mapreduce的执行过程有一个清晰的认识,特别是对于每一个阶段的函数执行所产生的键值对 单词 计数主要完成 ...
分类:
其他好文 时间:
2017-03-27 19:16:08
阅读次数:
310
最近在处理离线数据导入HBase的问题,涉及从Hdfs中读取gz压缩文件,把思路记录下来,以作备用。具体代码如下: ...
分类:
其他好文 时间:
2017-03-25 14:30:53
阅读次数:
443
Ambari是在Hadoop大数据生态圈的基础上应运而生,Ambari的架构也借助了分布式的思想,细细品味,与Hadoop分布式架构有很多相似之处。 Hadoop中单NN 与多DN的通信是借助netty封装的RPC机制实现,单Ambari server与多Agent通信则是基于restful api ...
分类:
其他好文 时间:
2017-03-24 22:44:41
阅读次数:
281
http://os.51cto.com/art/201211/364374.htm 本文将着重于讨论Hadoop集群的体系结构和方法,及它如何与网络和服务器基础设施的关系。最开始我们先学习一下Hadoop集群运作的基础原理。 云计算和Hadoop中网络是讨论得相对比较少的领域。本文原文由Dell企业 ...
分类:
其他好文 时间:
2017-03-16 18:36:38
阅读次数:
212
项目构建Hadoop1.0内核主要由两个分支组成:MapReduce和HDFS,众所周知,这两个系统的设计缺陷是单点故障,即MR的JobTracker和HDFS的NameNode两个核心服务均存在单点问题,该问题在很长时间内没有解决,这使得Hadoop在相当长时间内仅适合离线存储和离线计算。令人欣慰的是,这..
分类:
其他好文 时间:
2017-03-15 19:14:53
阅读次数:
197
回顾大数据技术领域大事件,最早可追溯到06年Hadoop的正式启动,而环顾四下,围绕着数据库及数据处理引擎,业内充斥着各种各样的大数据技术。这是个技术人的好时代,仅数据库领域热门DB就有300+,围绕着Hadoop生态圈的大数据处理技术更是繁花似锦。在云栖社区2017在线技术峰会大数据技术峰会上,阿 ...
分类:
其他好文 时间:
2017-03-14 13:13:17
阅读次数:
156