所需要配置的参数: Configuration conf = new Configuration(); conf.set("fs.defaultFS", "hdfs://hadoop2cluster"); conf.set("dfs.nameservices", "hadoop2cluster"); ...
分类:
编程语言 时间:
2017-02-24 12:18:14
阅读次数:
270
搭建了一个Hadoop的环境,Hadoop集群环境部署在几个Linux服务器上,现在想使用windows上的Java客户端来操作集群中的HDFS文件,但是在客户端运行时出现了如下的认证错误,被折磨了几天,问题终得以解决。以此文记录问题的解决过程。 (如果想看最终解决问题的方法拉到最后,如果想看我的问 ...
分类:
其他好文 时间:
2017-02-24 12:01:11
阅读次数:
236
基于项目需求,想要实现Post消息推送,故采用HttpClient组件进行实现,相关代码如下(注:程序采用的httpclient和httpcore依赖包的版本为4.2.5): Ps: 在使用Hadoop集群进行发送POST请求时,遇到"java.lang.NoSuchFieldError: INST ...
分类:
编程语言 时间:
2017-02-20 10:50:45
阅读次数:
231
我家宝最近在自学Hadoop,于是乎跟着一起玩玩,在此为她整理一篇基础搭建的博客,希望对她能有所帮助。同样,开始之前先来了解下,什么是Hadoop。Hadoop是一个由Apache基金会所开发的分布式系统基础架构。它是根据Google公司发表的MapReduce和Google文件系统的论文自行实现而成..
分类:
系统相关 时间:
2017-02-11 22:53:41
阅读次数:
395
心跳检测的概念在分布式架构中,比如Hadoop集群,Storm集群等,或多或少都涉及到Master/Slave的概念,往往是一个或者多个Master和N个Slave之间进行通信。那么通常Master应该需要知道Slave的状态,Slave会定时的向Master进行发送消息,相当于告知Master:“我还活着,我现在在做..
分类:
Web程序 时间:
2017-02-05 15:42:09
阅读次数:
1411
Apache Hadoop集群离线安装部署(一)——Hadoop(HDFS、YARN、MR)安装:http://www.cnblogs.com/pojishou/p/6366542.html Apache Hadoop集群离线安装部署(二)——Spark-2.1.0 on Yarn安装:http:/ ...
分类:
Web程序 时间:
2017-02-05 10:44:06
阅读次数:
294
虽然我已经装了个Cloudera的CDH集群(教程详见:http://www.cnblogs.com/pojishou/p/6267616.html),但实在太吃内存了,而且给定的组件版本是不可选的,如果只是为了研究研究技术,而且是单机,内存较小的情况下,还是建议安装Apache的原生的集群拿来玩, ...
分类:
Web程序 时间:
2017-02-04 23:26:56
阅读次数:
540
1、数据采集 使用Hadoop分析处理数据,需要装载大量从不同来源的数据到Hadoop集群。从不同来源大容量的数据加载到Hadoop,然后这个过程处理它,这具有一定的挑战。维护和确保数据的一致性,并确保资源的有效利用,选择正确的方法进行数据加载前有一些因素是要考虑的。 http://www.68dl ...
分类:
其他好文 时间:
2017-01-22 13:28:49
阅读次数:
210
工作中使用MapReduce任务导出一批含有路径的文件,共计行数300W+,需要检测文件是否在对应的服务器中存在,而文件所在的服务器并非hadoop集群的服务器,因此打算采用bash脚本进行。具体的方法如下(可直接看方法2,方法1效率较低): 2. 采用的方法 a. 方法1 原本打算使用如下脚本,进 ...
分类:
系统相关 时间:
2017-01-21 14:57:01
阅读次数:
155
Storm,核心代码使用clojure书写,实用程序使用python开发,使用java开发拓扑。 Storm集群表面类似Hadoop集群。但在Hadoop上你运行的是”MapReduce jobs”,在Storm上你运行的是”topologies”。”Jobs”和”topologies”是大不同的, ...
分类:
其他好文 时间:
2017-01-10 12:03:27
阅读次数:
200