Hadoop集群搭建(完全分布式) 这里设置了NameNode的地址,是在ruixuan.com这台主机上,设置hadoop的临时目录,自己指定。 replication的是副本数,意思是一个文件需要在HDFS分布式文件系统中保存几分,建议 DataNode的数量应大于等于replication。 ...
分类:
其他好文 时间:
2018-06-20 12:50:56
阅读次数:
179
Hadoop集群完全分布式配置部署 下面的部署步骤,除非说明是在哪个服务器上操作,否则默认为在所有服务器上都要操作。为了方便,使用root用户。 1.准备工作 1.1 centOS6服务器3台 手动指定3服务器台以下信息: hostname IP mask gateway DNS 备注 master ...
分类:
其他好文 时间:
2018-06-20 00:54:11
阅读次数:
249
知道一个网络爬虫产品,瑞雪采集云,还是有一些特点的:瑞雪采集云是一个PaaS在线开发平台,与图形配置化爬虫客户端工具相比,瑞雪采集云提供的是通用采集能力,能够满足企业客户数据采集业务的长期需求。主要特点如下:(一)一站式通用能力集成,指数级提高开发效率。平台封装了丰富的通用功能,开发者不需要关心(二)开发自由度高,支持复杂网站的采集。(三)分布式任务调度机制,并发采集效率高。(四)强大的任务管理机
分类:
其他好文 时间:
2018-06-18 23:49:21
阅读次数:
327
继hadoop完全分布式安装后,再结合zookper+hbase安全。在之前环境配置下继续进行。一、zookper安装1.1下载并解压软件cd/softwarewget-chttp://apache.fayea.com/zookeeper/zookeeper-3.4.10/zookeeper-3.4.10.tar.gztar-zxfzookeeper-3.4.10.tar.gz-C/usr/loc
分类:
其他好文 时间:
2018-05-23 17:00:36
阅读次数:
152
一、概述概念:是一个可靠的、可伸缩的、分布式计算的开源软件。是一个框架,允许跨越计算机集群的大数据及分布式处理,使用简单的编程模型(mapreduce)可从单台服务器扩展至几千台主机,每个节点提供了计算和存储功能。不依赖于硬件处理HA,在应用层面实现特性4V:volumn体量大velocity速度快variaty样式多value价值密度低模块:hadoopcommon公共类库,支持其他模块HDFS
分类:
其他好文 时间:
2018-05-22 16:41:52
阅读次数:
210
说明:在安装zookeeper+Hbase之前,我们应该已经将hadoop集群搭建好了(三个节点),并且验证启动成功。因为HBase是一种构建在HDFS之上的分布式、面向列的存储系 统。 zookeeper 安装及配置 貌似hBase自带的zookeeper只能用作伪分布式,想用于完全分布式要下载外 ...
分类:
其他好文 时间:
2018-05-20 14:14:36
阅读次数:
268
一:搭建的种类 1)本机模式 2)伪分布式模式 3)完全分布式模式 我们先来学习下搭建伪分布式模式。 二:要求 hadoop版本2.7.3,这个版本的hadoop有些小的bug但是不影响使用,电脑要求8G内存,最好加固态硬盘,会大大提升电脑的性能,centos6.5/6.8。 三:安装步骤 1.安装 ...
分类:
其他好文 时间:
2018-05-19 20:42:24
阅读次数:
2484
Hbase安装模式介绍 单机模式1> Hbase不使用HDFS,仅使用本地文件系统2> ZooKeeper与Hbase运行在同一个JVM中 分布式模式– 伪分布式模式1> 所有进程运行在同一个节点上,不同进程运行在不同的JVM当中2> 比较适合实验测试– 完全分布式模式1> 进程运行在多个服务器集群 ...
分类:
其他好文 时间:
2018-04-13 16:16:50
阅读次数:
180
1、将zookeeper-3.4.6.tar.gz解压(例:root目录下) 2、将/root/zookeeper-3.4.6/conf/zoo_simple.cfg修改为zoo.cfg 并修改zookeeper存放文件的目录:dataDir=/tmp/zookeeper 添加: #其中1、2、3是 ...
分类:
其他好文 时间:
2018-04-10 13:23:54
阅读次数:
175