1、hadoop的各种进程及其作用 NameNode:是hdfs的主服务器,管理文件系统的目录树以及对集群中存储文件的访问,保存有metadate,不断读取记录集群中dataNode主机状况和工作状态。 SecondaryNameNode:NameNode的冷备,负责周期性的合并esimage以及e ...
分类:
系统相关 时间:
2020-03-18 18:46:10
阅读次数:
66
大数据开发总体架构: Hadoop是大数据开发所使用的一个核心框架。使用Hadoop可以方便的管理分布式集群,将海量数据分布式的存储在集群中,并使用分布式并行程序来处理这些数据。 Hadoop由许多子系统组成,如下图: Hadoop1.x与2.x的对比: YARN:管理集群资源(内存、CPU) ...
分类:
其他好文 时间:
2020-03-17 19:30:09
阅读次数:
49
YARN YARN是什么? YARN是一种新的 Hadoop 资源管理器,它是一个通用资源管理系统,可为上层应用提供统一的资源管理和调度,它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。 如果没有YARN! 无法管理集群资源分配问题。 无法合理的给程序分配合理的资源。 不方便监控 ...
分类:
其他好文 时间:
2020-03-17 13:51:21
阅读次数:
82
1.下载hadoop官网就可以下载。可以直接搜hadoop , 其实可以直接查看官网的版主文档搭建https://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-common/SingleCluster.html 2.解压包到/usr ...
分类:
其他好文 时间:
2020-03-16 14:54:04
阅读次数:
71
1.安装启动zookeeper /home/hadoop/app/zookeeper-3.4.5-cdh5.7.0/conf/zoo.cfg bin/zkServer start 2.安装启动logstash /home/hadoop/app/logstash-2.4.1/project.conf ...
分类:
其他好文 时间:
2020-03-16 14:49:22
阅读次数:
91
总结一下大数据开发基本常识: JDK(做java开发必备的开发工具包) Hadoop(Apache开发的分布式系统的基础框架)三大组件:MapReduce,Yarn,Hdfs Sqoop(数据迁移,清洗) Kettle(数据清洗,格式转换) Hive(基于Hadoop的数据仓库,并不是数据库,需要安 ...
分类:
系统相关 时间:
2020-03-15 22:17:01
阅读次数:
90
配置内核参数后重启生效# echo 'vm.swappiness=10'>> /etc/sysctl.conf 安装JDK8# rpm -ivh jdk-8u211-linux-x64.rpm # vi /etc/profileexport JAVA_HOME=/usr/java/jdk1.8.0_ ...
分类:
其他好文 时间:
2020-03-15 22:11:33
阅读次数:
76
[toc] 前言 Elasticsearch 是一个分布式、可扩展、实时的搜索与数据分析引擎,通过它我们可以构建出一个强大的全文搜索系统,解决诸如文章检索慢,商品检索慢、MySQL的like查询慢这样的问题。 Elasticsearch是基于hadoop创始人道哥的另一杰作Lucene实现的,速度非 ...
分类:
其他好文 时间:
2020-03-15 13:32:18
阅读次数:
84
一.文件操作 文件操作 类似于正常的linux操作前面加上“hdfs dfs -” 前缀也可以写成hadoop而不用hdfs,但终端中显示 Use of this script to execute hdfs command is deprecated. Instead use the hdfs c ...
分类:
其他好文 时间:
2020-03-14 21:57:13
阅读次数:
58
1.安装scala 2.11.8 2.解压下载包 cd ~/下载 sudo tar -zxf kafka_2.11-0.10.1.0.tgz -C ~/app cd ~/app sudo mv kafka_2.11-0.10.1.0/ ./kafka sudo chown -R hadoop ./k ...
分类:
其他好文 时间:
2020-03-14 19:56:39
阅读次数:
121