1.安装启动zookeeper /home/hadoop/app/zookeeper-3.4.5-cdh5.7.0/conf/zoo.cfg bin/zkServer start 2.安装启动logstash /home/hadoop/app/logstash-2.4.1/project.conf ...
分类:
其他好文 时间:
2020-03-16 14:49:22
阅读次数:
91
一:DataNode工作机制 (1)一个数据块在DataNode上以文件形式存储在磁盘上,包括两个文件,一个是数据本身,一个是元数据包括数据块的长度、 快数据的校验和(验证数据完整性)以及时间戳 (2)DataNode启动后向NameNode注册,通过后,周期性(1小时)的向NameNode上报所有 ...
分类:
其他好文 时间:
2020-03-15 22:22:33
阅读次数:
80
总结一下大数据开发基本常识: JDK(做java开发必备的开发工具包) Hadoop(Apache开发的分布式系统的基础框架)三大组件:MapReduce,Yarn,Hdfs Sqoop(数据迁移,清洗) Kettle(数据清洗,格式转换) Hive(基于Hadoop的数据仓库,并不是数据库,需要安 ...
分类:
系统相关 时间:
2020-03-15 22:17:01
阅读次数:
90
配置内核参数后重启生效# echo 'vm.swappiness=10'>> /etc/sysctl.conf 安装JDK8# rpm -ivh jdk-8u211-linux-x64.rpm # vi /etc/profileexport JAVA_HOME=/usr/java/jdk1.8.0_ ...
分类:
其他好文 时间:
2020-03-15 22:11:33
阅读次数:
76
[toc] 前言 Elasticsearch 是一个分布式、可扩展、实时的搜索与数据分析引擎,通过它我们可以构建出一个强大的全文搜索系统,解决诸如文章检索慢,商品检索慢、MySQL的like查询慢这样的问题。 Elasticsearch是基于hadoop创始人道哥的另一杰作Lucene实现的,速度非 ...
分类:
其他好文 时间:
2020-03-15 13:32:18
阅读次数:
84
一.文件操作 文件操作 类似于正常的linux操作前面加上“hdfs dfs -” 前缀也可以写成hadoop而不用hdfs,但终端中显示 Use of this script to execute hdfs command is deprecated. Instead use the hdfs c ...
分类:
其他好文 时间:
2020-03-14 21:57:13
阅读次数:
58
1.安装scala 2.11.8 2.解压下载包 cd ~/下载 sudo tar -zxf kafka_2.11-0.10.1.0.tgz -C ~/app cd ~/app sudo mv kafka_2.11-0.10.1.0/ ./kafka sudo chown -R hadoop ./k ...
分类:
其他好文 时间:
2020-03-14 19:56:39
阅读次数:
121
大数据分析是研究大量的数据的过程中寻找模式,相关性和其他有用的信息,可以帮助企业更好地适应变化,并做出更明智的决策。下面整理了一些大数据分析能用到的工具,助力大家更好的应用大数据技术。 一、hadoop Hadoop 是一个能够对大量数据进行分布式处理的软件框架。但是 Hadoop 是以一种可靠、高 ...
分类:
其他好文 时间:
2020-03-14 18:32:36
阅读次数:
75
MapReduce程序瓶颈 计算机性能 CPU、内存、磁盘、网络 I/O操作优化 数据倾斜 Map和Reduce数设置不合理 Map运行时间太长,导致Reduce等待过久 小文件过多 大量的不可分块的超大文件 spill次数过多 merge次数过多 MapReduce优化方法 主要从六个方面考虑:数 ...
分类:
其他好文 时间:
2020-03-14 11:21:18
阅读次数:
53
停止hadoop集群 ssh admin@node60 '/opt/module/hadoop-2.7.6/sbin/stop-all.sh';ssh admin@node89 '/opt/module/hadoop-2.7.6/sbin/stop-all.sh';ssh admin@node145 ...
分类:
其他好文 时间:
2020-03-13 18:35:36
阅读次数:
69