1.安装scala 2.11.8 2.解压下载包 cd ~/下载 sudo tar -zxf kafka_2.11-0.10.1.0.tgz -C ~/app cd ~/app sudo mv kafka_2.11-0.10.1.0/ ./kafka sudo chown -R hadoop ./k ...
分类:
其他好文 时间:
2020-03-14 19:56:39
阅读次数:
121
大数据分析是研究大量的数据的过程中寻找模式,相关性和其他有用的信息,可以帮助企业更好地适应变化,并做出更明智的决策。下面整理了一些大数据分析能用到的工具,助力大家更好的应用大数据技术。 一、hadoop Hadoop 是一个能够对大量数据进行分布式处理的软件框架。但是 Hadoop 是以一种可靠、高 ...
分类:
其他好文 时间:
2020-03-14 18:32:36
阅读次数:
75
MapReduce程序瓶颈 计算机性能 CPU、内存、磁盘、网络 I/O操作优化 数据倾斜 Map和Reduce数设置不合理 Map运行时间太长,导致Reduce等待过久 小文件过多 大量的不可分块的超大文件 spill次数过多 merge次数过多 MapReduce优化方法 主要从六个方面考虑:数 ...
分类:
其他好文 时间:
2020-03-14 11:21:18
阅读次数:
53
停止hadoop集群 ssh admin@node60 '/opt/module/hadoop-2.7.6/sbin/stop-all.sh';ssh admin@node89 '/opt/module/hadoop-2.7.6/sbin/stop-all.sh';ssh admin@node145 ...
分类:
其他好文 时间:
2020-03-13 18:35:36
阅读次数:
69
Python语言目前是IT行业内最为流行的编程语言之一,同时Python也是全场景编程语言之一,目前在Web开发、大数据开发、人工智能开发和嵌入式开发领域均有应用,所以Python是当今程序员的重要开发工具。 Python语言之所以能够得到广泛的应用,一定离不开Python语言的诸多优点,这其中就包 ...
分类:
编程语言 时间:
2020-03-13 15:52:46
阅读次数:
97
在执行hadoop命令的时候出现如下错误,不能加载Hadoop库 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes wher ...
分类:
其他好文 时间:
2020-03-13 01:26:15
阅读次数:
77
HA+Zookeeper搭建: hadoop完全分布式搭建: https://www.cnblogs.com/Hephaestus/p/12213719.html hadoop高可用搭建: https://www.cnblogs.com/Hephaestus/p/12420370.html Zook ...
分类:
其他好文 时间:
2020-03-12 09:59:28
阅读次数:
46
什么是Spark SQL? Spark SQL是Spark用来处理结构化数据的一个模块,它提供了2个编程抽象:DataFrame和DataSet,并且作为分布式SQL查询引擎的作用。 我们已经学习了Hive,它是将Hive SQL转换成MapReduce然后提交到集群上执行,大大简化了编写MapRe ...
分类:
数据库 时间:
2020-03-11 10:46:14
阅读次数:
68
Hadoop Java API 热身 WordCount 新建Maven项目 根据zookeeper和hadoop版本配置pom.xml,可用使用 echo stat|nc localhost 2181 查看zookeeper版本 <?xml version="1.0" encoding="UTF- ...
分类:
其他好文 时间:
2020-03-11 01:02:12
阅读次数:
68