基于VMware 15+CentOS 7+Hadoop 2.6,各种考虑和条件都是基于我个人的现状和操作习惯,主要用于个人学习。个人理解,水平有限。 hadoop搭建一:虚拟机网络配置和基础 hadoop搭建二:hadoop全分布搭建 hadoop搭建三:hadoop伪分布搭建 hadoop搭建四: ...
分类:
其他好文 时间:
2020-01-19 17:42:17
阅读次数:
141
一、运行速度方面: Spark把中间数据放到内存中,迭代运算效率高。 Hadoop MapReduce将计算结果保存到磁盘上,这样会影响整体速度,而Spark支持DAG图的分布式并行计算的编程框架,减少了迭代过程中数据的落地,提高了处理效率。 二、容错方面: Spark引进了弹性分布式数据集RDD ...
分类:
其他好文 时间:
2020-01-18 21:41:13
阅读次数:
106
linux环境 假设hdfs安装路径(例如是): /usr/hdp/hadoop/bin/hdfs 1. -ls 列出当前目录下的文件、文件夹 /usr/hdp/hadoop/bin/hdfs dfs -ls /apps/hive/warehouse/my_home 2. 查看文件,例如hive表的 ...
分类:
Web程序 时间:
2020-01-18 21:10:35
阅读次数:
172
参考链接:https://www.zhihu.com/question/333417513 hadoop环境搭建:https://blog.csdn.net/hliq5399/article/details/78193113/ ...
分类:
其他好文 时间:
2020-01-18 19:33:32
阅读次数:
70
紧接上一次。 这次是对于spark安装的总结。 首先便是下载spark。 从官网上可以找到用户提供Hadoop环境的安装包,另外值得一提的是用户也可以无需自己安装hadoop而是选择原装包括了hadoop的安装包。 放入虚拟机之后解压缩,修改权限,之后就可以开始配置了。 配置文件需要配置slaves ...
分类:
其他好文 时间:
2020-01-18 14:25:52
阅读次数:
82
HDFS,是Hadoop Distributed File System的简称,是Hadoop抽象文件系统的一种实现。Hadoop抽象文件系统可以与本地系统、Amazon S3等集成,甚至可以通过Web协议(webhsfs)来操作。HDFS的文件分布在集群机器上,同时提供副本进行容错及可靠性保证。例 ...
1.MapReduce是什么 Hadoop MapReduce是一个软件框架,基于该框架能够容易地编写应用程序,这些应用程序能够运行在由上千个商用机器组成的大集群上,并以一种可靠的,具有容错能力的方式并行地处理上TB级别的海量数据集。这个定义里面有着这些关键词, 一是软件框架,二是并行处理,三是可靠 ...
分类:
其他好文 时间:
2020-01-17 13:43:04
阅读次数:
78
简介 Yet Another Resource Negotiator ,负责整个集群资源的调度,和管理,支持多框架资源统一调度(HIVE spark flink) 开启yarn 安装hadoop,可以看我之前的博文 这边就不讲了 编辑 etc/hadoop/mapred-site.xml: 添加如下 ...
分类:
其他好文 时间:
2020-01-17 13:08:54
阅读次数:
81
1.1 失败 1.1.1 任务失败 Map和reduce任务失败:Map或者reduce任务有缺陷,抛出异常,JVM会会向applicationmaster 发出错误报告,applicationmaster将任务标记为failed,将错误报告写入用户日志,释放资源。 Stream任务失败:Strea ...
分类:
移动开发 时间:
2020-01-17 09:31:56
阅读次数:
123
Spark的安装和使用 安装的是spark-2.1.0-bin-without-hadoop.tgz 修改了Spark的配置文件spark-env.sh 添加了配置信息: export SPARK_DIST_CLASSPATH=$(/usr/local/hadoop/bin/hadoop class ...
分类:
其他好文 时间:
2020-01-16 22:19:38
阅读次数:
93