一、filter,map,flatmap练习: 1.读文本文件生成RDD lines lines = sc.textFile('file:///home/hadoop/word.txt') lines.collect() 2.将一行一行的文本分割成单词 words words=lines.flatM ...
分类:
其他好文 时间:
2021-04-01 13:07:18
阅读次数:
0
各角色介绍 Producer:消息的发送者;举例:发信者 Consumer:消息接收者;举例:收信者 Broker:暂存和传输消息;举例:邮局 NameServer:管理Broker;举例:各个邮局的管理机构 Topic:区分消息的种类;一个发送者可以发送消息给一个或者多个Topic;一个消息的接收 ...
分类:
其他好文 时间:
2021-03-30 13:23:18
阅读次数:
0
Hadoop集群 第三章 linux虚拟机 jdk 配置 1、查看并卸载主机原有JDK 1)查找并卸载 jdk 相关软件 rpm -qa | grep -i java | xargs -n1 rqm -e --nodeps rpm -qa:查看安装的所有 rpm 软件包 grep -i :忽略大小写 ...
分类:
系统相关 时间:
2021-03-29 12:39:22
阅读次数:
0
前言 接上文,复习整理大数据相关知识点,这章节从MapReduce开始... MapReduce介绍 MapReduce思想在生活中处处可见。或多或少都曾接触过这种思想。MapReduce的思想核心是“分而治之”,适用于大量复杂的任务处理场景(大规模数据处理场景)。 Map负责“分”,即把复杂的任务 ...
分类:
其他好文 时间:
2021-03-17 15:09:28
阅读次数:
0
id 查询用户信息 linux中用户如何分类 UID user id用户的id号 》身份证号 GID group id用户组id号码 》户口本号 1.皇上 root UID(0) 2.傀儡 虚拟用户 UID (1-499) 系统中的每个进程要有一个对应的用户,无法使用的 3.百姓 普通用户 UID ...
分类:
系统相关 时间:
2021-03-17 14:53:06
阅读次数:
0
引言 准备搭建的是主从架构( Master/Slave )中的一主两从模式;其中 Master 为 Redis 的主服务器,主要负责写操作,两个 Slave 为 Redis 的从服务器,主要负责读操作,该架构最终可以实现主从复制和读写分离,架构图如下: 搭建步骤 这里采用在一台虚拟机上启动多个 Re ...
分类:
其他好文 时间:
2021-03-17 14:17:52
阅读次数:
0
1、为什么要引入Yarn和Spark。 (1)现有的hadoop生态系统中存在的问题 1)使用mapreduce进行批量离线分析; 2)使用hive进行历史数据的分析; 3)使用hbase进行实时数据的查询; 4)使用storm进行实时的流处理; (2)选用spark的原因 1) 应用于流式计算的S ...
分类:
其他好文 时间:
2021-03-16 13:32:12
阅读次数:
0
1. 阐述Hadoop生态系统中,HDFS, MapReduce, Yarn, Hbase及Spark的相互关系,为什么要引入Yarn和Spark。 HDFS是Hadoop体系中数据存储管理的基础,它是一个高度容错的系统,能检测和应对硬件故障,在低成本的通用硬件上运行。 HBase构建在HDFS之上 ...
分类:
其他好文 时间:
2021-03-16 13:21:18
阅读次数:
0
以表的操作和单条记录的增删改查为基础。 批量操作,需要进行进一步封装。 import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.*; import org.apache.hadoop.hbase.clie ...
分类:
编程语言 时间:
2021-03-15 11:32:26
阅读次数:
0
1. 为什么要引入Yarn和Spark。 从开源角度看,YARN的提出,从一定程度上弱化了多计算框架的优劣之争。YARN是在Hadoop MapReduce基础上演化而来的,在MapReduce时代,很多人批评MapReduce不适合迭代计算和流失计算,于是出现了Spark和Storm等计算框架,而 ...
分类:
其他好文 时间:
2021-03-15 11:29:44
阅读次数:
0