2021-03-27 import java.util.ArrayList; import java.util.Collection; import java.util.Collections; import java.util.Map; import java.util.concurrent.Ex ...
分类:
编程语言 时间:
2021-03-29 12:35:39
阅读次数:
0
1.准备文本文件,从文件创建RDD lines=sc.textFile(),筛选出含某个单词的行 lines.filter(),lambda 参数:条件表达式 2.生成单词的列表,从列表创建RDD words=sc.parallelize(),筛选出长度大于2 的单词 words.filter() ...
分类:
其他好文 时间:
2021-03-29 12:30:29
阅读次数:
0
1. 准备文本文件从文件创建RDD lines=sc.textFile()筛选出含某个单词的行 lines.filter()lambda 参数:条件表达式 2. 生成单词的列表从列表创建RDD words=sc.parallelize()筛选出长度大于2 的单词 words.filter() ...
分类:
其他好文 时间:
2021-03-29 12:04:28
阅读次数:
0
一、概念和基本架构 1.1 kafka介绍 Kafka在一个或多个可以跨越多个数据中心的服务器上作为集群运行。Kafka集群中按照主题分类管理,一个主题可以有多个分区,一个分区可以有多个副本分区。每个记录由一个键,一个值和一个时间戳组成。Kafka只有消息的拉取,没有推送,可以通过轮询实现消息的推送 ...
分类:
其他好文 时间:
2021-03-26 15:32:23
阅读次数:
0
pip install setuptools pip install kafka-python执行以上两个命令就可以安装成功。说明:setuptools是kafka-python的依赖库 ...
分类:
编程语言 时间:
2021-03-17 14:49:03
阅读次数:
0
目录 一、Kafka的架构 二、Topics和Partition 三、Producer消息路由 四、Consumer Group 五、Push vs. Pull 六、Kafka delivery guarantee 正文 回到顶部 一、Kafka的架构 如上图所示,一个典型的Kafka集群中包含若干 ...
分类:
其他好文 时间:
2021-03-17 14:25:54
阅读次数:
0
大数据技术板块划分 数据采集 flume kafka logstash filebeat ... 数据存储 mysql redis hbase hdfs ... 虽然mysql不属于大数据范畴 但是我在这也列出来了,因为你在工作中离不开它 数据查询 hive impala elasticsearch ...
分类:
其他好文 时间:
2021-03-17 14:04:41
阅读次数:
0
问题:springboot集成kafka,并由KafkaStreams处理,启动报错 org.apache.kafka.streams.errors.StreamsException: Input record ConsumerRecord(topic = crawler_events, parti ...
分类:
编程语言 时间:
2021-03-16 14:11:28
阅读次数:
0
1、为什么要引入Yarn和Spark。 (1)现有的hadoop生态系统中存在的问题 1)使用mapreduce进行批量离线分析; 2)使用hive进行历史数据的分析; 3)使用hbase进行实时数据的查询; 4)使用storm进行实时的流处理; (2)选用spark的原因 1) 应用于流式计算的S ...
分类:
其他好文 时间:
2021-03-16 13:32:12
阅读次数:
0
1. 阐述Hadoop生态系统中,HDFS, MapReduce, Yarn, Hbase及Spark的相互关系,为什么要引入Yarn和Spark。 HDFS是Hadoop体系中数据存储管理的基础,它是一个高度容错的系统,能检测和应对硬件故障,在低成本的通用硬件上运行。 HBase构建在HDFS之上 ...
分类:
其他好文 时间:
2021-03-16 13:21:18
阅读次数:
0