1. 准备文本文件: 从文件创建RDD lines=sc.textFile(): 筛选出含某个单词的行 lines.filter(),lambda 参数:条件表达式: 2. 生成单词的列表: 从列表创建RDD words=sc.parallelize(): 筛选出长度大于2 的单词 words.fi ...
                            
                            
                                分类:
其他好文   时间:
2021-03-29 12:46:01   
                                阅读次数:
0
                             
                    
                        
                            
                            
                                1. 准备文本文件从文件创建RDD lines=sc.textFile()筛选出含某个单词的行 lines.filter()lambda 参数:条件表达式 2. 生成单词的列表从列表创建RDD words=sc.parallelize()筛选出长度大于2 的单词 words.filter() ...
                            
                            
                                分类:
其他好文   时间:
2021-03-29 12:45:18   
                                阅读次数:
0
                             
                    
                        
                            
                            
                                1.准备文本文件,从文件创建RDD lines=sc.textFile(),筛选出含某个单词的行 lines.filter(),lambda 参数:条件表达式 2.生成单词的列表,从列表创建RDD words=sc.parallelize(),筛选出长度大于2 的单词 words.filter()  ...
                            
                            
                                分类:
其他好文   时间:
2021-03-29 12:44:51   
                                阅读次数:
0
                             
                    
                        
                            
                            
                                1.准备文本文件,从文件创建RDD lines=sc.textFile(),筛选出含某个单词的行 lines.filter(),lambda 参数:条件表达式 2.生成单词的列表,从列表创建RDD words=sc.parallelize(),筛选出长度大于2 的单词 words.filter()  ...
                            
                            
                                分类:
其他好文   时间:
2021-03-29 12:30:29   
                                阅读次数:
0
                             
                    
                        
                            
                            
                                1. 准备文本文件从文件创建RDD lines=sc.textFile()筛选出含某个单词的行 lines.filter()lambda 参数:条件表达式 2. 生成单词的列表从列表创建RDD words=sc.parallelize()筛选出长度大于2 的单词 words.filter() ...
                            
                            
                                分类:
其他好文   时间:
2021-03-29 12:04:28   
                                阅读次数:
0
                             
                    
                        
                            
                            
                                
                    前言 接上文,复习整理大数据相关知识点,这章节从MapReduce开始... MapReduce介绍 MapReduce思想在生活中处处可见。或多或少都曾接触过这种思想。MapReduce的思想核心是“分而治之”,适用于大量复杂的任务处理场景(大规模数据处理场景)。 Map负责“分”,即把复杂的任务 ...
                            
                            
                                分类:
其他好文   时间:
2021-03-17 15:09:28   
                                阅读次数:
0
                             
                    
                        
                            
                            
                                处在数字化时代的浪潮中,相信大家对于“数据”都不会陌生。无论对于企业还是个人,数据已经成为了数字化时代的“石油”。早在几年前马云就曾提出过一个观点——未来将会实现从IT时代向DT时代的变革。而在几年后的今天,我们切实感受到了大数据所带来的滚滚红利。 ? 在享受大数据红利的同时,也同样要注意数据的安全 ...
                            
                            
                                分类:
其他好文   时间:
2021-03-17 14:23:44   
                                阅读次数:
0
                             
                    
                        
                            
                            
                                大数据技术板块划分 数据采集 flume kafka logstash filebeat ... 数据存储 mysql redis hbase hdfs ... 虽然mysql不属于大数据范畴 但是我在这也列出来了,因为你在工作中离不开它 数据查询 hive impala elasticsearch ...
                            
                            
                                分类:
其他好文   时间:
2021-03-17 14:04:41   
                                阅读次数:
0
                             
                    
                        
                            
                            
                                1、为什么要引入Yarn和Spark。 (1)现有的hadoop生态系统中存在的问题 1)使用mapreduce进行批量离线分析; 2)使用hive进行历史数据的分析; 3)使用hbase进行实时数据的查询; 4)使用storm进行实时的流处理; (2)选用spark的原因 1) 应用于流式计算的S ...
                            
                            
                                分类:
其他好文   时间:
2021-03-16 13:32:12   
                                阅读次数:
0
                             
                    
                        
                            
                            
                                1. 阐述Hadoop生态系统中,HDFS, MapReduce, Yarn, Hbase及Spark的相互关系,为什么要引入Yarn和Spark。 HDFS是Hadoop体系中数据存储管理的基础,它是一个高度容错的系统,能检测和应对硬件故障,在低成本的通用硬件上运行。 HBase构建在HDFS之上 ...
                            
                            
                                分类:
其他好文   时间:
2021-03-16 13:21:18   
                                阅读次数:
0