大数据技术板块划分 数据采集 flume kafka logstash filebeat ... 数据存储 mysql redis hbase hdfs ... 虽然mysql不属于大数据范畴 但是我在这也列出来了,因为你在工作中离不开它 数据查询 hive impala elasticsearch ...
分类:
其他好文 时间:
2021-03-17 14:04:41
阅读次数:
0
1、为什么要引入Yarn和Spark。 (1)现有的hadoop生态系统中存在的问题 1)使用mapreduce进行批量离线分析; 2)使用hive进行历史数据的分析; 3)使用hbase进行实时数据的查询; 4)使用storm进行实时的流处理; (2)选用spark的原因 1) 应用于流式计算的S ...
分类:
其他好文 时间:
2021-03-16 13:32:12
阅读次数:
0
mysql语句的书写顺序和执行顺序有很大差异。 书写顺序,mysql的一般书写顺写为: select <要返回的数据列> from <表名> join on where group by <分组条件> having <分组后的筛选条件> order by <排序条件> limit <行数限制> 然而 ...
分类:
数据库 时间:
2021-03-15 11:19:23
阅读次数:
0
一、什么是进程 程序:例如xxx.py这是程序,是一个静态的 进程:一个程序运行起来后,代码+用到的资源称之为进程,它是操作系统分配资源的基本单元。 不仅可以通过线程完成多任务,进程也是可以的 进程的状态 工作中,任务数往往大于cpu的核数,即一定有一些任务正在执行,而另外一些任务在等待cpu进行执 ...
分类:
编程语言 时间:
2021-03-15 11:19:10
阅读次数:
0
设置metastore 机器: ke01、ke02、ke03、ke04 ke03 为元数据库 ke01、ke02、ke04 连接到元数据库 、 hive-metastore搭建 ke03: <configuration> <property> <name>hive.metastore.warehou ...
分类:
数据库 时间:
2021-03-12 13:42:56
阅读次数:
0
Spark的五种JOIN策略解析 JOIN操作是非常常见的数据处理操作,Spark作为一个统一的大数据处理引擎,提供了非常丰富的JOIN场景。本文分享将介绍Spark所提供的5种JOIN策略,希望对你有所帮助。本文主要包括以下内容: 影响JOIN操作的因素 Spark中JOIN执行的5种策略 Spa ...
分类:
其他好文 时间:
2021-03-10 13:42:57
阅读次数:
0
介绍 分而治之是一个有效的处理大数据的方法,著名的MapReduce就是采用这种分而治之的思路。简单的说,如果要处理1000个数据,但是我们不具备处理1000个数据的能力,只可以处理10个数据。我们可以将这个任务分成100份,每份处理10个,并将最后的结果进行合成,形成1000个数据的处理结果。 把 ...
分类:
编程语言 时间:
2021-03-10 13:02:18
阅读次数:
0
join() 方法 Python join() 方法用于将序列中的元素以指定的字符连接生成一个新的字符串。 join 语法 str.join(sequence) 实例 >>> x = "as323lfaj342l3g4" # 定义 x 字符串 >>> " ".join([i for i in x i ...
分类:
编程语言 时间:
2021-03-09 13:28:38
阅读次数:
0
1.union 和 union all 前者可以去重 select sex,address from test where dt='20210218' union all select sex,address from test where dt='20210218'; + + +--+ | sex ...
分类:
其他好文 时间:
2021-03-08 14:17:52
阅读次数:
0
创建一个数组; var arr = new Array(); var arry = [11,12,13,14,15]; arry[8] = 199; console.log(arry.length); // 9 console.log(arry); // 11,12,13,14,15,,,,199 ...
分类:
编程语言 时间:
2021-03-08 13:30:34
阅读次数:
0