一、 数据准备 本文主要介绍 Spark SQL 的多表连接,需要预先准备测试数据。分别创建员工和部门的 Datafame,并注册为临时视图,代码如下: val spark = SparkSession.builder().appName("aggregations").master("local[ ...
分类:
数据库 时间:
2020-06-26 18:28:15
阅读次数:
72
一、简单聚合 1.1 数据准备 // 需要导入 spark sql 内置的函数包 import org.apache.spark.sql.functions._ val spark = SparkSession.builder().appName("aggregations").master("lo ...
分类:
数据库 时间:
2020-06-26 18:03:35
阅读次数:
58
DDL数据定义 4.1 创建数据库 CREATE DATABASE [IF NOT EXISTS] database_name [COMMENT database_comment] [LOCATION hdfs_path] [WITH DBPROPERTIES (property_name=prop ...
分类:
其他好文 时间:
2020-06-26 16:46:06
阅读次数:
72
一.集群规划 Name Master Slave1 Slave2 IP 192.168.2.98 192.168.2.99 192.168.2.100 Jdk版本 1.8.0.171 1.8.0.171 1.8.0.171 Zookeeper版本 3.4.10 3.4.10 3.4.10 Hadoo ...
分类:
其他好文 时间:
2020-06-26 16:25:56
阅读次数:
66
①编辑core-site.xml,添加内容如下: <!--指定hdfs的nameservice,为整个集群起一个别名,在zookeeper上注册的名称--> <property> <name>fs.defaultFS</name> <value>hdfs://ns</value> </propert ...
分类:
其他好文 时间:
2020-06-26 16:18:37
阅读次数:
53
Hadoop 生态系统 Hbase:HBase 是一个建立在 HDFS 之上,面向列的 NoSQL 数据库,用于快速读 / 写大量数据,HBase 使用 Zookeeper 进行管理。 Zookeeper:用于 Hadoop 的分布式协调服务。Hadoop 的许多组件依赖于 Zookeeper,它运 ...
分类:
其他好文 时间:
2020-06-26 14:54:11
阅读次数:
64
想了解大数据量的运维能力。 解答:索引数据的规划,应在前期做好规划,正所谓“设计先行,编码在后”, 这样才能有效的避免突如其来的数据激增导致集群处理能力不足引发的线上客户 检索或者其他业务受到影响。 如何调优,正如问题 1 所说,这里细化一下: 3.1 动态索引层面 基于模板+时间+rollover ...
分类:
其他好文 时间:
2020-06-26 14:21:51
阅读次数:
73
作者|Frank: Frank, 爱奇艺云平台科学家, 目前是爱奇艺安全云负责人, 日常主导安全云在业务安全, 云安全, 数据安全, 安全攻防, 移动安全等各领域的技术创新和项目实施, 特别是将大数据风控引入到了爱奇艺业务安全保障中, 实现数据驱动安全和安全智能化。 01普遍业务风险行业的共同的问题 ...
分类:
其他好文 时间:
2020-06-26 13:09:29
阅读次数:
428
一.集群规划 Name Master Slave1 Slave2 IP 192.168.2.98 192.168.2.99 192.168.2.100 Jdk版本 1.8.0.171 1.8.0.171 1.8.0.171 Hadoop版本 2.7.3 2.7.3 2.7.3 Hive版本 2.1. ...
分类:
其他好文 时间:
2020-06-26 12:36:13
阅读次数:
86
一、简介 在 Spark 中,提供了两种类型的共享变量:累加器 (accumulator) 与广播变量 (broadcast variable): 累加器:用来对信息进行聚合,主要用于累计计数等场景; 广播变量:主要用于在节点间高效分发大对象。 二、累加器 这里先看一个具体的场景,对于正常的累计求和 ...
分类:
其他好文 时间:
2020-06-26 10:59:41
阅读次数:
50