一、案例: 1、明确需求: 在访问日志中,统计独立ip数量TOP10 2、查看数据结构: ip:是时间戳Http Method Url..... 3、明确编码步骤: 3.1 取出ip,生成一个只有ip的数据集 3.2简单清晰 3.3统计ip出现的次数 3.4排序按照ip出现的次数 3.5取出前十 4 ...
分类:
其他好文 时间:
2021-01-11 11:19:54
阅读次数:
0
public static IFeatureClass FeatureToFeature(IFeatureClass SourFeature,IFeatureClass TargetFeature, List<ColumnInternationMapping> columnMapp,bool IsO ...
分类:
其他好文 时间:
2021-01-11 11:06:09
阅读次数:
0
阶段的划分 ? SparkContext对象包含有一个私有属性DAGScheduler阶段调度器,主要用于阶段的划分。在一个应用程序中,任务的提交都是从行动算子触发的。行动算子的方法内部会调用一个runJob方法,其中就有DAG调度器发挥运行Job的作用: dagScheduler.runJob(r ...
分类:
其他好文 时间:
2021-01-08 11:26:05
阅读次数:
0
概述:Spark 程序开发,调试和运行,intellij idea开发Spark java程序。分两部分,第一部分基于intellij idea开发Spark实例程序并在intellij IDEA中运行Spark程序.第二部分,将开发程序提交到Spark local或者hadoop YARN集群运行 ...
分类:
编程语言 时间:
2021-01-08 10:56:23
阅读次数:
0
引言 Apache Spark 2.2 以及以上版本提供的三种 API - RDD、DataFrame 和 Dataset,它们都可以实现很多相同的数据处理,它们之间的性能差异如何,在什么情况下该选用哪一种呢? RDD 从一开始 RDD 就是 Spark 提供的面向用户的主要 API。从根本上来说, ...
分类:
数据库 时间:
2021-01-08 10:40:55
阅读次数:
0
什么是druid druid是一个为OLAP查询需求而设计的开源大数据系统,druid提供低延时的数据插入,实时的数据查询 druid使用Java开发,基于Jetty提供http rest服务,也提供了Java/Python等语言的工具包 druid是一个集群系统,使用zookeeper做节点管理和 ...
分类:
其他好文 时间:
2021-01-08 10:28:10
阅读次数:
0
* 如果是非Ubuntu系统,下面的apt-get命令要换成yum命令。apt-cache search all | grep -> yum list installed | grepapt-get purge -y -> yum remove -y其中的参数-y是过程中所有提示都自动选yes的作用 ...
分类:
其他好文 时间:
2021-01-07 12:30:42
阅读次数:
0
Atlas 作用: 记录并展示Hive表字段含义,以及表和字段之间的数据血缘关系。 局限: 依赖HBase和solr。 Azkaban 作用: 实现任务流执行,满足任务间依赖关系。 局限: 任务能添加依赖的任务,但是不能传参数,任务流中任意一条路线断了,不能这条路线重启执行。 ...
分类:
其他好文 时间:
2021-01-07 12:23:38
阅读次数:
0
1.为什么安装Impala一定要先安装Hive? Impala是基于Hive的大数据实时分析查询引擎,直接使用Hive的元数据库Metadata,意味着impala元数据都存储在Hive的metastore中。 2.Impala与Hive的关系? Impala 与Hive都是构建在Hadoop之上的 ...
分类:
其他好文 时间:
2021-01-06 11:58:32
阅读次数:
0
来源:https://mp.weixin.qq.com/s/NdvHxOtVB7AS5P75QdVO7Q 正文目录 1、表层面 1.1 利用分区表优化 1.2 利用分桶表优化 1.3 选择合适的文件存储格式 1.4 选择合适的压缩格式 2、HQL层面优化 2.1 执行计划 2.1 列、行、分区裁剪 ...
分类:
其他好文 时间:
2021-01-05 11:16:21
阅读次数:
0