搜索关键字：spark 大数据 hadoop hive parquet，搜索到33788个结果！码迷,mamicode.com！

spark学习进度07（深入了解RDD）

一、案例： 1、明确需求：在访问日志中，统计独立ip数量TOP10 2、查看数据结构： ip：是时间戳Http Method Url..... 3、明确编码步骤： 3.1 取出ip，生成一个只有ip的数据集 3.2简单清晰 3.3统计ip出现的次数 3.4排序按照ip出现的次数 3.5取出前十 4 ...

分类：其他好文时间：2021-01-11 11:19:54 阅读次数：0

ArcGis 大数据量的拷贝

public static IFeatureClass FeatureToFeature(IFeatureClass SourFeature,IFeatureClass TargetFeature, List<ColumnInternationMapping> columnMapp,bool IsO ...

分类：其他好文时间：2021-01-11 11:06:09 阅读次数：0

Spark应用程序执行-阶段的划分

阶段的划分 ? SparkContext对象包含有一个私有属性DAGScheduler阶段调度器，主要用于阶段的划分。在一个应用程序中，任务的提交都是从行动算子触发的。行动算子的方法内部会调用一个runJob方法，其中就有DAG调度器发挥运行Job的作用： dagScheduler.runJob(r ...

分类：其他好文时间：2021-01-08 11:26:05 阅读次数：0

spark (Java API) 在Intellij IDEA中开发并运行

概述：Spark 程序开发，调试和运行，intellij idea开发Spark java程序。分两部分，第一部分基于intellij idea开发Spark实例程序并在intellij IDEA中运行Spark程序.第二部分，将开发程序提交到Spark local或者hadoop YARN集群运行 ...

分类：编程语言时间：2021-01-08 10:56:23 阅读次数：0

Spark SQL 之 RDD、DataFrame 和 Dataset 如何选择

引言 Apache Spark 2.2 以及以上版本提供的三种 API - RDD、DataFrame 和 Dataset，它们都可以实现很多相同的数据处理，它们之间的性能差异如何，在什么情况下该选用哪一种呢？ RDD 从一开始 RDD 就是 Spark 提供的面向用户的主要 API。从根本上来说， ...

分类：数据库时间：2021-01-08 10:40:55 阅读次数：0

Druid简单介绍

什么是druid druid是一个为OLAP查询需求而设计的开源大数据系统，druid提供低延时的数据插入，实时的数据查询 druid使用Java开发，基于Jetty提供http rest服务，也提供了Java/Python等语言的工具包 druid是一个集群系统，使用zookeeper做节点管理和 ...

分类：其他好文时间：2021-01-08 10:28:10 阅读次数：0

卸载Ambari

* 如果是非Ubuntu系统，下面的apt-get命令要换成yum命令。apt-cache search all | grep -> yum list installed | grepapt-get purge -y -> yum remove -y其中的参数-y是过程中所有提示都自动选yes的作用 ...

分类：其他好文时间：2021-01-07 12:30:42 阅读次数：0

大数据组件

Atlas 作用：记录并展示Hive表字段含义，以及表和字段之间的数据血缘关系。局限：依赖HBase和solr。 Azkaban 作用：实现任务流执行，满足任务间依赖关系。局限：任务能添加依赖的任务，但是不能传参数，任务流中任意一条路线断了，不能这条路线重启执行。 ...

分类：其他好文时间：2021-01-07 12:23:38 阅读次数：0

Impala和Hive的关系

1.为什么安装Impala一定要先安装Hive？ Impala是基于Hive的大数据实时分析查询引擎，直接使用Hive的元数据库Metadata,意味着impala元数据都存储在Hive的metastore中。 2.Impala与Hive的关系？ Impala 与Hive都是构建在Hadoop之上的 ...

分类：其他好文时间：2021-01-06 11:58:32 阅读次数：0

Hive基础(二十二)：面试题:Hive调优全方位指南(一)

来源:https://mp.weixin.qq.com/s/NdvHxOtVB7AS5P75QdVO7Q 正文目录 1、表层面 1.1 利用分区表优化 1.2 利用分桶表优化 1.3 选择合适的文件存储格式 1.4 选择合适的压缩格式 2、HQL层面优化 2.1 执行计划 2.1 列、行、分区裁剪 ...

分类：其他好文时间：2021-01-05 11:16:21 阅读次数：0

共33788条上一页 1 ... 34 35 36 37 38 ... 3379 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)