搜索关键字：一键部署 spark，搜索到7234个结果！码迷,mamicode.com！

Spark面试常见问题(一)--RDD基础

1 RDD基础知识 1.1 Spark的RDD五大特性 1.1.1 A list of partitions RDD是一个由多个partition（某个节点里的某一片连续的数据）组成的的List；将数据加载为RDD时，一般一个hdfs里的block会加载为一个partition。对于RDD来说，每 ...

分类：其他好文时间：2021-01-25 11:30:09 阅读次数：0

Trino总结

文章目录 1.Trino与Spark SQL的区别分析 2.Trino与Spark SQL解析过程对比 3.Trino基本概念 4.Trino架构 5.Trino SQL执行流程 6.Trino Task执行流程相关参考： 1.Trino与Spark SQL的区别分析 2.Trino与Spark ...

分类：其他好文时间：2021-01-22 12:05:01 阅读次数：0

Hive整合Hbase

HBase 虽然可以存储数亿或数十亿行数据，但是对于数据分析来说，不太友好，只提供了简单的基于 Key 值的快速查询能力，没法进行大量的条件查询。现有hbase的查询工具有很多如：Hive，Tez，Impala，Shark/Spark，Phoenix等。今天主要说Hive，Hive方便地提供了Hiv ...

分类：其他好文时间：2021-01-21 10:54:30 阅读次数：0

Spark学习--Structured Streaming

Structured Streaming Structured Streaming 是 Spark Streaming 的进化版 Spark 编程模型的进化过程总结 RDD 的优点面向对象的操作方式可以处理任何类型的数据 RDD 的缺点运行速度比较慢, 执行过程没有优化 API 比较僵硬, ...

分类：其他好文时间：2021-01-18 11:40:47 阅读次数：0

pyspark dataframe save into hive

# 先定义dataframe各列的数据类型 from pyspark.sql.types import *schema = StructType([ StructField("a", NullType(), True), StructField("b", AtomicType(), True), S ...

分类：其他好文时间：2021-01-18 11:29:36 阅读次数：0

spark学习进度25（SparkCore实战案例）

词频统计：要求：统计Harry Potter.txt文件中出现最多单词前十位内容样例：代码及结果： @Test//词频统计 def WordCount(): Unit ={ val conf=new SparkConf().setMaster("local[6]").setAppName("w ...

分类：其他好文时间：2021-01-18 11:17:13 阅读次数：0

Spark学习之SparkSQL

##SparkSQL 是什么 ##SparkSQL 初体验 ##Catalyst 优化器 ##Dataset 的特点 ##DataFrame 的作用和常见操作 ##Dataset 和 DataFrame 的异同 ...

分类：数据库时间：2021-01-18 11:03:21 阅读次数：0

hive性能调优

1. 设置执行引擎 set hive.execution.engine=mr;set hive.execution.engine=spark; 如果设置执行引擎为MR，那么调用Hadoop的maprecude来运行需要执行的job的程序；如果设置执行引擎为spark，那么就会调用spark来执行任 ...

分类：其他好文时间：2021-01-15 12:15:21 阅读次数：0

Spark应用程序-任务的划分

任务的划分 ? DAGScheduler类的handleJobSubmitted方法中，有一个提交阶段的的方法： var finalStage: ResultStage = null …… finalStage = createResultStage(finalRDD, func, partitio ...

分类：其他好文时间：2021-01-12 10:29:01 阅读次数：0

spark学习进度07（深入了解RDD）

一、案例： 1、明确需求：在访问日志中，统计独立ip数量TOP10 2、查看数据结构： ip：是时间戳Http Method Url..... 3、明确编码步骤： 3.1 取出ip，生成一个只有ip的数据集 3.2简单清晰 3.3统计ip出现的次数 3.4排序按照ip出现的次数 3.5取出前十 4 ...

分类：其他好文时间：2021-01-11 11:19:54 阅读次数：0

共7234条上一页 1 ... 11 12 13 14 15 ... 724 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)