搜索关键字：scala spark，搜索到10387个结果！码迷,mamicode.com！

Spark面试常见问题(一)--RDD基础

1 RDD基础知识 1.1 Spark的RDD五大特性 1.1.1 A list of partitions RDD是一个由多个partition（某个节点里的某一片连续的数据）组成的的List；将数据加载为RDD时，一般一个hdfs里的block会加载为一个partition。对于RDD来说，每 ...

分类：其他好文时间：2021-01-25 11:30:09 阅读次数：0

Trino总结

文章目录 1.Trino与Spark SQL的区别分析 2.Trino与Spark SQL解析过程对比 3.Trino基本概念 4.Trino架构 5.Trino SQL执行流程 6.Trino Task执行流程相关参考： 1.Trino与Spark SQL的区别分析 2.Trino与Spark ...

分类：其他好文时间：2021-01-22 12:05:01 阅读次数：0

Hive整合Hbase

HBase 虽然可以存储数亿或数十亿行数据，但是对于数据分析来说，不太友好，只提供了简单的基于 Key 值的快速查询能力，没法进行大量的条件查询。现有hbase的查询工具有很多如：Hive，Tez，Impala，Shark/Spark，Phoenix等。今天主要说Hive，Hive方便地提供了Hiv ...

分类：其他好文时间：2021-01-21 10:54:30 阅读次数：0

Vert.x 核心包

Vert.x是一个事件驱动的JVM上的框架，可以帮助我们构建现代、灵活、可扩展的程序。Vert.x有多种语言的版本，可以用在Java、Kotlin、Scala、Groovy、Ruby等语言上。当然现在讨论的是如何在Java上使用Vert.x。 Vert.x是一个比较大的框架，包含了各个方面的功能。所 ...

分类：其他好文时间：2021-01-19 12:26:36 阅读次数：0

Java进阶专题(二十一) 消息中间件架构体系（3）-- Kafka研究

前言 Kafka 是一款分布式消息发布和订阅系统，具有高性能、高吞吐量的特点而被广泛应用与大数据传输场景。它是由 LinkedIn 公司开发，使用 Scala 语言编写，之后成为 Apache 基金会的一个顶级项目。kafka 提供了类似 JMS 的特性，但是在设计和实现上是完全不同的，而且他也不是 ...

分类：编程语言时间：2021-01-19 11:48:43 阅读次数：0

Spark学习--Structured Streaming

Structured Streaming Structured Streaming 是 Spark Streaming 的进化版 Spark 编程模型的进化过程总结 RDD 的优点面向对象的操作方式可以处理任何类型的数据 RDD 的缺点运行速度比较慢, 执行过程没有优化 API 比较僵硬, ...

分类：其他好文时间：2021-01-18 11:40:47 阅读次数：0

pyspark dataframe save into hive

# 先定义dataframe各列的数据类型 from pyspark.sql.types import *schema = StructType([ StructField("a", NullType(), True), StructField("b", AtomicType(), True), S ...

分类：其他好文时间：2021-01-18 11:29:36 阅读次数：0

spark学习进度25（SparkCore实战案例）

词频统计：要求：统计Harry Potter.txt文件中出现最多单词前十位内容样例：代码及结果： @Test//词频统计 def WordCount(): Unit ={ val conf=new SparkConf().setMaster("local[6]").setAppName("w ...

分类：其他好文时间：2021-01-18 11:17:13 阅读次数：0

Spark学习之SparkSQL

##SparkSQL 是什么 ##SparkSQL 初体验 ##Catalyst 优化器 ##Dataset 的特点 ##DataFrame 的作用和常见操作 ##Dataset 和 DataFrame 的异同 ...

分类：数据库时间：2021-01-18 11:03:21 阅读次数：0

hive性能调优

1. 设置执行引擎 set hive.execution.engine=mr;set hive.execution.engine=spark; 如果设置执行引擎为MR，那么调用Hadoop的maprecude来运行需要执行的job的程序；如果设置执行引擎为spark，那么就会调用spark来执行任 ...

分类：其他好文时间：2021-01-15 12:15:21 阅读次数：0

共10387条上一页 1 ... 13 14 15 16 17 ... 1039 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)