搜索关键字：spark streaming，搜索到7556个结果！码迷,mamicode.com！

1. 整体架构 2. Standalone cluster 模式 3. Driver的运行流程 ...

分类：其他好文时间：2020-03-31 14:37:16 阅读次数：82

# 使用SparkSQL编写wordCount的词频统计 ## word.txt```hello hello scala sparkjava sql html java hellojack jack tom tom you he he sql``` ## spark 代码：```objec ...

分类：数据库时间：2020-03-30 21:50:35 阅读次数：213

IDEA，SparkSql读取HIve中的数据

传统Hive计算引擎为MapReduce，在Spark1.3版本之后，SparkSql正式发布，并且SparkSql与apachehive基本完全兼容，基于Spark强大的计算能力，使用Spark处理hive中的数据处理速度远远比传统的Hive快。在idea中使用SparkSql读取HIve表中的数据步骤如下1、首先，准备测试环境，将hadoop集群conf目录下的core-site.xml、hd

分类：数据库时间：2020-03-30 14:42:50 阅读次数：141

RDD的cache、persist、checkpoint的区别和StorageLevel存储级别划分

为了增强容错性和高可用，避免上游RDD被重复计算的大量时间开销，Spark RDD设计了包含多种存储级别的缓存和持久化机制，主要有三个概念：cache、persist、checkout。 1、存储级别介绍（StorageLevel）存储级别以一个枚举类StorageLevel定义，分为以下几种： ...

分类：系统相关时间：2020-03-30 12:43:50 阅读次数：102

02 使用spark进行词频统计【scala交互】

我们已经在CentOS7中安装了spark，本节将展示如何在spark中通过scala方式交互的进行词频统计。 1 系统、软件以及前提约束 CentOS 7 64 工作站作者的机子ip是192.168.100.200，主机名为danji，请读者根据自己实际情况设置 hadoop已经安装完毕并启动 ...

分类：其他好文时间：2020-03-30 00:07:08 阅读次数：103

大数据平台搭建：Hadoop-3.1.3+Hive-3.1.2+HBase-2.2.3+Zookeeper-3.5.7+Kafka_2.11-2.4.0+Spark-2.4.5

1.框架选型 hadoop 3.1.3 hive 3.1.2 zookeeper 3.5.7 hbase 2.2.3 kafka_2.11 2.4.0 spark 2.4.5 bin hadoop2.7 2.安装前准备 1.关闭防火墙 2.安装 JDK 3.安装 Scala 4.配置ssh 免密 5 ...

分类：其他好文时间：2020-03-30 00:06:39 阅读次数：66

PySpark之RDD操作

一、什么是RDD A Resilient Distributed Dataset (RDD), the basic abstraction in Spark. Represents an immutable, partitioned collection of elements that can b ...

分类：其他好文时间：2020-03-29 17:56:53 阅读次数：80

python调用接口,python接收post请求接口(附完整代码)

与Scala语言相比，Python有其独特的优势和广泛的应用，python调用接口,因此Spark也推出了PySpark，它在框架上提供了一个使用Python语言的接口，python接收post请求接口为数据科学家使用框架提供了方便。 ...

分类：编程语言时间：2020-03-29 01:41:51 阅读次数：92

Flink Window那些事——Window大分类/生命周期/分配器

1、啥是Window？Window有啥作用？ Flink 认为 Batch 是 Streaming 的一个特例，所以 Flink 底层引擎是一个流式引擎，在上面实现了流处理和批处理。而窗口（window）就是从 Streaming 到 Batch 的一个桥梁。Flink 提供了非常完善的窗口机制，这 ...

分类：Windows程序时间：2020-03-28 13:42:03 阅读次数：104

大数据生态圈 —— 单节点伪分布式环境搭建

本文参考关于环境搭建，imooc上关于hadoop、hbase、spark等课程上有很多环境搭建的例子，但是有些并没有说明为什么选择这个的版本，我们知道这些开源的技术发展很快，所以有必要搞清楚如何对它们进行版本选择环境 spark 2.2.0 + scala 2.11.8 + hbase1.3.... ...

分类：其他好文时间：2020-03-28 13:35:54 阅读次数：84

共7556条上一页 1 ... 47 48 49 50 51 ... 756 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)