搜索关键字：spark jar包依赖 submit，搜索到13476个结果！码迷,mamicode.com！

Spark快速入门之RDD编程模型

RDD(Resilient Distributed Dataset)叫做分布式数据集，是Spark中最基本的数据抽象，它代表一个可分区，不可变，里面的元素可并行计算的结合。RDD具有自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时显示地将工作集换存在内存中，后续的查询能够重用工作集 ...

分类：其他好文时间：2020-07-06 16:20:23 阅读次数：61

Spark 两种方法计算分组取Top N

Spark 分组取Top N运算大数据处理中，对数据分组后，取TopN是非常常见的运算。下面我们以一个例子来展示spark如何进行分组取Top的运算。 1、RDD方法分组取TopN from pyspark import SparkContext sc = SparkContext() 准备数据 ...

分类：其他好文时间：2020-07-06 16:11:05 阅读次数：78

IDEA创建Spark开发环境

下面安装的六步和通过Maven安装Java项目的方式相同如果刚安装完IDEA，直接点击[Create New Project] 左侧选择Maven，然后先勾选上部的[Create from archetype],然后右侧选择[maven-archetype-quickstart] 填写GroupI ...

分类：其他好文时间：2020-07-05 19:02:22 阅读次数：90

Spark DAG 依赖关系 Stage

DAG ：整个计算链可以抽象为一个DAG(有向无环图) Spark 的 DAG 作用：记录了RDD之间的依赖关系，即RDD是通过何种变换生成的，如下图：RDD1是RDD2的父RDD，通过flatMap操作生成借助RDD之间的依赖关系，可以实现数据的容错，即子分区(子RDD)数据丢失后，可以 ...

分类：其他好文时间：2020-07-05 17:29:07 阅读次数：56

Spark RDD

RDD概述 RDD：弹性分布式数据集，初学时，可以把RDD看做是一种集合类型（和Array，List类比） RDD的特点： ①有容错性，即数据丢失是可以恢复的 ②有分区机制，可以并行的处理RDD数据创建RDD的2种方式： ①将一个普通的集合类型(Array或List) ②通过Spark读取外部存储 ...

分类：其他好文时间：2020-07-05 15:15:06 阅读次数：66

IDEA搭建SpringMVC程序

程序搭建 1、idea新建maven工程，如图 2、点击Next->导入属性值，主要是解决从网上下包很慢的问题 key:archetypeCatalog value:internal 3、后面几个都是点击Next按钮 4、完成初始化状态 5、补全目录结构如图： 6、pom.xml导入jar包依赖 < ...

分类：编程语言时间：2020-07-05 15:11:28 阅读次数：68

曹工说面试：当应用依赖jar包的A版本，中间件jar包依赖B版本，两个版本不兼容，这还怎么玩？

背景大一点的公司，可能有一些组，专门做中间件的；假设，某中间件小组，给你提供了一个jar包，你需要集成到你的应用里。假设，它依赖了一个日期类，版本是v1；我们应用也依赖了同名的一个日期类，版本是v2. 两个版本的日期类，方法逻辑的实现，有一些差异。举个例子，中间件提供的jar包中，依赖如下工具包 ...

分类：编程语言时间：2020-07-04 20:43:36 阅读次数：169

Notebook Docker 安装spark环境

环境 Notebook docker环境 https://registry.hub.docker.com/r/jupyter/datascience-notebook/ 下载安装包 spark安装包 http://mirror.bit.edu.cn/apache/spark/spark-3.0.0/ ...

分类：其他好文时间：2020-07-04 18:29:02 阅读次数：83

表单校验及正则表达式

1.常用的表单选择器 input:匹配所有input、textarea、select和button元素 text：匹配所有单行文本框 password：匹配所有密码框 radio：匹配所有单项按钮 checkbox:匹配所有复选框 submit：匹配所有提交按钮 image：匹配所有图像域 rese ...

分类：其他好文时间：2020-07-03 23:37:44 阅读次数：63

Docker中提交任务到Spark集群

1. 背景描述和需求数据分析程序部署在Docker中，有一些分析计算需要使用Spark计算，需要把任务提交到Spark集群计算。接收程序部署在Docker中，主机不在Hadoop集群上。与Spark集群网络互通。需求如下 1、在Docker中可程序化向Spark集群提交任务 2、在Docker ...

分类：其他好文时间：2020-07-03 19:06:43 阅读次数：62

共13476条上一页 1 ... 29 30 31 32 33 ... 1348 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)