搜索关键字：RDD，搜索到1327个结果！码迷,mamicode.com！

SPARK_sql加载,hive以及jdbc使用

sql加载格式或者下面这种直接json加载或者下面这种spark的text加载以及rdd的加载上述记得配置文件加入.mastrt("local")或者spark://master:7077 dataset的生成下面是dataframe 下面是dataset $ bin/spark-she ...

分类：数据库时间：2019-03-29 01:12:06 阅读次数：368

第五周周二练习：实验 5 Spark SQL 编程初级实践

1.题目：源码：数据库数据：结果： 2.编程实现将 RDD 转换为 DataFrame 官网给出两种方法，这里给出一种（使用编程接口，构造一个 schema 并将其应用在已知的 RDD 上。）：源码：结果： ...

分类：数据库时间：2019-03-26 21:13:29 阅读次数：310

spark中reduce和reduceByKey的区别

reduce(binary_function) reduce将RDD中元素前两个传给输入函数，产生一个新的return值，新产生的return值与RDD中下一个元素（第三个元素）组成两个元素，再被传给输入函数，直到最后只有一个值为止。具体过程，RDD有1 2 3 4 5 6 7 8 9 10个元素 ...

分类：其他好文时间：2019-03-26 16:44:18 阅读次数：222

【Spark调优】大表join大表，少数key导致数据倾斜解决方案

【使用场景】两个RDD进行join的时候，如果数据量都比较大，那么此时可以sample看下两个RDD中的key分布情况。如果出现数据倾斜，是因为其中某一个RDD中的少数几个key的数据量过大，而另一个RDD中的所有key都分布比较均匀，此时可以考虑采用本解决方案。【解决方案】【方案优点】对于 ...

分类：其他好文时间：2019-03-26 01:19:15 阅读次数：442

Spark mllib多层分类感知器在情感分析中的实际应用

import org.apache.spark.ml.Pipelineimport org.apache.spark.ml.classification.MultilayerPerceptronClassifierimport org.apache.spark.ml.evaluation.Multi ...

分类：其他好文时间：2019-03-25 17:39:31 阅读次数：153

Resilient Distributed Datasets (RDD)

Resilient Distributed Datasets RDD本质上是一组数据的Spark表示，分布在多台机器上，使用API??让您对其进行操作。RDD可以来自任何数据源，例如文本文件，通过JDBC的数据库等。其定义为：弹性分布式数据集（RDD）是Spark的基本数据结构。它是一个不可变的 ...

分类：其他好文时间：2019-03-25 01:01:07 阅读次数：171

【Spark调优】小表join大表数据倾斜解决方案

【使用场景】对RDD使用join类操作，或者是在Spark SQL中使用join语句时，而且join操作中的一个RDD或表的数据量比较小（例如几百MB或者1~2GB），比较适用此方案。。【解决方案】小表join大表转为小表broadcast+map大表实现。具体为：普通的join是会shuf ...

分类：其他好文时间：2019-03-24 10:02:41 阅读次数：515

01-spark简介、spark部署方式、spark运行方式

1、定义 Spark是由Scala编写的一个实时计算系统。 Spark的API包括Java、Python、R、Scala. 2、功能 Spark Core： ①将分布式数据抽象为弹性分布式数据集（RDD），实现了应用任务调度、RPC、序列化和压缩，并为运行在其上的上层组件提供API。 ②是Spark ...

分类：其他好文时间：2019-03-23 10:40:16 阅读次数：189

【Spark调优】聚合操作数据倾斜解决方案

【使用场景】对RDD执行reduceByKey等聚合类shuffle算子或者在Spark SQL中使用group by语句进行分组聚合时，经过sample或日志、界面定位，发生了数据倾斜。【解决方案】局部聚合+全局聚合，进行两阶段聚合。具体为：将原本相同的key通过附加随机前缀的方式，变成多 ...

分类：其他好文时间：2019-03-23 00:18:20 阅读次数：180

Python发送QQ邮件

用Python来发送一个电子邮件需要以下几个步骤：1.注册一个邮箱（以QQ邮箱为例）2.需要特殊设置，以QQ邮箱为例：受限进入QQ邮箱的设置中心，点击"账户"选项，下滑可以看到"POP3/IMAP/SMTP/Exchange/CardDAV/CalDAV服务"一栏，把"POP3/SMTP服务"打开（ ...

分类：编程语言时间：2019-03-18 00:58:56 阅读次数：388

共1327条上一页 1 ... 37 38 39 40 41 ... 133 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)