RDD加上结构,比如说类名,就可以变成DataFrame,DataFrame,将每一类同这一类的类名绑定在一起就可以称为DataSet. spark sql 就是来处理dataframe和dataset这样的结构数据的。 spark sql使用的时候需要提供spark session环境。 // S ...
分类:
数据库 时间:
2020-07-01 18:40:18
阅读次数:
60
一.Zookeeper基本概念 分布式系统是同时跨越多个物理主机,独立运行的多个软件所组成的系统。分布式系统的协调工作就是通过某种方式,让某个节点的信息能够同步和共享。这依赖于服务进程之间的通信。通信方式有两种: 通过网络进行信息共享 通过共享存储 Zookeeper是作为分布式系统的分布式协同服务 ...
利用字典构建dataframe。 from pyspark.sql import SparkSession,Row spark = SparkSession.builder.appName("get_app_category").enableHiveSupport().config("spark.d ...
分类:
其他好文 时间:
2020-06-30 14:51:17
阅读次数:
59
MapReduce计算模型中,如果两个数据集的关联,并不是通过数据集的一个唯一键和另一个数据集的一个唯一键关联,那么会导致大量数据分发到一个节点计算,使其效率极其低下。 这里的MapReduce并不是仅仅是hive中的mapreduce模型,而是计算思想模型,比如spark、flink等,甚至更广阔 ...
分类:
其他好文 时间:
2020-06-30 00:16:31
阅读次数:
68
遇到的问题: 1. SPARK & HADOOP 不能安装在有空格的目录下 比如 programs file这种 2. 需要设置环境变量 PYSPARK_PYTHON PYSPARK_DRIVER_PYTHON 到3.6.5的环境,不然3.6 3.7会撞车 ...
分类:
其他好文 时间:
2020-06-29 21:28:22
阅读次数:
66
scala 一: scala基础 1 概念 Scala就是一门语言, 是spark的框架语言. 继承了面向对象编程和函数式编程. Scala是一种多范式的编程语言,其设计的初衷是要集成面向对象编程和函数式编程的各种特性。Scala运行于Java平台(Java虚拟机),并兼容现有的Java程序。htt ...
分类:
其他好文 时间:
2020-06-29 18:52:39
阅读次数:
75
在spark中常使用textFile读取文件,默认的是UTF-8编码,但在实际读取文件时,存在不同的文件编码,如果不是UTF-8编码的文件,便不能直接使用这个方法读文件。 以下是2种读取不同编码文件的方法,下面以ANSI的中文简体编码为例,codepage是1252. 方法1:使用decode方法 ...
分类:
其他好文 时间:
2020-06-29 17:21:19
阅读次数:
202
1.Error initializing SparkContext. 20/06/29 05:52:43 INFO yarn.Client: Deleted staging directory hdfs://master:9000/user/hadoop/.sparkStaging/applicat ...
分类:
其他好文 时间:
2020-06-29 15:02:48
阅读次数:
96
用户文件users.dat的格式描述如下: 1. userid::gender::age::occupation::zip-code 2. 用户id、性别、年龄、职业、邮政编码 评级文件ratings.dat的格式描述如下: 1. userid::movieid::rating::timestamp ...
分类:
数据库 时间:
2020-06-29 00:44:59
阅读次数:
129
from:https://juejin.im/post/5ad4b620f265da23a04a0ad0 看原文代码即可知道本质 Deep Learning On Spark 经过刚才的介绍,我们知道spark是一个分布式的通用计算框架,而以tensorflow为代表的deep learning是一 ...
分类:
其他好文 时间:
2020-06-28 13:38:28
阅读次数:
60