码迷,mamicode.com
首页 >  
搜索关键字:一键部署 spark    ( 7234个结果
DataFrame DataSet Spark SQL学习
RDD加上结构,比如说类名,就可以变成DataFrame,DataFrame,将每一类同这一类的类名绑定在一起就可以称为DataSet. spark sql 就是来处理dataframe和dataset这样的结构数据的。 spark sql使用的时候需要提供spark session环境。 // S ...
分类:数据库   时间:2020-07-01 18:40:18    阅读次数:60
Zookeeper概述、环境搭建及基本API使用和相关应用场景
一.Zookeeper基本概念 分布式系统是同时跨越多个物理主机,独立运行的多个软件所组成的系统。分布式系统的协调工作就是通过某种方式,让某个节点的信息能够同步和共享。这依赖于服务进程之间的通信。通信方式有两种: 通过网络进行信息共享 通过共享存储 Zookeeper是作为分布式系统的分布式协同服务 ...
分类:Windows程序   时间:2020-07-01 09:20:10    阅读次数:80
通过集合构建RDD或者DataFrame
利用字典构建dataframe。 from pyspark.sql import SparkSession,Row spark = SparkSession.builder.appName("get_app_category").enableHiveSupport().config("spark.d ...
分类:其他好文   时间:2020-06-30 14:51:17    阅读次数:59
MapReduce模型中数据关联使用or语句导致计算效率低下
MapReduce计算模型中,如果两个数据集的关联,并不是通过数据集的一个唯一键和另一个数据集的一个唯一键关联,那么会导致大量数据分发到一个节点计算,使其效率极其低下。 这里的MapReduce并不是仅仅是hive中的mapreduce模型,而是计算思想模型,比如spark、flink等,甚至更广阔 ...
分类:其他好文   时间:2020-06-30 00:16:31    阅读次数:68
COMP9313 Lab1 SPARK pyspark 安装
遇到的问题: 1. SPARK & HADOOP 不能安装在有空格的目录下 比如 programs file这种 2. 需要设置环境变量 PYSPARK_PYTHON PYSPARK_DRIVER_PYTHON 到3.6.5的环境,不然3.6 3.7会撞车 ...
分类:其他好文   时间:2020-06-29 21:28:22    阅读次数:66
scala
scala 一: scala基础 1 概念 Scala就是一门语言, 是spark的框架语言. 继承了面向对象编程和函数式编程. Scala是一种多范式的编程语言,其设计的初衷是要集成面向对象编程和函数式编程的各种特性。Scala运行于Java平台(Java虚拟机),并兼容现有的Java程序。htt ...
分类:其他好文   时间:2020-06-29 18:52:39    阅读次数:75
spark读取文件时对字符编码的支持
在spark中常使用textFile读取文件,默认的是UTF-8编码,但在实际读取文件时,存在不同的文件编码,如果不是UTF-8编码的文件,便不能直接使用这个方法读文件。 以下是2种读取不同编码文件的方法,下面以ANSI的中文简体编码为例,codepage是1252. 方法1:使用decode方法 ...
分类:其他好文   时间:2020-06-29 17:21:19    阅读次数:202
spark-submit提交任务到yarn错误
1.Error initializing SparkContext. 20/06/29 05:52:43 INFO yarn.Client: Deleted staging directory hdfs://master:9000/user/hadoop/.sparkStaging/applicat ...
分类:其他好文   时间:2020-06-29 15:02:48    阅读次数:96
spark之通过sparksql中的SQL语句实现电影点评系统用户行为分析
用户文件users.dat的格式描述如下: 1. userid::gender::age::occupation::zip-code 2. 用户id、性别、年龄、职业、邮政编码 评级文件ratings.dat的格式描述如下: 1. userid::movieid::rating::timestamp ...
分类:数据库   时间:2020-06-29 00:44:59    阅读次数:129
spark上的深度学习——按照雅虎的做法,本质上就是rdd.pipe,推理部分直接代理给tensorflow
from:https://juejin.im/post/5ad4b620f265da23a04a0ad0 看原文代码即可知道本质 Deep Learning On Spark 经过刚才的介绍,我们知道spark是一个分布式的通用计算框架,而以tensorflow为代表的deep learning是一 ...
分类:其他好文   时间:2020-06-28 13:38:28    阅读次数:60
7234条   上一页 1 ... 24 25 26 27 28 ... 724 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!