搜索关键字：一键部署 spark，搜索到7234个结果！码迷,mamicode.com！

DataFrame DataSet Spark SQL学习

RDD加上结构，比如说类名，就可以变成DataFrame,DataFrame，将每一类同这一类的类名绑定在一起就可以称为DataSet. spark sql 就是来处理dataframe和dataset这样的结构数据的。 spark sql使用的时候需要提供spark session环境。 // S ...

分类：数据库时间：2020-07-01 18:40:18 阅读次数：60

Zookeeper概述、环境搭建及基本API使用和相关应用场景

一.Zookeeper基本概念分布式系统是同时跨越多个物理主机，独立运行的多个软件所组成的系统。分布式系统的协调工作就是通过某种方式，让某个节点的信息能够同步和共享。这依赖于服务进程之间的通信。通信方式有两种：通过网络进行信息共享通过共享存储 Zookeeper是作为分布式系统的分布式协同服务 ...

分类：Windows程序时间：2020-07-01 09:20:10 阅读次数：80

通过集合构建RDD或者DataFrame

利用字典构建dataframe。 from pyspark.sql import SparkSession,Row spark = SparkSession.builder.appName("get_app_category").enableHiveSupport().config("spark.d ...

分类：其他好文时间：2020-06-30 14:51:17 阅读次数：59

MapReduce模型中数据关联使用or语句导致计算效率低下

MapReduce计算模型中，如果两个数据集的关联，并不是通过数据集的一个唯一键和另一个数据集的一个唯一键关联，那么会导致大量数据分发到一个节点计算，使其效率极其低下。这里的MapReduce并不是仅仅是hive中的mapreduce模型，而是计算思想模型，比如spark、flink等，甚至更广阔 ...

分类：其他好文时间：2020-06-30 00:16:31 阅读次数：68

COMP9313 Lab1 SPARK pyspark 安装

遇到的问题： 1. SPARK & HADOOP 不能安装在有空格的目录下比如 programs file这种 2. 需要设置环境变量 PYSPARK_PYTHON PYSPARK_DRIVER_PYTHON 到3.6.5的环境，不然3.6 3.7会撞车 ...

分类：其他好文时间：2020-06-29 21:28:22 阅读次数：66

scala

scala 一: scala基础 1 概念 Scala就是一门语言, 是spark的框架语言. 继承了面向对象编程和函数式编程. Scala是一种多范式的编程语言，其设计的初衷是要集成面向对象编程和函数式编程的各种特性。Scala运行于Java平台（Java虚拟机），并兼容现有的Java程序。htt ...

分类：其他好文时间：2020-06-29 18:52:39 阅读次数：75

spark读取文件时对字符编码的支持

在spark中常使用textFile读取文件，默认的是UTF-8编码，但在实际读取文件时，存在不同的文件编码，如果不是UTF-8编码的文件，便不能直接使用这个方法读文件。以下是2种读取不同编码文件的方法，下面以ANSI的中文简体编码为例，codepage是1252. 方法1：使用decode方法 ...

分类：其他好文时间：2020-06-29 17:21:19 阅读次数：202

spark-submit提交任务到yarn错误

1.Error initializing SparkContext. 20/06/29 05:52:43 INFO yarn.Client: Deleted staging directory hdfs://master:9000/user/hadoop/.sparkStaging/applicat ...

分类：其他好文时间：2020-06-29 15:02:48 阅读次数：96

spark之通过sparksql中的SQL语句实现电影点评系统用户行为分析

用户文件users.dat的格式描述如下： 1. userid::gender::age::occupation::zip-code 2. 用户id、性别、年龄、职业、邮政编码评级文件ratings.dat的格式描述如下： 1. userid::movieid::rating::timestamp ...

分类：数据库时间：2020-06-29 00:44:59 阅读次数：129

spark上的深度学习——按照雅虎的做法，本质上就是rdd.pipe，推理部分直接代理给tensorflow

from:https://juejin.im/post/5ad4b620f265da23a04a0ad0 看原文代码即可知道本质 Deep Learning On Spark 经过刚才的介绍，我们知道spark是一个分布式的通用计算框架，而以tensorflow为代表的deep learning是一 ...

分类：其他好文时间：2020-06-28 13:38:28 阅读次数：60

共7234条上一页 1 ... 24 25 26 27 28 ... 724 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)