搜索关键字：scala bigdata 大數據 spark，搜索到10680个结果！码迷,mamicode.com！

入门大数据---Spark学习

一. Spark简介 1.1 前言 Apache Spark是一个计算系统，它的处理速度很快，很通用，并且能集群部署。可以通过Scala，Java，Python和R来操作API。它还提供了了一些高级工具，比如Spark SQL（通过SQL操作）,MLlib(机器学习用的)，Graphx（图形化操作用 ...

分类：其他好文时间：2020-04-20 11:44:10 阅读次数：80

scala版本的wordcount

package com.atguigu.bigdata.spark import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} object WordCount { def main(args: ...

分类：其他好文时间：2020-04-19 18:04:25 阅读次数：66

小记--------sparkSQL - spark基础知识

1.RDD 是spark的核心数据结构，全称是弹性分布式数据集。本质上是一种分布式的内存抽象，表示一个只读的数据分区集合。一个RDD通常只能通过其他的RDD转换而创建，RDD定义了各种丰富的转换操作，通过转换操作，新的RDD包含了如何从其他RDD衍生所必须的信息。这些信息构成了RDD之间的依赖关系 ...

分类：数据库时间：2020-04-19 01:15:39 阅读次数：108

centos7安装spark集群

安装前准备： 1.3台主机 2.安装jdk 3.免密登陆开始安装spark 1.解压安装包 tar -zxvf spark-2.4.5-bin-hadoop2.7.tgz 2.修改配置文件 cd conf cp spark-env.sh.template spark-env.shcp slaves ...

分类：其他好文时间：2020-04-19 00:31:12 阅读次数：85

scala - 最佳实践(03)：Method名称

方法名称： // 类Method的名称：getXXX，返回值类型不应该是Unit，取一些东西，就应该明确返回值类型，该Method里面不能产生副作用。 def getName:String = {} // 推荐写法 def getName:Unit = {} // 不推荐写法 // 类Method的... ...

分类：其他好文时间：2020-04-18 10:13:45 阅读次数：80

scala - 最佳实践(02) - 代码洁癖

代码洁癖我们写代码给计算机运行，但是读代码的不仅仅是计算机，还有我们的战友（同事），还有未来的战友。我们不能做一个猪队友，所以保证通用的代码规范是必要的。每行代码需要有一个合理的长度避免从左到右有很长的代码，当理解这行代码的时候会占用我们的思维。在印刷制品中，最合理的长度在50-70个字符... ...

分类：其他好文时间：2020-04-18 10:00:09 阅读次数：82

scala - 基础：Scala fold, foldLeft, foldRight

说明从本质上来讲，fold方法读取一种数据，然后返回给你另外一种。 fold和foldLeft和foldRight做的事同样的事情，仅有一点点不同。 fold val numbers = List(1, 2, 3, 4, 5) val res = numbers.fold(10) { (z, i)... ...

分类：其他好文时间：2020-04-18 09:32:45 阅读次数：47

scala - 基础：method 和 function的区别

简单解释方法(method) 在OOP中，方法作用于对象，是对象的行为，Java中的方法这样的，在Scala中的方法(method)也是如此，定义method的基本格式： def 方法名称（参数列表）：返回值 = 方法体函数(function) 在scala中，函数被看做是一等公民，定义函数基本... ...

分类：其他好文时间：2020-04-18 09:28:14 阅读次数：56

Spark on Yarn 流程

有两种模式：cluster 和 driver 区别： cluster 模式：Driver 程序在 YARN 中运行，应用的运行结果不能在客户端显示，所以最好运行那些将结果最终保存在外部存储介质（如 HDFS、Redis、Mysql）而非 stdout 输出的应用程序，客户端的终端显示的仅是作为 YA ...

分类：其他好文时间：2020-04-17 12:30:05 阅读次数：70

Spark shuffle 相关参数调优

问题：如果在 shuffle 的时候没有指定 reduce 的个数，那么会有多少个 reduce？如果不指定 reduce 个数的话，就按默认的走： 1、如果自定义了分区函数 partitioner 的话，就按你的分区函数来走。 2、如果没有定义，那么如果设置了 spark.default.par ...

分类：其他好文时间：2020-04-17 12:23:45 阅读次数：70

共10680条上一页 1 ... 59 60 61 62 63 ... 1068 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)