码迷,mamicode.com
首页 >  
搜索关键字:spark rdd    ( 7287个结果
【2020/1/18】寒假自学——学习进度报告3
紧接上一次。 这次是对于spark安装的总结。 首先便是下载spark。 从官网上可以找到用户提供Hadoop环境的安装包,另外值得一提的是用户也可以无需自己安装hadoop而是选择原装包括了hadoop的安装包。 放入虚拟机之后解压缩,修改权限,之后就可以开始配置了。 配置文件需要配置slaves ...
分类:其他好文   时间:2020-01-18 14:25:52    阅读次数:82
spark教程(四)-SparkContext 和 RDD 算子
SparkContext SparkContext 是在 spark 库中定义的一个类,作为 spark 库的入口点; 它表示连接到 spark,在进行 spark 操作之前必须先创建一个 SparkContext 的实例,并且只能创建一个; 利用 SparkContext 实例创建的对象都是 RD ...
分类:其他好文   时间:2020-01-18 12:44:55    阅读次数:66
寒假学习进度-3
RDD编程初级实践 函数名 目的 示例 结果reduceByKey(f) 合并具有相同key的值 rdd.reduceByKey( ( x,y) => x+y ) { (1,2) , (3,10) }groupByKey() 对具有相同key的值分组 rdd.groupByKey() { (1,2) ...
分类:其他好文   时间:2020-01-17 22:55:25    阅读次数:91
Spark学习(二)scala语法
一,变量 1,基本数据类型 2,基本运算符 3,定义变量 4,复杂变量 (1)定义数组Array: 声明:val aList=new Array[数据类型type](n):声明存储数据类型为type的n个对象,数组初始化为null 声明:val aList=Array(n1,n2,n3...):声明 ...
分类:其他好文   时间:2020-01-17 18:58:40    阅读次数:98
6.Pair RDD操作
1.1 键值对RDD操作 Mapreduce框架是把数据转为key-value,再聚合为key-values的过程。 在Spark里key-value RDD(pair RDD)同样是最常用的,在每个应用中基本都会用到。 pair RDD如何创建?不是通过sc.parallelize 创建 通常应用 ...
分类:其他好文   时间:2020-01-17 13:36:54    阅读次数:96
YARN安装和使用
简介 Yet Another Resource Negotiator ,负责整个集群资源的调度,和管理,支持多框架资源统一调度(HIVE spark flink) 开启yarn 安装hadoop,可以看我之前的博文 这边就不讲了 编辑 etc/hadoop/mapred-site.xml: 添加如下 ...
分类:其他好文   时间:2020-01-17 13:08:54    阅读次数:81
Spark MaxAbsScaler 绝对值最大标准化
package com.home.spark.ml import org.apache.spark.SparkConf import org.apache.spark.ml.feature.MaxAbsScaler import org.apache.spark.ml.linalg.Vectors ...
分类:其他好文   时间:2020-01-17 11:50:03    阅读次数:223
寒假学习进度-2
Spark的安装和使用 安装的是spark-2.1.0-bin-without-hadoop.tgz 修改了Spark的配置文件spark-env.sh 添加了配置信息: export SPARK_DIST_CLASSPATH=$(/usr/local/hadoop/bin/hadoop class ...
分类:其他好文   时间:2020-01-16 22:19:38    阅读次数:93
rdd简单操作
1.原始数据 Key value Transformations(example: ((1, 2), (3, 4), (3, 6))) 2. flatMap测试示例 执行结果: 3.distinct、reducebykey、groupbykey 4.combineByKey(create Combi ...
分类:其他好文   时间:2020-01-16 19:01:28    阅读次数:97
hello world
1.spark 架构, scala,IDE,compiler,plugin,hadoop,resourcemanager,taskscheduler,line,递归函数,memory,shuffle, dag,stage,taskset, sparksql,rdd,dataframe 二维表格,sq ...
分类:其他好文   时间:2020-01-16 14:23:34    阅读次数:118
7287条   上一页 1 ... 75 76 77 78 79 ... 729 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!