SparkContext SparkContext 是在 spark 库中定义的一个类,作为 spark 库的入口点; 它表示连接到 spark,在进行 spark 操作之前必须先创建一个 SparkContext 的实例,并且只能创建一个; 利用 SparkContext 实例创建的对象都是 RD ...
分类:
其他好文 时间:
2020-01-18 12:44:55
阅读次数:
66
一,变量 1,基本数据类型 2,基本运算符 3,定义变量 4,复杂变量 (1)定义数组Array: 声明:val aList=new Array[数据类型type](n):声明存储数据类型为type的n个对象,数组初始化为null 声明:val aList=Array(n1,n2,n3...):声明 ...
分类:
其他好文 时间:
2020-01-17 18:58:40
阅读次数:
98
1.1 键值对RDD操作 Mapreduce框架是把数据转为key-value,再聚合为key-values的过程。 在Spark里key-value RDD(pair RDD)同样是最常用的,在每个应用中基本都会用到。 pair RDD如何创建?不是通过sc.parallelize 创建 通常应用 ...
分类:
其他好文 时间:
2020-01-17 13:36:54
阅读次数:
96
简介 Yet Another Resource Negotiator ,负责整个集群资源的调度,和管理,支持多框架资源统一调度(HIVE spark flink) 开启yarn 安装hadoop,可以看我之前的博文 这边就不讲了 编辑 etc/hadoop/mapred-site.xml: 添加如下 ...
分类:
其他好文 时间:
2020-01-17 13:08:54
阅读次数:
81
package com.home.spark.ml import org.apache.spark.SparkConf import org.apache.spark.ml.feature.MaxAbsScaler import org.apache.spark.ml.linalg.Vectors ...
分类:
其他好文 时间:
2020-01-17 11:50:03
阅读次数:
223
Spark的安装和使用 安装的是spark-2.1.0-bin-without-hadoop.tgz 修改了Spark的配置文件spark-env.sh 添加了配置信息: export SPARK_DIST_CLASSPATH=$(/usr/local/hadoop/bin/hadoop class ...
分类:
其他好文 时间:
2020-01-16 22:19:38
阅读次数:
93
1.原始数据 Key value Transformations(example: ((1, 2), (3, 4), (3, 6))) 2. flatMap测试示例 执行结果: 3.distinct、reducebykey、groupbykey 4.combineByKey(create Combi ...
分类:
其他好文 时间:
2020-01-16 19:01:28
阅读次数:
97
1.spark 架构, scala,IDE,compiler,plugin,hadoop,resourcemanager,taskscheduler,line,递归函数,memory,shuffle, dag,stage,taskset, sparksql,rdd,dataframe 二维表格,sq ...
分类:
其他好文 时间:
2020-01-16 14:23:34
阅读次数:
118
Azure Media Services -可提供视频点播(VOD) ...
分类:
其他好文 时间:
2020-01-16 11:04:43
阅读次数:
79
spark-submit提交任务的参数很多: Usage: spark-submit [options] <app jar | python file> [app arguments] Usage: spark-submit --kill [submission ID] --master [spar ...
分类:
其他好文 时间:
2020-01-16 00:40:04
阅读次数:
169