一,变量 1,基本数据类型 2,基本运算符 3,定义变量 4,复杂变量 (1)定义数组Array: 声明:val aList=new Array[数据类型type](n):声明存储数据类型为type的n个对象,数组初始化为null 声明:val aList=Array(n1,n2,n3...):声明 ...
分类:
其他好文 时间:
2020-01-17 18:58:40
阅读次数:
98
1.1 键值对RDD操作 Mapreduce框架是把数据转为key-value,再聚合为key-values的过程。 在Spark里key-value RDD(pair RDD)同样是最常用的,在每个应用中基本都会用到。 pair RDD如何创建?不是通过sc.parallelize 创建 通常应用 ...
分类:
其他好文 时间:
2020-01-17 13:36:54
阅读次数:
96
简介 Yet Another Resource Negotiator ,负责整个集群资源的调度,和管理,支持多框架资源统一调度(HIVE spark flink) 开启yarn 安装hadoop,可以看我之前的博文 这边就不讲了 编辑 etc/hadoop/mapred-site.xml: 添加如下 ...
分类:
其他好文 时间:
2020-01-17 13:08:54
阅读次数:
81
package com.home.spark.ml import org.apache.spark.SparkConf import org.apache.spark.ml.feature.MaxAbsScaler import org.apache.spark.ml.linalg.Vectors ...
分类:
其他好文 时间:
2020-01-17 11:50:03
阅读次数:
223
Spark的安装和使用 安装的是spark-2.1.0-bin-without-hadoop.tgz 修改了Spark的配置文件spark-env.sh 添加了配置信息: export SPARK_DIST_CLASSPATH=$(/usr/local/hadoop/bin/hadoop class ...
分类:
其他好文 时间:
2020-01-16 22:19:38
阅读次数:
93
1.原始数据 Key value Transformations(example: ((1, 2), (3, 4), (3, 6))) 2. flatMap测试示例 执行结果: 3.distinct、reducebykey、groupbykey 4.combineByKey(create Combi ...
分类:
其他好文 时间:
2020-01-16 19:01:28
阅读次数:
97
1.spark 架构, scala,IDE,compiler,plugin,hadoop,resourcemanager,taskscheduler,line,递归函数,memory,shuffle, dag,stage,taskset, sparksql,rdd,dataframe 二维表格,sq ...
分类:
其他好文 时间:
2020-01-16 14:23:34
阅读次数:
118
Scala: 1 object HelloWorld { 2 def main(args: Array[String]){ 3 println("Hello, World!") 4 } 5 } Java: 1 public class Hello 2 { 3 public static void m ...
分类:
编程语言 时间:
2020-01-16 12:42:00
阅读次数:
64
spark-submit提交任务的参数很多: Usage: spark-submit [options] <app jar | python file> [app arguments] Usage: spark-submit --kill [submission ID] --master [spar ...
分类:
其他好文 时间:
2020-01-16 00:40:04
阅读次数:
169
今天主要完成了Scala的配置并学习了Scala的编程基础实践 首先在Scala中,主函数的定义是 def main(args: Array[String]) 这点与java是不同的,java中是静态方法,而Scala中则必须使用对象方法 Scala中变量的定义和使用: Scala中的变量分为两种v ...
分类:
其他好文 时间:
2020-01-15 22:52:39
阅读次数:
81