简介 Yet Another Resource Negotiator ,负责整个集群资源的调度,和管理,支持多框架资源统一调度(HIVE spark flink) 开启yarn 安装hadoop,可以看我之前的博文 这边就不讲了 编辑 etc/hadoop/mapred-site.xml: 添加如下 ...
分类:
其他好文 时间:
2020-01-17 13:08:54
阅读次数:
81
package com.home.spark.ml import org.apache.spark.SparkConf import org.apache.spark.ml.feature.MaxAbsScaler import org.apache.spark.ml.linalg.Vectors ...
分类:
其他好文 时间:
2020-01-17 11:50:03
阅读次数:
223
Spark的安装和使用 安装的是spark-2.1.0-bin-without-hadoop.tgz 修改了Spark的配置文件spark-env.sh 添加了配置信息: export SPARK_DIST_CLASSPATH=$(/usr/local/hadoop/bin/hadoop class ...
分类:
其他好文 时间:
2020-01-16 22:19:38
阅读次数:
93
1.原始数据 Key value Transformations(example: ((1, 2), (3, 4), (3, 6))) 2. flatMap测试示例 执行结果: 3.distinct、reducebykey、groupbykey 4.combineByKey(create Combi ...
分类:
其他好文 时间:
2020-01-16 19:01:28
阅读次数:
97
1.spark 架构, scala,IDE,compiler,plugin,hadoop,resourcemanager,taskscheduler,line,递归函数,memory,shuffle, dag,stage,taskset, sparksql,rdd,dataframe 二维表格,sq ...
分类:
其他好文 时间:
2020-01-16 14:23:34
阅读次数:
118
spark-submit提交任务的参数很多: Usage: spark-submit [options] <app jar | python file> [app arguments] Usage: spark-submit --kill [submission ID] --master [spar ...
分类:
其他好文 时间:
2020-01-16 00:40:04
阅读次数:
169
1.切换目录到/data/目录下,创建名为edu1的目录 cd /data/ mkdir /data/edu1 2.切换目录到/data/edu1目录下,使用wget命令,下载webmagic爬虫项目所依赖的lib包 cd /data/edu1 wget http://192.168.1.100:6 ...
分类:
其他好文 时间:
2020-01-15 18:00:10
阅读次数:
88
Spark SQL:数据库 Spark Streaming:流计算框架 GraphX:图计算框架 使用语言开发: SCALA语言学习(与Java完全兼容) 编程范式: 1,命令式语言:C,C++,Java...基于冯.诺依曼体系结构 2,函数式语言:充分利用多核CPU多线程并发能力 基于λ演算,并发 ...
分类:
其他好文 时间:
2020-01-14 23:47:05
阅读次数:
92
Spark集群环境配置 我们有2个节点,每个节点是一个worker,每个worker上启动一个Executor,其中Driver也跑在master上。每个Executor可使用的核数为2,可用的内存为2g,集群中所有Executor最大可用核数为4。 conf/spark defaults.conf ...
分类:
Web程序 时间:
2020-01-14 23:29:31
阅读次数:
300
最近在学习研究pyspark机器学习算法,执行代码出现以下异常: 19/06/29 10:08:26 ERROR Shell: Failed to locate the winutils binary in the hadoop binary pathjava.io.IOException: Cou ...
分类:
编程语言 时间:
2020-01-14 13:18:30
阅读次数:
110