一、spark启动有standalong、yarn、cluster,具体的他们之间的区别这里不在赘述,请参考官网。本文采用的是standalong模式进行搭建及将接使用。 1、首先去官网下载需要的spark版本: http://spark.apache.org/downloads.html 本例使用 ...
分类:
其他好文 时间:
2017-11-06 21:12:07
阅读次数:
203
配好了Spark集群后,先用pyspark写了两个小例子,但是发现Tab键没有提示,于是打算转到scala上试试,在spark-shell下有提示了,但是发现不能退格,而且提示也不是复写,而是追加,这样根本就没法写程序. 解决办法: 1.打开会话选项 2.终端-仿真 在终端中选择Linux 3.映射 ...
分类:
系统相关 时间:
2017-10-14 16:52:24
阅读次数:
248
1、sc.version2、集群对象:SparkContext;获得Spark集群的SparkContext对象,是构造Spark应用的第一步!SparkContext对象代表 整个 Spark集群,是Spark框架 功能的入口 ,可以用来在集群中创建RDD、累加器变量和广播变量。SparkCont ...
Spark的一大好处就是可以通过增加机器数量并使用集群模式运行,来扩展计算能力。Spark可以在各种各样的集群管理器(Hadoop YARN , Apache Mesos , 还有Spark自带的独立集群管理器)上运行,所以Spark应用既能够适应专用集群,又能用于共享的云计算环境。 Spark运行 ...
分类:
其他好文 时间:
2017-09-18 10:53:22
阅读次数:
151
1,Error: Could not find or load main class namenode-format 这个是错误的把hadoop namenode -format 命令写成hadoop namenode-format 2, WARN util.NativeCodeLoader: Un ...
分类:
其他好文 时间:
2017-09-17 11:36:14
阅读次数:
161
spark简述 sparkContext在Spark应用程序的执行过程中起着主导作用,它负责与程序和spark集群进行交互,包括申请集群资源、创建RDD、accumulators及广播变量等。sparkContext与集群资源管理器、work节点交互图如下: 官网对图下面几点说明: (1)不同的Sp ...
分类:
其他好文 时间:
2017-09-07 13:23:41
阅读次数:
260
一、问题: 最近在spark集群上做一个项目,打包提交jar包时,出现了unsupported major.minor version 52.0的报错,而在local模式运行却能正常运行! 二、错误原因: 查阅诸多资料得出的结论就是:项目编译得到的class文件的版本高于运行环境中jre的版本号,高 ...
分类:
编程语言 时间:
2017-09-04 11:54:29
阅读次数:
244
SparkContext概述 sparkContext是所有的spark应用程序的发动机引擎,就是说你想要运行spark程序就必须创建一个,不然就没的玩了。sparkContext负责初始化很多东西,当其初始化完毕以后,才能像spark集群提交任务,这个地方还有另一个管理配置的类sparkConf, ...
分类:
其他好文 时间:
2017-09-03 11:15:23
阅读次数:
196
spark集群部署好之后,运行start-all.sh,可以成功运行,但是运行shell出错,显示超时 由于netty是spark通信框架,通信超时所以产生问题。 解决方法:1.ip6可能是一个可能原因,把::1也就是ip6先注释掉试试(不行) 2.设置下超时时间(靠谱):SparkConf: co ...
分类:
其他好文 时间:
2017-08-23 20:48:21
阅读次数:
242
SparkContext 和 SparkConf 任何Spark程序都是SparkContext开始的,SparkContext的初始化需要一个SparkConf对象,SparkConf包含了Spark集群配置的各种参数。 初始化后,就可以使用SparkContext对象所包含的各种方法来创建和操作 ...
分类:
其他好文 时间:
2017-08-12 20:25:38
阅读次数:
315