今天碰到的一个 spark问题,困扰好久才解决首先我的spark集群部署使用的部署包是官方提供的spark-1.0.2-bin-hadoop2.tgz部署在hadoop集群上。在运行java jar包的时候使用命令java -jar chinahadoop-1.0-SNAPSHOT.jar chin...
分类:
编程语言 时间:
2014-08-24 08:04:42
阅读次数:
321
部署spark集群使用spark包spark-1.0.2-bin-hadoop2.tgz在spark-shell和java -jar访问hadoop hdfs上的文件写法是有区别的在spark-shell直接使用/user/ning/1.txt 之类的路径,不用加hdfs://host:port 的...
分类:
编程语言 时间:
2014-08-24 08:04:12
阅读次数:
261
1.Spark Streaming 代码分析:
1.1 示例代码DEMO:
实时计算的WorldCount:
import org.apache.spark.streaming.{Seconds, StreamingContext}
import org.apache.spark.streaming.StreamingContext._
import org....
分类:
其他好文 时间:
2014-08-24 00:24:21
阅读次数:
615
在Spark中,每一个RDD是对于数据集在某一状态下的表现形式,比如说:map、filter、group by等都算一次操作,这个状态有可能是从前一状态转换而来的;因此换句话说一个RDD可能与之前的RDD(s)有依赖关系;RDD之间存在依赖关系;根据依赖关系的不同,可以将RDD分成两种不同的类型:宽...
分类:
其他好文 时间:
2014-08-21 16:39:14
阅读次数:
223
Spark亚太研究院100期公益大讲堂 【第8期互动问答分享】
分类:
其他好文 时间:
2014-08-21 13:04:34
阅读次数:
214
一.环境配置Myeclipse中虽然已经集成了maven插件,但是由于这个插件版本较低,建立maven project会出现错误。解决办法:自己到官网http://maven.apache.org/下载最新版本的maven插件,解压,在环境变量中注册。新建环境变量M2_HOME在PATH里加入mav...
分类:
编程语言 时间:
2014-08-20 20:59:12
阅读次数:
279
随着Spark的逐渐成熟完善, 越来越多的可配置参数被添加到Spark中来, 本文试图通过阐述这其中部分参数的工作原理和配置思路, 和大家一起探讨一下如何根据实际场合对Spark进行配置优化。-storage篇...
分类:
其他好文 时间:
2014-08-19 16:42:55
阅读次数:
207
随着Spark的逐渐成熟完善, 越来越多的可配置参数被添加到Spark中来, 本文试图通过阐述这其中部分参数的工作原理和配置思路, 和大家一起探讨一下如何根据实际场合对Spark进行配置优化。- 压缩与序列化篇...
分类:
其他好文 时间:
2014-08-19 16:41:35
阅读次数:
324
随着Spark的逐渐成熟完善, 越来越多的可配置参数被添加到Spark中来, 本文试图通过阐述这其中部分参数的工作原理和配置思路, 和大家一起探讨一下如何根据实际场合对Spark进行配置优化。- 任务调度篇...
分类:
其他好文 时间:
2014-08-19 16:41:25
阅读次数:
311