任何一个大数据分析的软件,都需要一个强大的数据拉取组件、数据仓储系统、数据处理引擎、任务调度引擎和流程设计界面。Hadoop和Spark的重点是在数据的存储和任务调度,R的重点是数据分析引擎。数据拉取组件和流程...
分类:
其他好文 时间:
2015-08-12 15:06:37
阅读次数:
559
Spark可以通过SBT和Maven两种方式进行编译,再通过make-distribution.sh脚本生成部署包。SBT编译需要安装git工具,而Maven安装则需要maven工具,两种方式均需要在联网下进行,通过比较发现SBT编译速度较慢(原因有可能是1、时间不一样,SBT是白天编译,Maven是深夜进行的,获取依赖包速度不同 2、maven下载大文件是多线程进行,而SBT是单进程)...
分类:
其他好文 时间:
2015-08-12 09:02:31
阅读次数:
110
【注】该系列文章以及使用到安装包/测试数据 可以在《倾情大奉送--Spark入门实战系列》获取1、编译SparkSpark可以通过SBT和Maven两种方式进行编译,再通过make-distribution.sh脚本生成部署包。SBT编译需要安装git工具,而Maven安装则需要maven工具,两种...
分类:
其他好文 时间:
2015-08-12 08:57:45
阅读次数:
131
最近 有网友看我的“整合Kafka到Spark Streaming——代码示例和挑战”文章,
讲 kafka对象 放到 pool 并通过broadcast广播出去:
然后 在开发测试阶段 报错如下:
然后就找我,说“代码都跟你的差不多呀,为什么就报这个错呢?”
其实 对于广播操作,spark 肯定要序列号的,还有尽量不要把大对象广播出去,
后来 把代码要过来看了下,发现 creat...
分类:
编程语言 时间:
2015-08-11 16:14:24
阅读次数:
173
研究spark的目的之一就是要取代MR,目前我司MR的一个典型应用场景即为生成Avro文件,然后加载到HIVE表里,所以如何在Spark中生成Avro文件,就是必然之路了。我本人由于对java不熟,对hadoop的各个框架也知之寥寥,所以耗费了五六天的时间才搞明白怎么在spark中生成avro文件。...
分类:
其他好文 时间:
2015-08-11 16:02:42
阅读次数:
454
对于Array(('a',1), ('a',2), ('b',3), ('a',4), ('a',15))如何计算平均值呢:原来通过计算两边,第一遍计算总次数val a = sc.parallelize(data).map(x=>1)val b = sc.parallelize(data).map(...
分类:
其他好文 时间:
2015-08-11 14:06:57
阅读次数:
111
今天来学习一下scala中List的构造和类型约束等内容。让我们来看一下代码package scala.learn/*** @author zhang*/abstract class Big_Dataclass Hadoop extends Big_Dataclass Spark extends B...
分类:
其他好文 时间:
2015-08-10 23:50:41
阅读次数:
148
原文地址:http://mzorro.me/post/55c85d06e40daa9d022f3cbdWordCount可以说是分布式数据处理框架的”Hello World”,我们可以以它为例来剖析一个Spark Job的执行全过程。我们要执行的代码为:sc.textFile("hdfs://......
分类:
其他好文 时间:
2015-08-10 21:50:06
阅读次数:
1664
在用spark-submit提交作业时,用sbt package打包好的jar程序,可以很好的运行在client模式,当在cluster模式,一直报错:Exception in thread "main" java.lang.ClassNotFoundException。决定利用sbt assemb...
分类:
编程语言 时间:
2015-08-10 19:34:35
阅读次数:
184
http://mt.sohu.com/20150604/n414449770.shtmlhttp://my.oschina.net/mkh/blog/330386http://itindex.net/detail/51632-spark-%E7%BB%8F%E9%AA%8Chttp://itinde...
分类:
其他好文 时间:
2015-08-10 17:25:17
阅读次数:
122