码迷,mamicode.com
首页 >  
搜索关键字:spark 安装、介绍    ( 7164个结果
NiFi-面向流程的大数据处理框架
任何一个大数据分析的软件,都需要一个强大的数据拉取组件、数据仓储系统、数据处理引擎、任务调度引擎和流程设计界面。Hadoop和Spark的重点是在数据的存储和任务调度,R的重点是数据分析引擎。数据拉取组件和流程...
分类:其他好文   时间:2015-08-12 15:06:37    阅读次数:559
Spark入门实战系列--2.Spark编译与部署(下)--Spark编译安装
Spark可以通过SBT和Maven两种方式进行编译,再通过make-distribution.sh脚本生成部署包。SBT编译需要安装git工具,而Maven安装则需要maven工具,两种方式均需要在联网下进行,通过比较发现SBT编译速度较慢(原因有可能是1、时间不一样,SBT是白天编译,Maven是深夜进行的,获取依赖包速度不同 2、maven下载大文件是多线程进行,而SBT是单进程)...
分类:其他好文   时间:2015-08-12 09:02:31    阅读次数:110
Spark入门实战系列--2.Spark编译与部署(下)--Spark编译安装
【注】该系列文章以及使用到安装包/测试数据 可以在《倾情大奉送--Spark入门实战系列》获取1、编译SparkSpark可以通过SBT和Maven两种方式进行编译,再通过make-distribution.sh脚本生成部署包。SBT编译需要安装git工具,而Maven安装则需要maven工具,两种...
分类:其他好文   时间:2015-08-12 08:57:45    阅读次数:131
com.esotericsoftware.kryo.kryoexception java.util.ConcurentModificationException
最近 有网友看我的“整合Kafka到Spark Streaming——代码示例和挑战”文章, 讲 kafka对象 放到 pool 并通过broadcast广播出去: 然后 在开发测试阶段 报错如下: 然后就找我,说“代码都跟你的差不多呀,为什么就报这个错呢?” 其实 对于广播操作,spark 肯定要序列号的,还有尽量不要把大对象广播出去, 后来 把代码要过来看了下,发现 creat...
分类:编程语言   时间:2015-08-11 16:14:24    阅读次数:173
Spark中如何生成Avro文件
研究spark的目的之一就是要取代MR,目前我司MR的一个典型应用场景即为生成Avro文件,然后加载到HIVE表里,所以如何在Spark中生成Avro文件,就是必然之路了。我本人由于对java不熟,对hadoop的各个框架也知之寥寥,所以耗费了五六天的时间才搞明白怎么在spark中生成avro文件。...
分类:其他好文   时间:2015-08-11 16:02:42    阅读次数:454
spark计算平均值
对于Array(('a',1), ('a',2), ('b',3), ('a',4), ('a',15))如何计算平均值呢:原来通过计算两边,第一遍计算总次数val a = sc.parallelize(data).map(x=>1)val b = sc.parallelize(data).map(...
分类:其他好文   时间:2015-08-11 14:06:57    阅读次数:111
第81讲:Scala中List的构造和类型约束逆变、协变、下界详解
今天来学习一下scala中List的构造和类型约束等内容。让我们来看一下代码package scala.learn/*** @author zhang*/abstract class Big_Dataclass Hadoop extends Big_Dataclass Spark extends B...
分类:其他好文   时间:2015-08-10 23:50:41    阅读次数:148
从源码剖析一个Spark WordCount Job执行的全过程
原文地址:http://mzorro.me/post/55c85d06e40daa9d022f3cbdWordCount可以说是分布式数据处理框架的”Hello World”,我们可以以它为例来剖析一个Spark Job的执行全过程。我们要执行的代码为:sc.textFile("hdfs://......
分类:其他好文   时间:2015-08-10 21:50:06    阅读次数:1664
sbt assembly a fat jar for spark-submit cluster model
在用spark-submit提交作业时,用sbt package打包好的jar程序,可以很好的运行在client模式,当在cluster模式,一直报错:Exception in thread "main" java.lang.ClassNotFoundException。决定利用sbt assemb...
分类:编程语言   时间:2015-08-10 19:34:35    阅读次数:184
Spark 性能调优-内存设置-GC设置
http://mt.sohu.com/20150604/n414449770.shtmlhttp://my.oschina.net/mkh/blog/330386http://itindex.net/detail/51632-spark-%E7%BB%8F%E9%AA%8Chttp://itinde...
分类:其他好文   时间:2015-08-10 17:25:17    阅读次数:122
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!