码迷,mamicode.com
首页 >  
搜索关键字:spark 安装、介绍    ( 7164个结果
一天一段scala代码(七)
一天一段scala代码(七)        为了更好的驾驭spark,最近在学习scala语言特性,主要看《快学scala》,顺便把一些自己认为有用的代码记下来。 package examples class Angela { //包可见性 这里规定了这个方法只能再examples包内可见 //当时在spark的mllib做二次开发时遇到这...
分类:其他好文   时间:2015-02-12 20:11:09    阅读次数:221
zeppelin 无法连接一个已有的standalone模式的spark集群
SparkInterpreter.java 这个文件里面读取master的属性有些问题:原来代码中“master”属性的获取的地方应该是错了。设置和读取这个属性的对象不是同一个如下修改后从新编译,优先读环境变量。然后设置MASTER环境变量后可正常连接。左边是修改后的,右边是原来的。From Wiz...
分类:其他好文   时间:2015-02-12 18:19:03    阅读次数:192
Spark 机器学习系列(一):入门介绍
还在用mahout吗,matlab,R,你已经out了,快来拥抱真正的分布式机器学习神器--spark machine learning,体验它强大的并发式计算能力,卓越的内存式运算性能,支持众多的算法包,以及scala语言的简洁!...
分类:其他好文   时间:2015-02-12 16:16:49    阅读次数:627
梳理对Spark Standalone的理解
spark在这一块的设计是优秀的。图中,app内的SchedulerBackend是可以针对不同资源管理系统实现的,包括没有画出来的ExecutorBackend。这俩兄弟是典型的面向资源的层次上的抽象。另一方面,app内的TaskScheduler是与Task的分配和执行、管理相关的,这部分与下层面向资源的部分是隔离开的,所谓是面向摆放的。 换句话说,SchedulerBackend在1,2,3步之后,已经从集群里,获得了本身app的executors资源。通过它,TaskScheduler可以根据自己的...
分类:其他好文   时间:2015-02-12 16:13:13    阅读次数:165
Spark API编程动手实战-08-基于IDEA使用Spark API开发Spark程序-02
接下来进行打包,使用Project ?Structure的Artifacts: 使用From modules with dependencies: 选择Main Class: 点击“OK”: 把名称改为SparkDemoJar: 因为每台机器上都安装了Scala和Spark,所以可以把Scala和...
分类:Windows程序   时间:2015-02-12 14:17:04    阅读次数:220
Spark API编程动手实战-08-基于IDEA使用Spark API开发Spark程序-02
接下来进行打包,使用Project  Structure的Artifacts: 使用From modules with dependencies: 选择Main Class: 点击“OK”: 把名称改为SparkDemoJar: 因为每台机器上都安装了Scala和Spark,所以可以把Scala和Spark相关的jar文...
分类:Windows程序   时间:2015-02-12 14:05:38    阅读次数:176
Alex 的 Hadoop 菜鸟教程: 第17课 更快速的MapReduce - Spark
Spark是Apache的顶级项目。项目背景是 Hadoop 的 MapReduce 太挫太慢了,于是有人就做了Spark,目前Spark声称在内存中比Hadoop快100倍,在磁盘上比Hadoop快10倍。...
分类:其他好文   时间:2015-02-11 18:41:19    阅读次数:220
Spark first example
this code will count the number of words in a text file.package geo1.op1;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaPairRD...
分类:其他好文   时间:2015-02-11 12:24:08    阅读次数:139
Spark处理数据出现大量GC导致处理性能变慢的原因及解决方案
Spark应用程序处理的大数据多是运行于JVM上的,经常要面对GC优化问题。下面给出由于Linux系统原因导致的GC耗时异常的处理方式:打开Spark的GC日志,在spark-env.sh文件中的SPARK_JAVA_OPTS参数上添加-verbose:gc-XX:+PrintGCDetails-X...
分类:其他好文   时间:2015-02-11 00:30:58    阅读次数:304
spark-1.2.0编译资料
说句实话,这次安装spark真是个非常费劲的过程,spark好像确实都需要自己编译,用自己编译好的版本安转,对于一个菜鸟初学者,抱着求职的欲望,却被天朝的墙挡住,就是一个悲剧,这里我转载了一篇别人写好的,编译过程的帖子,我也是按照这个过程做的编译。但我提供一下了链接..
分类:其他好文   时间:2015-02-10 16:54:10    阅读次数:191
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!