一天一段scala代码(七)
为了更好的驾驭spark,最近在学习scala语言特性,主要看《快学scala》,顺便把一些自己认为有用的代码记下来。
package examples
class Angela
{
//包可见性 这里规定了这个方法只能再examples包内可见
//当时在spark的mllib做二次开发时遇到这...
分类:
其他好文 时间:
2015-02-12 20:11:09
阅读次数:
221
SparkInterpreter.java 这个文件里面读取master的属性有些问题:原来代码中“master”属性的获取的地方应该是错了。设置和读取这个属性的对象不是同一个如下修改后从新编译,优先读环境变量。然后设置MASTER环境变量后可正常连接。左边是修改后的,右边是原来的。From Wiz...
分类:
其他好文 时间:
2015-02-12 18:19:03
阅读次数:
192
还在用mahout吗,matlab,R,你已经out了,快来拥抱真正的分布式机器学习神器--spark machine learning,体验它强大的并发式计算能力,卓越的内存式运算性能,支持众多的算法包,以及scala语言的简洁!...
分类:
其他好文 时间:
2015-02-12 16:16:49
阅读次数:
627
spark在这一块的设计是优秀的。图中,app内的SchedulerBackend是可以针对不同资源管理系统实现的,包括没有画出来的ExecutorBackend。这俩兄弟是典型的面向资源的层次上的抽象。另一方面,app内的TaskScheduler是与Task的分配和执行、管理相关的,这部分与下层面向资源的部分是隔离开的,所谓是面向摆放的。
换句话说,SchedulerBackend在1,2,3步之后,已经从集群里,获得了本身app的executors资源。通过它,TaskScheduler可以根据自己的...
分类:
其他好文 时间:
2015-02-12 16:13:13
阅读次数:
165
接下来进行打包,使用Project ?Structure的Artifacts: 使用From modules with dependencies: 选择Main Class: 点击“OK”: 把名称改为SparkDemoJar: 因为每台机器上都安装了Scala和Spark,所以可以把Scala和...
接下来进行打包,使用Project Structure的Artifacts:
使用From modules with dependencies:
选择Main Class:
点击“OK”:
把名称改为SparkDemoJar:
因为每台机器上都安装了Scala和Spark,所以可以把Scala和Spark相关的jar文...
Spark是Apache的顶级项目。项目背景是 Hadoop 的 MapReduce 太挫太慢了,于是有人就做了Spark,目前Spark声称在内存中比Hadoop快100倍,在磁盘上比Hadoop快10倍。...
分类:
其他好文 时间:
2015-02-11 18:41:19
阅读次数:
220
this code will count the number of words in a text file.package geo1.op1;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaPairRD...
分类:
其他好文 时间:
2015-02-11 12:24:08
阅读次数:
139
Spark应用程序处理的大数据多是运行于JVM上的,经常要面对GC优化问题。下面给出由于Linux系统原因导致的GC耗时异常的处理方式:打开Spark的GC日志,在spark-env.sh文件中的SPARK_JAVA_OPTS参数上添加-verbose:gc-XX:+PrintGCDetails-X...
分类:
其他好文 时间:
2015-02-11 00:30:58
阅读次数:
304
说句实话,这次安装spark真是个非常费劲的过程,spark好像确实都需要自己编译,用自己编译好的版本安转,对于一个菜鸟初学者,抱着求职的欲望,却被天朝的墙挡住,就是一个悲剧,这里我转载了一篇别人写好的,编译过程的帖子,我也是按照这个过程做的编译。但我提供一下了链接..
分类:
其他好文 时间:
2015-02-10 16:54:10
阅读次数:
191