package com.leegh.actorimport scala.actors.Actor/** * @author Guohui Li */object First_Actor extends Actor { def act() { for (i <- 1 to 10) { ...
分类:
其他好文 时间:
2015-09-18 23:05:11
阅读次数:
226
参照官网文档:High Availability 一共有2中模式,基于文件系统、基于zookeeper。 1.基于文件系统,即将master的信息同步到某个文件目录中,当一个master挂掉之后,会启动宁外一个master读取目录的信息,正在执行...
分类:
其他好文 时间:
2015-09-18 18:59:16
阅读次数:
154
背景 使用spark执行mapPartitionsWithIndex((index,iterator)=>{....}),在执行体中将iterator进行一次迭代后,再次根据iterator执行迭代,iterator迭代体未执行。猜想及验证过程 猜测iterator只能执行一次迭代。 测试例子...
分类:
其他好文 时间:
2015-09-18 15:18:21
阅读次数:
177
学习Spark,有几个重要的术语需要弄清楚。 1. Application 用户在spark上构建的程序,包含了driver程序以及集群上的executors. 2. Driver Program 运行main函数并且创建SparkContext的程序。 客户端的应用程序,D...
分类:
其他好文 时间:
2015-09-18 12:22:32
阅读次数:
200
Spark基于这样的理念,当数据庞大时,把计算过程传递给数据要比把数据传递给计算过程要更富效率。每个节点存储(或缓存)它的数据集,然后任务被提交给节点。 所以这是把过程传递给数据。这和Hadoop?map/reduce非...
分类:
其他好文 时间:
2015-09-18 12:13:31
阅读次数:
128
1.官网下载未编译的spark的jar包,选择下载的时候选择source code 2.安装jdk,maven。 3.修改spark根目录下的pom.xml文件(这一步可以忽略)。主要是修改版本。里面有很多版本,只要修改你本身的对应的版本,比如...
分类:
其他好文 时间:
2015-09-17 17:50:57
阅读次数:
162
依据Spark 1.4版在哪里会用到它ExternalSorter是Spark的sort形式的shuffle实现的关键。SortShuffleWriter使用它,把RDD分区中的数据写入文件。 override def write(records: Iterator[Product2[K, V]]....
分类:
Web程序 时间:
2015-09-17 17:31:48
阅读次数:
453
恩,这个问题,反正是我从来没有注意的问题,但今天还是写出来吧 配置信息 hadoop core-site.xml配置 <property>
???<name>io.compression.codecs</name>
????????<value>org.apache.hadoop.io.compress....
分类:
编程语言 时间:
2015-09-17 15:39:10
阅读次数:
419
package com.leegh.implicitsimport scala.io.Sourceimport java.io.File/** * @author Guohui Li */class RicherFile(val file: File) { def read = Source.fr....
分类:
其他好文 时间:
2015-09-17 10:04:53
阅读次数:
137
1. RDD是什么RDD:Spark的核心概念是RDD (resilient distributed dataset),指的是一个只读的,可分区的弹性分布式数据集,这个数据集的全部或部分可以缓存在内存中,在多次计算间可重复使用。2. 为什么会产生RDD?(1)传统的MapReduce虽然具有自动容错...
分类:
其他好文 时间:
2015-09-16 19:32:25
阅读次数:
256