码迷,mamicode.com
首页 >  
搜索关键字:spark 安装、介绍    ( 7164个结果
Scala并发编程实战初体验及其在Spark源码中的应用解析之Scala学习笔记-56
package com.leegh.actorimport scala.actors.Actor/** * @author Guohui Li */object First_Actor extends Actor { def act() { for (i <- 1 to 10) { ...
分类:其他好文   时间:2015-09-18 23:05:11    阅读次数:226
spark standalone模式的HA
参照官网文档:High Availability 一共有2中模式,基于文件系统、基于zookeeper。 1.基于文件系统,即将master的信息同步到某个文件目录中,当一个master挂掉之后,会启动宁外一个master读取目录的信息,正在执行...
分类:其他好文   时间:2015-09-18 18:59:16    阅读次数:154
Scala中Iterator允许执行一次
背景 使用spark执行mapPartitionsWithIndex((index,iterator)=>{....}),在执行体中将iterator进行一次迭代后,再次根据iterator执行迭代,iterator迭代体未执行。猜想及验证过程 猜测iterator只能执行一次迭代。 测试例子...
分类:其他好文   时间:2015-09-18 15:18:21    阅读次数:177
Spark里几个重要的概念及术语
学习Spark,有几个重要的术语需要弄清楚。 1. Application 用户在spark上构建的程序,包含了driver程序以及集群上的executors. 2. Driver Program 运行main函数并且创建SparkContext的程序。 客户端的应用程序,D...
分类:其他好文   时间:2015-09-18 12:22:32    阅读次数:200
两款高性能并行计算引擎Storm和Spark比较
Spark基于这样的理念,当数据庞大时,把计算过程传递给数据要比把数据传递给计算过程要更富效率。每个节点存储(或缓存)它的数据集,然后任务被提交给节点。 所以这是把过程传递给数据。这和Hadoop?map/reduce非...
分类:其他好文   时间:2015-09-18 12:13:31    阅读次数:128
编译安装spark
1.官网下载未编译的spark的jar包,选择下载的时候选择source code 2.安装jdk,maven。 3.修改spark根目录下的pom.xml文件(这一步可以忽略)。主要是修改版本。里面有很多版本,只要修改你本身的对应的版本,比如...
分类:其他好文   时间:2015-09-17 17:50:57    阅读次数:162
sort-based shuffle的核心:org.apache.spark.util.collection.ExternalSorter
依据Spark 1.4版在哪里会用到它ExternalSorter是Spark的sort形式的shuffle实现的关键。SortShuffleWriter使用它,把RDD分区中的数据写入文件。 override def write(records: Iterator[Product2[K, V]]....
分类:Web程序   时间:2015-09-17 17:31:48    阅读次数:453
spark取得lzo压缩文件报错 java.lang.ClassNotFoundException
恩,这个问题,反正是我从来没有注意的问题,但今天还是写出来吧 配置信息 hadoop core-site.xml配置 <property> ???<name>io.compression.codecs</name> ????????<value>org.apache.hadoop.io.compress....
分类:编程语言   时间:2015-09-17 15:39:10    阅读次数:419
Scala中隐式转换内幕操作规则揭秘、最佳实践及其在Spark中的应用源码解析之Scala学习笔记-55
package com.leegh.implicitsimport scala.io.Sourceimport java.io.File/** * @author Guohui Li */class RicherFile(val file: File) { def read = Source.fr....
分类:其他好文   时间:2015-09-17 10:04:53    阅读次数:137
[bigdata] Spark RDD整理
1. RDD是什么RDD:Spark的核心概念是RDD (resilient distributed dataset),指的是一个只读的,可分区的弹性分布式数据集,这个数据集的全部或部分可以缓存在内存中,在多次计算间可重复使用。2. 为什么会产生RDD?(1)传统的MapReduce虽然具有自动容错...
分类:其他好文   时间:2015-09-16 19:32:25    阅读次数:256
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!