搜索关键字：spark 安装、介绍，搜索到7164个结果！码迷,mamicode.com！

Scala并发编程实战初体验及其在Spark源码中的应用解析之Scala学习笔记-56

package com.leegh.actorimport scala.actors.Actor/** * @author Guohui Li */object First_Actor extends Actor { def act() { for (i <- 1 to 10) { ...

分类：其他好文时间：2015-09-18 23:05:11 阅读次数：226

spark standalone模式的HA

参照官网文档：High Availability 一共有2中模式，基于文件系统、基于zookeeper。 1.基于文件系统，即将master的信息同步到某个文件目录中，当一个master挂掉之后，会启动宁外一个master读取目录的信息，正在执行...

分类：其他好文时间：2015-09-18 18:59:16 阅读次数：154

Scala中Iterator允许执行一次

背景使用spark执行mapPartitionsWithIndex((index,iterator)=>{....})，在执行体中将iterator进行一次迭代后，再次根据iterator执行迭代，iterator迭代体未执行。猜想及验证过程猜测iterator只能执行一次迭代。测试例子...

分类：其他好文时间：2015-09-18 15:18:21 阅读次数：177

Spark里几个重要的概念及术语

学习Spark，有几个重要的术语需要弄清楚。 1. Application 用户在spark上构建的程序，包含了driver程序以及集群上的executors. 2. Driver Program 运行main函数并且创建SparkContext的程序。客户端的应用程序，D...

分类：其他好文时间：2015-09-18 12:22:32 阅读次数：200

两款高性能并行计算引擎Storm和Spark比较

Spark基于这样的理念，当数据庞大时，把计算过程传递给数据要比把数据传递给计算过程要更富效率。每个节点存储（或缓存）它的数据集，然后任务被提交给节点。所以这是把过程传递给数据。这和Hadoop?map/reduce非...

分类：其他好文时间：2015-09-18 12:13:31 阅读次数：128

编译安装spark

1.官网下载未编译的spark的jar包，选择下载的时候选择source code 2.安装jdk，maven。 3.修改spark根目录下的pom.xml文件（这一步可以忽略）。主要是修改版本。里面有很多版本，只要修改你本身的对应的版本，比如...

分类：其他好文时间：2015-09-17 17:50:57 阅读次数：162

sort-based shuffle的核心：org.apache.spark.util.collection.ExternalSorter

依据Spark 1.4版在哪里会用到它ExternalSorter是Spark的sort形式的shuffle实现的关键。SortShuffleWriter使用它，把RDD分区中的数据写入文件。 override def write(records: Iterator[Product2[K, V]]....

分类：Web程序时间：2015-09-17 17:31:48 阅读次数：453

spark取得lzo压缩文件报错 java.lang.ClassNotFoundException

恩,这个问题,反正是我从来没有注意的问题,但今天还是写出来吧配置信息 hadoop core-site.xml配置 <property> ???<name>io.compression.codecs</name> ????????<value>org.apache.hadoop.io.compress....

分类：编程语言时间：2015-09-17 15:39:10 阅读次数：419

Scala中隐式转换内幕操作规则揭秘、最佳实践及其在Spark中的应用源码解析之Scala学习笔记-55

package com.leegh.implicitsimport scala.io.Sourceimport java.io.File/** * @author Guohui Li */class RicherFile(val file: File) { def read = Source.fr....

分类：其他好文时间：2015-09-17 10:04:53 阅读次数：137

[bigdata] Spark RDD整理

1. RDD是什么RDD：Spark的核心概念是RDD (resilient distributed dataset)，指的是一个只读的，可分区的弹性分布式数据集，这个数据集的全部或部分可以缓存在内存中，在多次计算间可重复使用。2. 为什么会产生RDD？（1）传统的MapReduce虽然具有自动容错...

分类：其他好文时间：2015-09-16 19:32:25 阅读次数：256

共7164条上一页 1 ... 556 557 558 559 560 ... 717 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)