搜索关键字：spark 安装、介绍，搜索到7164个结果！码迷,mamicode.com！

List有两个重要的子类:空表Nil，有head和tail的非空表::信息来源于DT大数据梦工厂，微信公众号：DT_Spark视频地址：http://edu.51cto.com/lesson/id-71116.html

分类：其他好文时间：2015-09-11 12:52:02 阅读次数：148

Tachyon是一个高容错的分布式文件系统，允许文件以内存的速度在集群框架中进行可靠的共享，就像Spark和 MapReduce那样。通过利用信息继承，内存侵入，Tachyon获得了高性能。Tachyon工作集文件缓存在内存中，并且让...

分类：其他好文时间：2015-09-10 19:41:48 阅读次数：280

Spark入门实战系列--7.Spark Streaming（下）--Spark Streaming实战

Spark Streaming 是Spark核心API的一个扩展，可以实现高吞吐量的、具备容错机制的实时流数据的处理。支持从多种数据源获取数据，包括Kafk、Flume、Twitter、ZeroMQ、Kinesis 以及TCP sockets，从数据源获取数据之后，可以使用诸如map、reduce、join和window等高级函数进行复杂算法的处理。最后还可以将处理结果存储到文件系统，数据库和现场仪表盘。...

分类：其他好文时间：2015-09-10 11:10:49 阅读次数：212

Spark入门实战系列--7.Spark Streaming（上）--实时流计算Spark Streaming介绍

Spark Streaming 是Spark核心API的一个扩展，可以实现高吞吐量的、具备容错机制的实时流数据的处理。支持从多种数据源获取数据，包括Kafk、Flume、Twitter、ZeroMQ、Kinesis 以及TCP sockets，从数据源获取数据之后，可以使用诸如map、reduce、join和window等高级函数进行复杂算法的处理。最后还可以将处理结果存储到文件系统，数据库和现场仪表盘。...

分类：其他好文时间：2015-09-10 11:10:31 阅读次数：169

Spark入门实战系列--8.Spark MLlib（下）--机器学习库SparkMLlib实战

【注】该系列文章以及使用到安装包/测试数据可以在《倾情大奉送--Spark入门实战系列》获取1、MLlib实例1.1聚类实例1.1.1算法说明聚类（Cluster analysis）有时也被翻译为簇类，其核心任务是：将一组目标object划分为若干个簇，每个簇之间的object尽可能相似，簇与簇之...

分类：其他好文时间：2015-09-10 09:32:08 阅读次数：358

Apache Spark 1.5.0正式发布

Spark 1.5.0是1.x线上的第6个发行版。这个版本共处理了来自230+contributors和80+机构的1400+个patches。Spark 1.5的许多改变都是围绕在提升Spark的性能、可用性以及操作稳定性。Spark 1.5.0焦点在Tungsten项目，...

分类：Web程序时间：2015-09-09 19:52:05 阅读次数：241

SparkGraphXTest.scala

/** * Created by root on 9/8/15. */import org.apache.spark._import org.apache.spark.graphx._import org.apache.spark.rdd.RDDobject SparkGraphXTest { d....

分类：其他好文时间：2015-09-09 18:57:40 阅读次数：113

Spark Streaming原理简析

执行流程数据的接收StreamingContext实例化的时候，需要传入一个SparkContext，然后指定要连接的spark matser url，即连接一个spark engine，用于获得executor。实例化之后，首先，要指定一个接收数据的方式，如val lines = ssc.sock...

分类：其他好文时间：2015-09-09 16:38:29 阅读次数：163

HelloSpark.scala

/** * Created by root on 9/6/15. */import org.apache.spark.SparkContextimport org.apache.spark.SparkConfobject HelloSpark { def main(args: Array[Stri....

分类：其他好文时间：2015-09-09 16:26:37 阅读次数：153

详细探究Spark的shuffle实现

Background在MapReduce框架中，shuffle是连接Map和Reduce之间的桥梁，Map的输出要用到Reduce中必须经过shuffle这个环节，shuffle的性能高低直接影响了整个程序的性能和吞吐量。Spark作为MapReduce框架的一种实现，自然也实现了shuffle的...

分类：其他好文时间：2015-09-09 16:25:42 阅读次数：298