List有两个重要的子类:空表Nil,有head和tail的非空表::信息来源于DT大数据梦工厂,微信公众号:DT_Spark视频地址:http://edu.51cto.com/lesson/id-71116.html
分类:
其他好文 时间:
2015-09-11 12:52:02
阅读次数:
148
Tachyon是一个高容错的分布式文件系统,允许文件以内存的速度在集群框架中进行可靠的共享,就像Spark和 MapReduce那样。通过利用信息继承,内存侵入,Tachyon获得了高性能。Tachyon工作集文件缓存在内存中,并且让...
分类:
其他好文 时间:
2015-09-10 19:41:48
阅读次数:
280
Spark Streaming 是Spark核心API的一个扩展,可以实现高吞吐量的、具备容错机制的实时流数据的处理。支持从多种数据源获取数据,包括Kafk、Flume、Twitter、ZeroMQ、Kinesis 以及TCP sockets,从数据源获取数据之后,可以使用诸如map、reduce、join和window等高级函数进行复杂算法的处理。最后还可以将处理结果存储到文件系统,数据库和现场仪表盘。...
分类:
其他好文 时间:
2015-09-10 11:10:49
阅读次数:
212
Spark Streaming 是Spark核心API的一个扩展,可以实现高吞吐量的、具备容错机制的实时流数据的处理。支持从多种数据源获取数据,包括Kafk、Flume、Twitter、ZeroMQ、Kinesis 以及TCP sockets,从数据源获取数据之后,可以使用诸如map、reduce、join和window等高级函数进行复杂算法的处理。最后还可以将处理结果存储到文件系统,数据库和现场仪表盘。...
分类:
其他好文 时间:
2015-09-10 11:10:31
阅读次数:
169
【注】该系列文章以及使用到安装包/测试数据 可以在《倾情大奉送--Spark入门实战系列》获取1、MLlib实例1.1聚类实例1.1.1算法说明聚类(Cluster analysis)有时也被翻译为簇类,其核心任务是:将一组目标object划分为若干个簇,每个簇之间的object尽可能相似,簇与簇之...
分类:
其他好文 时间:
2015-09-10 09:32:08
阅读次数:
358
Spark 1.5.0是1.x线上的第6个发行版。这个版本共处理了来自230+contributors和80+机构的1400+个patches。Spark 1.5的许多改变都是围绕在提升Spark的性能、可用性以及操作稳定性。Spark 1.5.0焦点在Tungsten项目,...
分类:
Web程序 时间:
2015-09-09 19:52:05
阅读次数:
241
/** * Created by root on 9/8/15. */import org.apache.spark._import org.apache.spark.graphx._import org.apache.spark.rdd.RDDobject SparkGraphXTest { d....
分类:
其他好文 时间:
2015-09-09 18:57:40
阅读次数:
113
执行流程数据的接收StreamingContext实例化的时候,需要传入一个SparkContext,然后指定要连接的spark matser url,即连接一个spark engine,用于获得executor。实例化之后,首先,要指定一个接收数据的方式,如val lines = ssc.sock...
分类:
其他好文 时间:
2015-09-09 16:38:29
阅读次数:
163
/** * Created by root on 9/6/15. */import org.apache.spark.SparkContextimport org.apache.spark.SparkConfobject HelloSpark { def main(args: Array[Stri....
分类:
其他好文 时间:
2015-09-09 16:26:37
阅读次数:
153
Background在MapReduce框架中,shuffle是连接Map和Reduce之间的桥梁,Map的输出要用到Reduce中必须经过shuffle这个环 节,shuffle的性能高低直接影响了整个程序的性能和吞吐量。Spark作为MapReduce框架的一种实现,自然也实现了shuffle的...
分类:
其他好文 时间:
2015-09-09 16:25:42
阅读次数:
298