Tachyon是AmpLab的李浩源所开发的一个分布式内存文件系统,可以在集群里以访问内存的速度来访问存在Tachyon里的文件。Tachyon是架构在最底层的分布式文件存储和上层的各种计算框架之间的一种中间件,其主要职责是将那些不需要落地到DFS里的文件落地到分布式内存文件系统中来达到共享内存,从而提高效率。...
分类:
其他好文 时间:
2015-09-16 14:22:02
阅读次数:
339
网上很多例子,包括官网的例子,都是用textFile来加载一个文件创建RDD,类似sc.textFile("hdfs://n1:8020/user/hdfs/input") textFile的参数是一个path,这个path可以是: 1. 一个文件路径,这时候只装载指定的文件...
分类:
其他好文 时间:
2015-09-16 12:55:14
阅读次数:
223
Apache Spark社区2015年9月9日发布了1.5版本,该版本由230+开发人员和80+机构参与,修复了1400多个补丁,该版本可以通过 http://spark.apache.org/downloads.html进行下载。Spark1.5中最主要的修改内容是为了提升Spark性能、可用性和...
分类:
Web程序 时间:
2015-09-15 18:06:55
阅读次数:
262
本文将接受 Spark 集群的部署方式,包括无 HA、Spark Standalone HA 和 基于 ZooKeeper 的 HA 三种。 环境:CentOS6.6 、 JDK1.7.0_80 、 关闭防火墙 、 配置好 hosts 和 SSH 免密码、Spark1.5.0 一. 无 HA 方式 ...
分类:
其他好文 时间:
2015-09-15 00:18:31
阅读次数:
238
1 ? ?Table of Contents spark 总揽 spark core spark sql spark mllib spark graphx spark streaming 2 ? ?spark 总揽 spark官网:https://spark.apache.org/ spark 资料集中营,覆盖各种视频,论文,博客,...
分类:
其他好文 时间:
2015-09-14 21:20:00
阅读次数:
163
有时自己的业务需要自己实现spark的分区函数 以下代码是实现一个自定义spark分区的demo 实现的功能是根据key值的最后一位数字,写到不同的文件 例如: 10写入到part-00000 11写入到part-00001 . . . 19写入到par...
分类:
其他好文 时间:
2015-09-14 15:39:24
阅读次数:
141
本节主要内容
IndexedRowMatrix
BlockMatrix
1. IndexedRowMatrix的使用IndexedRowMatrix,顾名思义就是带索引的RowMatrix,它采用case class IndexedRow(index: Long, vector: Vector)类来表示矩阵的一行,index表示的就是它的索引,vector表示其要存储的内容。其使用方式如下:pack...
分类:
系统相关 时间:
2015-09-14 12:19:30
阅读次数:
267
【注】该系列文章以及使用到安装包/测试数据 可以在《倾情大奉送--Spark入门实战系列》获取1、GraphX介绍1.1GraphX应用背景Spark GraphX是一个分布式图处理框架,它是基于Spark平台提供对图计算和图挖掘简洁易用的而丰富的接口,极大的方便了对分布式图处理的需求。众所周知·,...
分类:
其他好文 时间:
2015-09-14 09:23:27
阅读次数:
1259
原文链接 http://www.cnblogs.com/shenh062326/p/3658543.htmlSpark架构与作业执行流程简介Local模式运行Spark最简单的方法是通过Local模式(即伪分布式模式)。 运行命令为:./bin/run-example org.apache.spar...
分类:
其他好文 时间:
2015-09-14 01:49:15
阅读次数:
178
Spark的Rpc模块是1.x重构出来可,以前的代码中大量使用了akka的类,为了把akka从项目的依赖中移除,所有添加了该模块。先看下该模块的几个主要的类使用EA把该模块所有的类都添加进来了要看懂该模块还是要先了解akka, akka有Actor和ActorRef两个类,一个用于接收消息,一个用于...
分类:
其他好文 时间:
2015-09-14 00:32:42
阅读次数:
254