搜索关键字：spark pagerank graphx，搜索到7196个结果！码迷,mamicode.com！

【Spark亚太研究院系列丛书】Spark实战高手之路-第3章Spark架构设计与编程模型第2节：Spark架构设计(2)

三，Spark的RDD在Spark中一切都是以RDD为基础和核心的：每个RDD的API如下所示：Spark官方文档中给出了的众多的RDD：RDD中的操作分为transformations和actions两种：下面举一个例子来说明RDD的使用：另外有两个特殊的RDD:他们都是controllingop...

分类：其他好文时间：2014-12-26 14:25:08 阅读次数：116

【Spark亚太研究院系列丛书】Spark实战高手之路-第3章Spark架构设计与编程模型第3节：Spark架构设计(2)

三，深入RDD RDD本身是一个抽象类，具有很多具体的实现子类：RDD都会基于Partition进行计算：默认的Partitioner如下所示：其中HashPartitioner的文档说明如下：另外一种常用的Partitioner是RangePartitioner：RDD在持久化的需要考虑内存策略：...

分类：其他好文时间：2014-12-26 14:21:43 阅读次数：183

【Spark亚太研究院系列丛书】Spark实战高手之路-第3章Spark架构设计与编程模型第3节：Spark架构设计(1)

一、以RDD为基石的Spark编程模型在Spark中一切都是基于RDD的：什么是RDD呢？官方给出的解释是：也就是说每个RDD都至少有以下三个函数实现:Spark自带了非常多的RDD:RDD主要分为两种：其中的transformations是lazyexecution的，需要具体的action去触...

分类：其他好文时间：2014-12-26 14:20:16 阅读次数：177

【Spark亚太研究院系列丛书】Spark实战高手之路-第3章Spark架构设计与编程模型第2节：Spark架构设计(1)

一、到底什么是Spark？Spark是一个通用的大数据计算平台，基于“OneStacktorulethemall”的理念成功成为了一体化多元化的大数据处理平台，轻松应对大数据处理中的实时流计算、SQL交互式查询、机器学习和图计算等：Spark源于BDAS:基于该技术堆栈，Spark目前已经成为大数据...

分类：其他好文时间：2014-12-26 14:16:41 阅读次数：149

高性能spark搭建

最近在测试sprke性能，于是在测试服务器搭建

分类：其他好文时间：2014-12-25 18:43:22 阅读次数：196

Spark ThriftServer使用的大坑

当用beeline连接default后，通过use xxx切换到其他数据库，再退出，再次使用beeline -u jdbc:hive2://hadoop000:10000/default -n spark连接到default，此时后台连接的其实还是xxx测试步骤:1、beeline -u jdbc:...

分类：其他好文时间：2014-12-25 17:54:44 阅读次数：449

2014年大数据年终工作总结

今天是圣诞节，2014年马上要过去了。回顾这一年在大数据研发上的点点滴滴，总结如下三个方面：一、大数据研发技术路线目前，存在太多的大数据技术，商业软件，如Teradata、Oracle、SAP、IBM等。开源的，如Hadoop、Spark、MPP DB、NewSQL等。在大数据领域，Hadoop呈一支独大势。经过这段时间的学习和了解，发现Hadoop技术复杂，架构复杂，社区版成熟度可能也就80%左右。要想把Hadoop玩转起来，可能需要投入巨大的成本来完善。Cloudera的 CDH也仅...

分类：其他好文时间：2014-12-25 11:25:53 阅读次数：719

一天征服Spark！

Spark是当今大数据领域最活跃最热门的高效的大数据通用计算平台，基于RDD，Spark成功的构建起了一体化、多元化的大数据处理体系，在“One Stack to rule them all”思想的引领下，Spark成功的使用Spark SQL、Spark Streaming、MLLib、Graph...

分类：其他好文时间：2014-12-24 23:59:13 阅读次数：358

征服Spark as a Service

Spark是当今大数据领域最活跃最热门的高效的大数据通用计算平台，基于RDD，Spark成功的构建起了一体化、多元化的大数据处理体系，在“One Stack to rule them all”思想的引领下，Spark成功的使用Spark SQL、Spark Streaming、MLLib、Graph...

分类：其他好文时间：2014-12-24 23:55:35 阅读次数：195

王家林最新最新介绍

王家林老师(联系邮箱18610086859@126.com 电话：18610086859 QQ:1740415547 微信号：18610086859)Spark亚太研究院院长和首席专家，中国目前唯一的移动互联网和云计算大数据集大成者。Spark亚太研究院院长和首席专家，移动互联网、云计算和大数据技术...

分类：其他好文时间：2014-12-24 22:43:50 阅读次数：192