一、以RDD为基石的Spark编程模型 在Spark中一切都是基于RDD的:什么是RDD呢?官方给出的解释是:也就是说每个RDD都至少有以下三个函数实现:Spark自带了非常多的RDD:RDD主要分为两种:其中的transformations是lazyexecution的,需要具体的action去触...
分类:
其他好文 时间:
2014-12-26 14:20:16
阅读次数:
177
一、到底什么是Spark?Spark是一个通用的大数据计算平台,基于“OneStacktorulethemall”的理念成功成为了一体化多元化的大数据处理平台,轻松应对大数据处理中的实时流计算、SQL交互式查询、机器学习和图计算等:Spark源于BDAS:基于该技术堆栈,Spark目前已经成为大数据...
分类:
其他好文 时间:
2014-12-26 14:16:41
阅读次数:
149
当用beeline连接default后,通过use xxx切换到其他数据库,再退出,再次使用beeline -u jdbc:hive2://hadoop000:10000/default -n spark连接到default,此时后台连接的其实还是xxx测试步骤:1、beeline -u jdbc:...
分类:
其他好文 时间:
2014-12-25 17:54:44
阅读次数:
449
今天是圣诞节,2014年马上要过去了。回顾这一年在大数据研发上的点点滴滴,总结如下三个方面:
一、大数据研发技术路线
目前,存在太多的大数据技术,商业软件,如Teradata、Oracle、SAP、IBM等。开源的,如Hadoop、Spark、MPP DB、NewSQL等。在大数据领域,Hadoop呈一支独大势。经过这段时间的学习和了解,发现Hadoop技术复杂,架构复杂,社区版成熟度可能也就80%左右。要想把Hadoop玩转起来,可能需要投入巨大的成本来完善。Cloudera的
CDH也仅...
分类:
其他好文 时间:
2014-12-25 11:25:53
阅读次数:
719
Spark是当今大数据领域最活跃最热门的高效的大数据通用计算平台,基于RDD,Spark成功的构建起了一体化、多元化的大数据处理体系,在“One Stack to rule them all”思想的引领下,Spark成功的使用Spark SQL、Spark Streaming、MLLib、Graph...
分类:
其他好文 时间:
2014-12-24 23:59:13
阅读次数:
358
Spark是当今大数据领域最活跃最热门的高效的大数据通用计算平台,基于RDD,Spark成功的构建起了一体化、多元化的大数据处理体系,在“One Stack to rule them all”思想的引领下,Spark成功的使用Spark SQL、Spark Streaming、MLLib、Graph...
分类:
其他好文 时间:
2014-12-24 23:55:35
阅读次数:
195
Hadoop、Yarn、Spark是企业构建生产环境下大数据中心的关键技术,也是大数据处理的核心技术,是每个云计算大数据工程师必修课。课程简介大数据时代的精髓技术在于Hadoop、Yarn、Spark,是大数据时代公司和个人必须掌握和使用的核心内容。Hadoop、Yarn、Spark是Yahoo!、...
分类:
其他好文 时间:
2014-12-24 22:44:20
阅读次数:
277
王家林老师(联系邮箱18610086859@126.com 电话:18610086859 QQ:1740415547 微信号:18610086859)Spark亚太研究院院长和首席专家,中国目前唯一的移动互联网和云计算大数据集大成者。Spark亚太研究院院长和首席专家,移动互联网、云计算和大数据技术...
分类:
其他好文 时间:
2014-12-24 22:43:50
阅读次数:
192
Scala是一门以JVM为目标运行环境并将面向对象和函数式编程语言的最佳特性结合在一起的编程语言,此课程是大数据框架Spark的前置课程:1, Spark框架是采用Scala语言编写的,精致而优雅。要想成为Spark高手,你就必须阅读Spark的源代码,就必须掌握Scala;2, 虽然说现在的Spa...
分类:
编程语言 时间:
2014-12-24 22:41:22
阅读次数:
188