Hadoop是云计算的事实标准软件框架,是云计算理念、机制和商业化的具体实现,是整个云计算技术学习中公认的核心和最具有价值内容。Yarn是目前公认的最佳的分布式集群资源管理框架;Mahout是目前数据挖掘领域的王者;工业和信息化部电信研究院于2014年5月发布的“大数据白皮书”中指出:“2012年美...
分类:
其他好文 时间:
2014-12-23 06:40:35
阅读次数:
183
课程介绍2014年5月30日发布了Spark1.0.0版本,而本课程是世界上第一个Spark1.0.0企业级实践课程,课程包含Spark的架构设计、Spark编程模型、Spark内核框架源码剖析、Spark的广播变量与累加器、Shark的原理和使用、Spark的机器学习、Spark的图计算Graph...
分类:
其他好文 时间:
2014-12-23 06:40:01
阅读次数:
244
Spark是当今大数据领域最活跃最热门的高效的大数据通用计算平台,基于RDD,Spark成功的构建起了一体化、多元化的大数据处理体系,在“OneStacktorulethemall”思想的引领下,Spark成功的使用SparkSQL、SparkStreaming、MLLib、GraphX近乎完美的解...
分类:
其他好文 时间:
2014-12-23 06:39:55
阅读次数:
217
很多时候,Yarn 的用户希望知道自己运行过的某个 MapReduce job 的运行参数,此时可以从MapReduce History Server的 web console上查阅该 job的conf xml 文件内容。当然用户也可以先登录Yarn 的 web console的地址,然后再从上面跳转到 Job History Server 的 web console进行查阅。本文将以一个简单的图文例子来具体演示该功能。...
分类:
Web程序 时间:
2014-12-22 22:50:16
阅读次数:
309
一、Spark SQL External DataSource简介 随着Spark1.2的发布,Spark SQL开始正式支持外部数据源。Spark SQL开放了一系列接入外部数据源的接口,来让开发者可以实现。 这使得Spark SQL支持了更多的类型数据源,如json, parquet, avro, csv格式。只要我们愿意,我们可以开发出任意的外部数据源来连接到Spark SQL。之前大家...
分类:
数据库 时间:
2014-12-22 09:31:10
阅读次数:
198
Spark SQL在Spark1.2中提供了External DataSource API,开发者可以根据接口来实现自己的外部数据源,如avro, csv, json, parquet等等。 在Spark SQL源代码的org/spark/sql/sources目...
分类:
数据库 时间:
2014-12-22 09:29:59
阅读次数:
608
Linux命令的语法格式COMMANDoptionsarguments命令可分为:命令、应用程序、脚本文件三类命令按类型分为:内部命令:即集成在系统内核中的命令外部命令:独立的可执行程序,程序名即为命令名区分内部命令或外部命令可使用typeCOMMAND来实现echo$PATH:显示自动寻找的路径options..
分类:
系统相关 时间:
2014-12-22 02:11:50
阅读次数:
264
由于天然符合互联网中很多场景的需求,图计算正受到越来越多的青睐。Spark GraphX 是作为 Spark 技术堆栈中的一员,担负起了 Spark 在图计算领域中的重任。网络上已经有很多图计算和 Spark GraphX 的概念介绍,此处就不再赘述。 本文将一篇很好的 Spark GraphX 入门文章中代码块整合为一个完整的可执行类,并加上必要注释以及执行结果,以方便有兴趣的朋友快速从 API 角度了解 Spark GraphX。...
分类:
其他好文 时间:
2014-12-20 20:57:21
阅读次数:
224
0、前提Boost库版本 1.57.0下载地址http://www.boost.org/users/history/version_1_57_0.html,选择windows版编译器:VS2010编译目标:静态链接库C/C++运行库链接方式: /MT /MTd /MD /MDd官网给出的wind.....
分类:
其他好文 时间:
2014-12-20 16:51:51
阅读次数:
499
Spark 1.2.0是在1.X线的第三个版本。此版本带来了Spark的核心引擎性能和可用性方面的改进,一个重要的MLlib新API,Python的扩展ML支持,一个完全高可用的Spark流模式,等等。 GraphX已经看到主要性能和API改进,已经从alpha组件毕业。Spark 1.2代表来自60多个机构的172贡献者的1000个补丁的工作。...
分类:
数据库 时间:
2014-12-20 14:17:05
阅读次数:
304