在运行Spark应用程序的时候,driver会提供一个webUI给出应用程序的运行信息,但是该webUI随着应用程序的完成而关闭端口,也就是说,Spark应用程序运行完后,将无法查看应用程序的历史记录。Spark history server就是为了应对这种情况而产生的,通过配置,Spark应用程序在运行完应用程序之后,将应用程序的运行信息写入指定目录,而Spark
history serve...
分类:
其他好文 时间:
2014-06-18 07:45:40
阅读次数:
250
本文分析了Spark1.0.0的Client,Master和Worker之间是如何通信的。通过对通信的分析,可以清楚的理解各个角色的作用和责任,和它在集群中扮演的不同角色。
当然了,为了便于源码分析,本文开始分析了akka,一个非常优秀的actor的实现:高性能,易于编程,可扩展和弹性无中心。...
分类:
其他好文 时间:
2014-06-18 06:59:54
阅读次数:
183
本文就standalone部署方式下的容错性问题做比较细致的分析,主要回答standalone部署方式下的包含哪些主要节点,当某一类节点出现问题时,系统是如何处理的。组成cluster的不同节点,启动时有没有固定的顺序,为什么是这样的顺序,针对这些问题,本文会做一个详尽的分析。
分类:
其他好文 时间:
2014-06-18 00:10:53
阅读次数:
253
让世界球迷翘首以盼的世界杯,在热情的桑巴舞和全世界球迷的欢呼中如期而至。在此期间,无论是资深球迷还是伪球迷,甚至是压根不看球的普通人,对于世界杯,都必然提及一二,这俨然成为了世界的节日,一个万众期待的狂欢party。随着移动互联的高度普及和发展,“社交足球”似乎踢得比世界杯还火热,各种渠道,各种工具...
分类:
其他好文 时间:
2014-06-17 23:30:11
阅读次数:
290
1、Oracle中的SQL select count(1)from a_V_PWYZL_CUSTACCT_PSMIS t where not exists (select 1 from tb_show_multi_question q WHERE q.dqmp_rule_code = '仅比对系统有...
分类:
数据库 时间:
2014-06-17 23:29:32
阅读次数:
309
我们以前在开发大数据量的分页存储过程时,往往都为了怎么样实现高效的性能,而大伤脑筋,似乎总是想写出最佳的存储过程分页方法,我们假如建立一个学生基本信息表StudentInfo,我们看在Sql Server 2000中我们实现的存储过程:CREATEPROCEDURE p_GetStudentInfo...
分类:
数据库 时间:
2014-06-17 20:15:21
阅读次数:
292
1. Install Java and set JAVA_HOME2. Install IntelliJ IDH and Scala plugin3. Download spark1.0.04. Generate a workspace for IDEA[shaochen@linux spark-1...
分类:
其他好文 时间:
2014-06-17 19:55:22
阅读次数:
262
随着企业开始同时利用云计算和大数据技术,现在应当考虑如何将这些工具结合使用。尤其是OpenStack作为目前最流行的开源云版本如何部署在Hadoop上。...
分类:
其他好文 时间:
2014-06-17 19:00:58
阅读次数:
304
主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa,新增加的项目包括,YARN, Hcatalog, Oozie, Cassandra, Hama, Whirr, Flume, Bigtop, Crunch, Hue等。
从2011年开始,中国进入大数据风起云...
分类:
其他好文 时间:
2014-06-17 16:44:25
阅读次数:
310
怎样处理海量数据在实际的工作环境下,很多人会遇到海量数据这个复杂而艰巨的问题,它的主要难点有下面几个方面:一、数据量过大,数据中什么情况都可能存在。假设说有10条数据,那么大不了每条去逐一检查,人为处理,假设有上百条数据,也能够考虑,假设数据上到千万级别,甚至过亿,那不是手工能解决的了,必须通过工具...
分类:
其他好文 时间:
2014-06-17 15:02:18
阅读次数:
194