王家林:Android架构师、高级工程师、咨询顾问、培训专家;通晓Android、HTML5、Hadoop,迷恋英语播音和健美;致力于Android、HTML5、Hadoop的软、硬、云整合的一站式解决方案;国内最早(2007年)从事于Android系统移植、软硬整合、框架修改、应用程序软件开发以及...
分类:
其他好文 时间:
2014-07-23 20:37:25
阅读次数:
377
使用的ide是eclipsepackage com.luogankun.spark.baseimport org.apache.spark.SparkConfimport org.apache.spark.SparkContextimport org.apache.spark.SparkContex...
分类:
其他好文 时间:
2014-07-23 18:01:14
阅读次数:
177
apache 网站上面已经有了已经构建好了的版本,我这里还是自己利用午休时间重新构建一下(jdk,python,scala的安装就省略了,自己可以去安装) http://www.apache.org/dist/spark/spark-1.0.1/ 具体官网的下载链接可...
分类:
其他好文 时间:
2014-07-23 17:40:11
阅读次数:
273
今天准备将mysql的数据倒腾到RDD,很早以前就知道有一个JdbcRDD,就想着使用一下,结果发现却是鸡肋一个。
首先,看看JdbcRDD的定义:
* An RDD that executes an SQL query on a JDBC connection and reads results.
* For usage example, see test case ...
分类:
数据库 时间:
2014-07-23 16:36:21
阅读次数:
408
概述一个Spark的Job分为多个stage,最后一个stage会包含一个或多个ResultTask,前面的stages会包含一个或多个ShuffleMapTasks。ResultTask运行并将结果返回给driver application。ShuffleMapTask将task的output依据...
分类:
其他好文 时间:
2014-07-23 12:43:36
阅读次数:
376
王家林简介Spark亚太研究院院长和首席专家,中国目前唯一的移动互联网和云计算大数据集大成者。在Spark、Hadoop、Android等方面有丰富的源码、实务和性能优化经验。彻底研究了Spark从0.5.0到0.9.1共13个版本的Spark源码,并已完成2014年5月31日发布的Spark1.0...
分类:
移动开发 时间:
2014-07-22 23:29:47
阅读次数:
241
本文主要讲述在standalone cluster部署模式下,应用(Driver Application)所需要的资源是如何获得,在应用退出时又是如何释放的。
分类:
其他好文 时间:
2014-07-22 22:48:15
阅读次数:
243
有的人想在eclipse写java web 项目,通过maven也是一种实现的方法,可以实现java web 项目打包成war,发布到tomcat。在pom.xml文件的build增加下面的代码,相应的地方修改账号和密码,还有发布的名称 daka_server ...
分类:
系统相关 时间:
2014-07-22 22:46:54
阅读次数:
305
1、Spark中采用依赖关系(Dependency)表示rdd之间的生成关系。Spark可利用Dependency计算出失效的RDD。在每个RDD中都存在一个依赖关系的列表
private var dependencies_ : Seq[Dependency[_]] = null
用以记录各rdd中各partition的parent partition。
2、Spark中存在两类Depe...
分类:
其他好文 时间:
2014-07-22 22:34:15
阅读次数:
264
本文详细介绍了Spark SQL的Catalyst里,Analyzer是如何Sql parser的解析的UnResolved逻辑计划,进行resolve的。...
分类:
数据库 时间:
2014-07-22 14:49:52
阅读次数:
396