码迷,mamicode.com
首页 >  
搜索关键字:Spark 算子 RDD    ( 8015个结果
Spark教程-构建Spark集群-安装Ubuntu系统(1)
Unbuntu系统是我们开发Hadoop时最常用的操作系统,下面带领大家一步步完成Vmware虚拟机下Unbuntu系统的安装创建Vmware中的虚拟系统:我们选择的是“Typical”的方式,点击“Next”进入下一步:选择稍后安装操作系统,点击“Next”进入下一步:选择安装Linux系统的Ub...
分类:其他好文   时间:2014-08-05 11:04:59    阅读次数:309
0804------算法笔记----------最长公共子序列
1.动态规划和子序列 1.1 动态规划的特征: a)最优子结构,求问题的解必须获取子问题的最优解; b) 重叠子问题,使用原始的递归存在大量的重复计算。 1.2 子序列的概念: a)子序列中的元素都是原字符串中的元素; b)子序列中元素的排列顺序,与他们在原字符串中的顺序...
分类:其他好文   时间:2014-08-05 03:00:08    阅读次数:177
Spark技术内幕:Worker源码与架构解析
Worker所起的作用有以下几个: 1. 接受Master的指令,启动或者杀掉Executor 2. 接受Master的指令,启动或者杀掉Driver 3. 报告Executor/Driver的状态到Master 4. 心跳到Master,心跳超时则Master认为Worker已经挂了不能工作了 5. 向GUI报告Worker的状态...
分类:其他好文   时间:2014-08-05 00:50:08    阅读次数:364
Spark SQL CLI 实现分析
本文主要介绍了Spark SQL里目前的CLI实现,代码之后肯定会有不少变动,所以我关注的是比较核心的逻辑。主要是对比了Hive CLI的实现方式,比较Spark SQL在哪块地方做了修改,哪些地方与Hive CLI是保持一致的。 基本上Spark SQL在CLI这块的实现很靠近Hive Service项目里的CLI模块,主要类继承体系、执行逻辑差不多都一样。Spark SQL修改的关键逻辑在CLIService内的SessionManager内的OperationManager里,将非元数据查询操作的q...
分类:数据库   时间:2014-08-05 00:44:58    阅读次数:939
【互动问答分享】第6期决胜云计算大数据时代Spark亚太研究院公益大讲堂
【互动问答分享】第6期决胜云计算大数据时代Spark亚太研究院公益大讲堂
分类:其他好文   时间:2014-08-04 17:08:57    阅读次数:211
Spark on Yarn遇到的几个问题
1 概述     Spark的on Yarn模式,其资源分配是交给Yarn的ResourceManager来进行管理的,但是目前的Spark版本,Application日志的查看,只能通过Yarn的yarn logs命令实现。     在部署和运行Spark Application的过程中,如果不注意一些小的细节,也许会导致一些问题的出现。 2 防火墙     部署好Spark...
分类:其他好文   时间:2014-08-04 14:23:27    阅读次数:297
漫谈高数 特征向量物理意义
[1. 特征的数学意义]我们先考察一种线性变化,例如x,y坐标系的椭圆方程可以写为x^2/a^2+y^2/b^2=1,那么坐标系关于原点做旋转以后,椭圆方程就要发生变换。我们可以把原坐标系的(x,y)乘以一个矩阵,得到一个新的(x',y')的表示形式,写为算子的形式就是(x,y)*M=(x',y')...
分类:其他好文   时间:2014-08-04 10:33:36    阅读次数:227
scala eclipse sbt 应用程序开发
在Eclipse里利用Sbt构建开发Scala程序的一般步骤,并用实例讲解了整个流程。...
分类:系统相关   时间:2014-08-04 02:03:06    阅读次数:476
Interlij 13编译Spark程序生成jar包
1、创建项目sp create new project->scala->NOT SBT->next->设置项目名称'sp' 2、导入相关jar包 File->Project Structure->Libraries->点绿色'+'->java->找到spark-assembly-1.0.0-hadoop2.2.0.jar->OK 按照类似的方法导入scala-compiler.jar,...
分类:其他好文   时间:2014-08-03 20:39:35    阅读次数:262
Apache Crunch的设计 (上)
Apache Crunch是FlumeJava的实现,为不太方便直接开发和使用的MapReduce程序,开发一套MR流水线,具备数据表示模型,提供基础原语和高级原语,根据底层执行引擎对MR Job的执行进行优化。从分布式计算角度看,Crunch提供的许多计算原语,可以在Spark、Hive、Pig等地方找到很多相似之处,而本身的数据读写,序列化处理,分组、排序、聚合的实现,类似MapReduce各阶段的拆分都可以在Hadoop里找到影子。 本文介绍Crunch在数据表示模型、操作原语、序列化处理方面的设计和...
分类:其他好文   时间:2014-08-03 18:02:06    阅读次数:267
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!