码迷,mamicode.com
首页 >  
搜索关键字:大数据 spark    ( 18881个结果
hadoop家族的各个成员
这篇文章不提原理,讲讲hadoop及其周边项目的作用。hadoop这个词已经流行好多年了,一提到大数据就会想到hadoop,那么hadoop的作用是什么呢?官方定义:hadoop是一个开发和执行处理大规模数据的软件平台。核心词语是平台,也就是说我们有大量的数据,又有好几个电脑,我们知道应该把处理数据...
分类:其他好文   时间:2014-07-19 21:30:03    阅读次数:179
大数据架构师基础:hadoop家族,Cloudera产品系列等各种技术
大数据我们都知道hadoop,可是还会各种各样的技术进入我们的视野:Spark,Storm,impala,让我们都反映不过来。为了能够更好的架构大数据项目,这里整理一下,供技术人员,项目经理,架构师选择合适的技术,了解大数据各种技术之间的关系,选择合适的语言。 我们可以带着下面问题来阅读本文章: 1...
分类:其他好文   时间:2014-07-19 21:05:50    阅读次数:236
在线扩大数据库UNDO表空间
用oracle账号登陆ORACLE数据库服务器 方法一: 查看表空间的名字及文件所在位置: select tablespace_name, file_id, file_name,round(bytes/(1024*1024),0) total_space from dba_data_files order by tablespace_name; 修改数据库dat...
分类:数据库   时间:2014-07-18 22:24:47    阅读次数:435
shell 脚本实战笔记(10)--spark集群脚本片段念念碎
前言: 通过对spark集群脚本的研读, 对一些重要的shell脚本技巧, 做下笔记. *). 取当前脚本的目录sbin=`dirname "$0"` sbin=`cd "$sbin"; pwd`代码评注:# 以上代码为获取执行脚本所在的目录的常用技巧# sbin=$(dirname $0) ...
分类:其他好文   时间:2014-07-18 19:16:52    阅读次数:239
大数据的道德拷问-【软件和信息服务】2014.07
美国零售商Target在基于购买记录分析的基础上,分析出一位少女怀孕,进而推送孕期相关的产品广告到这户人家,这位少女的父亲对此颇为不满。当然,最后证明他女儿真怀孕了,这位父亲也颇为尴尬。基于过去销售记录进行预测,并非需要大数据技术,传统的BI也许就能解决,但这个妇..
分类:其他好文   时间:2014-07-17 10:28:42    阅读次数:214
整理对Spark SQL的理解
Catalyst定位 其他系统如果想基于Spark做一些类sql、标准sql甚至其他查询语言的查询,需要基于Catalyst提供的解析器、执行计划树结构、逻辑执行计划的处理规则体系等类体系来实现执行计划的解析、生成、优化、映射工作。 对应上图中,主要是左侧的TreeNodelib及中间三次转化过程中涉及到的类结构都是Catalyst提供的。至于右侧物理执行计划映射生成过程,物理执行计划基于成本的优化模型,具体物理算子的执行都由系统自己实现。 Catalyst现状 在解析器方面提供的是一个简单的scala...
分类:数据库   时间:2014-07-16 17:34:38    阅读次数:391
Spark 个人实战系列(1)--Spark 集群安装
前言: CDH4不带yarn和spark, 因此需要自己搭建spark集群. 这边简单描述spark集群的安装过程, 并讲述spark的standalone模式, 以及对相关的脚本进行简单的分析.spark官网: http://spark.apache.org/downloads.html*)安装....
分类:其他好文   时间:2014-07-16 16:56:22    阅读次数:235
Rsync+Inotify-client 实现实时同步
在前面的博文实践记录之-Rsync镜像备份介绍了镜像备份工具Rsync的安装和使用.但在大数据时代,rsync的不足之处也暴露出来.首先.rsync本身实现不了实时备份.靠系统的crontab实现的话也受限于1分钟.因此这就导致了服务端和客户端数据可能出现不一致,更无法在应用故障时做到..
分类:其他好文   时间:2014-07-16 16:44:36    阅读次数:391
第一个GraphX程序
程序功能:收集顶点指向的邻居中所在地 /* * 找出每个顶点所指向的邻居中所在的地区 */ import org.apache.spark.SparkContext import org.apache.spark.SparkContext._ import org.apache.spark.SparkConf import scala.collection.mutable.Map impor...
分类:其他好文   时间:2014-07-16 16:34:28    阅读次数:299
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!