Spark Standalone模式常见的HA部署方式有两种:基于文件系统的HA和基于ZK的HA本篇只介绍基于ZK的HA环境搭建:$SPARK_HOME/conf/spark-env.sh添加SPARK_DAEMON_JAVA_OPTS的配置信息:export SPARK_DAEMON_JAVA_O...
分类:
其他好文 时间:
2014-07-16 20:27:12
阅读次数:
187
记录安装Spark环境的过程。前提是Hadoop集群已经安装,详见:Hadoop 2.X 集群安装环境:Centos 6.4 X64 & Hadoop 2.2(三节点集群) & Spark 1.01、获取Spark源码,可以去官网下载,解压。2、编译源码。1)先安装Maven。2)进入源码目录,执行...
分类:
其他好文 时间:
2014-07-16 19:28:29
阅读次数:
180
本文详细总结Spark分布式集群的安装步骤,帮助想要学习Spark的技术爱好者快速搭建Spark的学习研究环境。...
分类:
其他好文 时间:
2014-07-14 17:17:25
阅读次数:
289
前言: 作为Hadoop生态系统中重要的一员, HBase作为分布式列式存储, 在线实时处理的特性, 备受瞩目, 将来能在很多应用场景, 取代传统关系型数据库的江湖地位. 本篇博文重点讲解HBase的数据导入, 描述三种方式, Client API, Bulkload, 以及Hive Over .....
分类:
其他好文 时间:
2014-07-14 15:51:39
阅读次数:
288
需求:数据仓库中所有表的定义结构保存到新的文件中,保存后类似下面数据,重复的数据只保留7月份即可****************ods_log_info*****************lid string uid string mb_uid string operation string modu...
分类:
编程语言 时间:
2014-07-14 14:29:01
阅读次数:
285
本来不打算写的了,但是真的是闲来无事,整天看美剧也没啥意思。这一章打算讲一下Spark on yarn的实现,1.0.0里面已经是一个stable的版本了,可是1.0.1也出来了,离1.0.0发布才一个月的时间,更新太快了,节奏跟不上啊,这里仍旧是讲1.0.0的代码,所以各位朋友也不要再问我讲的是哪...
分类:
其他好文 时间:
2014-07-13 21:43:15
阅读次数:
381
定制spark让sql更简单,上个版本的start.scala用的是HiveContext,这个是SQLContext的,不需编译。...
分类:
数据库 时间:
2014-07-13 20:44:21
阅读次数:
330
Google声称内部已经抛弃Map-reduce几年了,并在今年的Google IO大会高调发布Cloud Dataflow系统。本文介绍了在这个新框架下如何进行分布式计算,并与现有基于Hadoop的Twitter Summingbird以及Spark框架进行了对比。
分类:
其他好文 时间:
2014-07-13 20:29:26
阅读次数:
353
前面几章节谈论了企业如何利用大数据帮助企业建立精准营销模型,大家了解了"大数据"\"小数据",那么数据本身的问题解决了,今天我说一下另外一个非常重要的概念,就是"即时性"。可以说大数据最重要的意义之一是解决了营销上的“实时性”问题,在当下手机、平板多屏运作,快速处理用..
分类:
其他好文 时间:
2014-07-13 15:18:57
阅读次数:
183
从源代码的角度来看一下Spark SQL的核心执行流程吧...
分类:
数据库 时间:
2014-07-12 21:07:32
阅读次数:
299