在spark1.0中属性支持三种配置方式:1、代码在代码中构造SparkConf时指定master、appname或者key-value等val conf = new SparkConf();conf.setAppName("WordCount").setMaster(" spark://hadoo...
分类:
其他好文 时间:
2014-06-25 20:12:25
阅读次数:
286
以后spark,mapreduce,mpi可能三者集于同一平台,各自的侧重点有所不用,相当于云计算与高性能计算的集合,互补,把spark的基础看了看,现在把开发环境看看,主要是看源码,最近Apache Spark源码走读系列挺好的,看了些。具体环境配置不是太复杂,具体可以看https://githu...
分类:
其他好文 时间:
2014-06-25 11:44:47
阅读次数:
185
这一章我们探索了Spark作业的运行过程,但是没把整个过程描绘出来,好,跟着我走吧,let you know!我们先回顾一下这个图,Driver Program是我们写的那个程序,它的核心是SparkContext,回想一下,从api的使用角度,RDD都必须通过它来获得。下面讲一讲它所不为认知的一面...
分类:
其他好文 时间:
2014-06-25 11:13:39
阅读次数:
288
Impala是Cloudera公司主导开发的新型查询系统,它提供SQL语义,能查询存储在Hadoop的HDFS和HBase中的PB级大数据。已有的Hive系统虽然也提供了SQL语义,但由于Hive底层执行使用的是MapReduce引擎,仍然是一个批处理过程,难以满足查询的交互性。相比之下,Impala的最大特点也是最大卖点就是它的快速。Impala 为存储在 HDFS 和 HBase 中的数据提供了一个实时 SQL 查询接口。...
分类:
其他好文 时间:
2014-06-25 10:56:38
阅读次数:
355
本文详细讲解了Spark在Standalone模式下的Master的HA的源码分析。
为了解决Standalone模式下的Master的SPOF,Spark采用了ZooKeeper提供的选举功能。Spark并没有采用ZooKeeper原生的Java API,而是采用了Curator,一个对ZooKeeper进行了封装的框架。采用了Curator后,Spark不用管理与ZooKeeper的连接,这些对于Spark来说都是透明的。Spark仅仅使用了100行代码,就实现了Master的HA。当然了,Spark是...
分类:
其他好文 时间:
2014-06-25 07:59:09
阅读次数:
183
hive没有提供hive --version这种方式查看版本好,所以要找到hive所在目录,然后查看jar包的版本号,比如:# ls /usr/local/hive/lib/
antlr-2.7.7.jar datanucleus-core-2.0.3.jar hive-jdbc-0.10.0.jar jline-1.0.ja...
分类:
其他好文 时间:
2014-06-24 23:20:21
阅读次数:
377
线性回归(Linear Regression)问题属于监督学习(Supervised Learning)范畴,又称分类(Classification)或归纳学习(Inductive Learning);这类分析中训练数据集中给出的数据类标是确定的;机器学习的目标是,对于给定的一个训练数据集,通过不断的分析和学习产生一个联系属性集合和类标集合的分类函数(Classification Function)或预测函数(Prediction Function),这个函数称为分类模型(Classification Mo...
分类:
其他好文 时间:
2014-06-24 22:58:23
阅读次数:
585
Apache Hadoop的服务的部署比较繁琐,需要手工处理配置文件、下载依赖包等。Cloudera Manager以GUI的方式的管理CDH集群,提供向导式的安装步骤。由于需要对Hive,HBase,Impala,Spark进行功能测试,就采用了Cloudera Manager方式进行安装。本文讲解的是parcel安装方式。...
分类:
其他好文 时间:
2014-06-24 22:44:17
阅读次数:
501
在zed的PS端运行spark: (1)设置uboot为sd卡启动rootfs: "sdboot=if mmcinfo; then " \ "run uenvboot; " \ "echo Copying Linux from SD to RAM... && " \ ...
分类:
其他好文 时间:
2014-06-24 14:27:44
阅读次数:
497
0、参考自http://tech.uc.cn/?p=2116 http://www.csdn.net/article/2013-07-08/2816149 1、Spark是一个高效的分布式计算系统。它基于MapReduce(MR)算法实现分布式计算,但Job的中间输出和结果可以保存在内存,从...
分类:
其他好文 时间:
2014-06-24 11:32:46
阅读次数:
268