依据Spark 1.4.1源码SparkContext的broadcast方法注释可以用SparkContext将一个变量广播到所有的executor上,使得所有executor都能获取这个变量代表的数据。SparkContext对于broadcast方法的注释为:/** * Broadcast a...
分类:
其他好文 时间:
2015-08-16 12:03:38
阅读次数:
261
package com.leegh.dataset/** * @author Guohui Li */object HelloList { def main(args: Array[String]): Unit = { val bigData = List("Hadoop", "Spark"...
分类:
编程语言 时间:
2015-08-16 09:21:02
阅读次数:
119
http://spark.apache.org/http://bbs.csdn.net/forums/sparkhttp://spark.csdn.net/http://tieba.baidu.com/f?kw=sparkhttp://www.oschina.net/p/spark-projecth...
分类:
其他好文 时间:
2015-08-16 02:03:42
阅读次数:
205
以前也知道蒙特卡洛投针求PI,今天安装spark,安完先要试试他自带的几个小程序看看能不能用,我主要会用python写程序,也就是pyspark所以在spark里的examples目录深处找python的文件夹,里面的pi.py就是。看了一下源码是这样的:
import sys
from random import random
from operator import add
from py...
分类:
其他好文 时间:
2015-08-15 16:41:52
阅读次数:
254
课程内容
Spark修炼之道(基础篇)——Linux基础(12讲)大纲
Spark修炼之道(进阶篇)——Spark入门到精通(30讲)大纲
Spark修炼之道(实战篇)——Spark应用开发实战篇(20讲)大纲
Spark修炼之道(高级篇)——Spark源码解析(50讲)大纲
1. Spark修炼之道(基础篇)——Linux基础(12讲)大纲
2. Spark修炼之道(进阶篇)——Spa...
分类:
其他好文 时间:
2015-08-15 10:27:31
阅读次数:
127
活动时间北京第九次Spark Meetup活动将于2015年08月22日进行;下午14:00-18:00。活动地点 北京市海淀区丹棱街5号 微软亚太研发集团总部大厦1号楼活动内容 1. 《Keynote》 ,分享人:Sejun Ra ,CEO of NFLabs.com 2. 《An introduction to Zeppelin with a demo》,分享人: Anthony Cor...
分类:
其他好文 时间:
2015-08-15 10:24:44
阅读次数:
120
updateStateByKey 解释:
以DStream中的数据进行按key做reduce操作,然后对各个批次的数据进行累加
在有新的数据信息进入或更新时,可以让用户保持想要的任何状。使用这个功能需要完成两步:
1) 定义状态:可以是任意数据类型
2) 定义状态更新函数:用一个函数指定如何使用先前的状态,从输入流中的新值更新状态。
对于有状态操作,要不断的把当前和历史的时间切片的RDD累...
分类:
其他好文 时间:
2015-08-14 21:36:08
阅读次数:
269
在装spark之前先装ScalaScala的安装在hadoop安装配置中已经介绍了1、下载spark安装包下载地址如下http://spark.apache.org/downloads.html我选择的是spark-1.4.1-bin-hadoop2.6.tgz放在/root/software解压tarzxvfspark-1.4.1-bin-hadoop2.6.tgz2、配置系统环境变量vim/etc/prof..
分类:
其他好文 时间:
2015-08-14 19:39:39
阅读次数:
211
我们现在开始训练模型,还输入参数如下:
rank:ALS中因子的个数,通常来说越大越好,但是对内存占用率有直接影响,通常rank在10到200之间。
iterations:迭代次数,每次迭代都会减少ALS的重构误差。在几次迭代之后,ALS模型都会收敛得到一个不错的结果,所以大多情况下不需要太多的迭代(通常是10次)。
lambda:模型的正则化参数,控制着避免过度拟合,值越大,越正则化。我们将...
分类:
系统相关 时间:
2015-08-14 19:21:13
阅读次数:
368
背景这一篇可以说是“HiveJSON数据处理的一点探索”的兄弟篇。平台为了加速即席查询的分析效率,在我们的Hadoop集群上安装部署了Spark Server,并且与我们的Hive数据仓库共享元数据。也就是说,我们的用户即可以通过HiveServer2使用Hive SQL执行MapReduce分析数...
分类:
数据库 时间:
2015-08-14 15:15:07
阅读次数:
334