码迷,mamicode.com
首页 >  
搜索关键字:spark 安装、介绍    ( 7164个结果
Spark的TorrentBroadcast:概念和原理
依据Spark 1.4.1源码SparkContext的broadcast方法注释可以用SparkContext将一个变量广播到所有的executor上,使得所有executor都能获取这个变量代表的数据。SparkContext对于broadcast方法的注释为:/** * Broadcast a...
分类:其他好文   时间:2015-08-16 12:03:38    阅读次数:261
List的基本操作实战与基于模式匹配的List排序算法实现之Scala学习笔记-23
package com.leegh.dataset/** * @author Guohui Li */object HelloList { def main(args: Array[String]): Unit = { val bigData = List("Hadoop", "Spark"...
分类:编程语言   时间:2015-08-16 09:21:02    阅读次数:119
spark论坛
http://spark.apache.org/http://bbs.csdn.net/forums/sparkhttp://spark.csdn.net/http://tieba.baidu.com/f?kw=sparkhttp://www.oschina.net/p/spark-projecth...
分类:其他好文   时间:2015-08-16 02:03:42    阅读次数:205
看spark示例代码如何求的PI
以前也知道蒙特卡洛投针求PI,今天安装spark,安完先要试试他自带的几个小程序看看能不能用,我主要会用python写程序,也就是pyspark所以在spark里的examples目录深处找python的文件夹,里面的pi.py就是。看了一下源码是这样的: import sys from random import random from operator import add from py...
分类:其他好文   时间:2015-08-15 16:41:52    阅读次数:254
Spark修炼之道系列教程预告
课程内容 Spark修炼之道(基础篇)——Linux基础(12讲)大纲 Spark修炼之道(进阶篇)——Spark入门到精通(30讲)大纲 Spark修炼之道(实战篇)——Spark应用开发实战篇(20讲)大纲 Spark修炼之道(高级篇)——Spark源码解析(50讲)大纲 1. Spark修炼之道(基础篇)——Linux基础(12讲)大纲 2. Spark修炼之道(进阶篇)——Spa...
分类:其他好文   时间:2015-08-15 10:27:31    阅读次数:127
Spark北京Meetup第九次活动-Zeppelin主题
活动时间北京第九次Spark Meetup活动将于2015年08月22日进行;下午14:00-18:00。活动地点 北京市海淀区丹棱街5号 微软亚太研发集团总部大厦1号楼活动内容 1. 《Keynote》 ,分享人:Sejun Ra ,CEO of NFLabs.com 2. 《An introduction to Zeppelin with a demo》,分享人: Anthony Cor...
分类:其他好文   时间:2015-08-15 10:24:44    阅读次数:120
spark streming updateStateByKey 用法
updateStateByKey 解释: 以DStream中的数据进行按key做reduce操作,然后对各个批次的数据进行累加 在有新的数据信息进入或更新时,可以让用户保持想要的任何状。使用这个功能需要完成两步: 1) 定义状态:可以是任意数据类型 2) 定义状态更新函数:用一个函数指定如何使用先前的状态,从输入流中的新值更新状态。 对于有状态操作,要不断的把当前和历史的时间切片的RDD累...
分类:其他好文   时间:2015-08-14 21:36:08    阅读次数:269
spark安装配置
在装spark之前先装ScalaScala的安装在hadoop安装配置中已经介绍了1、下载spark安装包下载地址如下http://spark.apache.org/downloads.html我选择的是spark-1.4.1-bin-hadoop2.6.tgz放在/root/software解压tarzxvfspark-1.4.1-bin-hadoop2.6.tgz2、配置系统环境变量vim/etc/prof..
分类:其他好文   时间:2015-08-14 19:39:39    阅读次数:211
Machine Learning With Spark学习笔记(在10万电影数据上训练、使用推荐模型)
我们现在开始训练模型,还输入参数如下: rank:ALS中因子的个数,通常来说越大越好,但是对内存占用率有直接影响,通常rank在10到200之间。 iterations:迭代次数,每次迭代都会减少ALS的重构误差。在几次迭代之后,ALS模型都会收敛得到一个不错的结果,所以大多情况下不需要太多的迭代(通常是10次)。 lambda:模型的正则化参数,控制着避免过度拟合,值越大,越正则化。我们将...
分类:系统相关   时间:2015-08-14 19:21:13    阅读次数:368
Spark SQL JSON数据处理
背景这一篇可以说是“HiveJSON数据处理的一点探索”的兄弟篇。平台为了加速即席查询的分析效率,在我们的Hadoop集群上安装部署了Spark Server,并且与我们的Hive数据仓库共享元数据。也就是说,我们的用户即可以通过HiveServer2使用Hive SQL执行MapReduce分析数...
分类:数据库   时间:2015-08-14 15:15:07    阅读次数:334
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!