码迷,mamicode.com
首页 >  
搜索关键字:spark 安装、介绍    ( 7164个结果
spark MLlib 概念 5: 余弦相似度(Cosine similarity)
概述:余弦相似度 是对两个向量相似度的描述,表现为两个向量的夹角的余弦值。当方向相同时(调度为0),余弦值为1,标识强相关;当相互垂直时(在线性代数里,两个维度垂直意味着他们相互独立),余弦值为0,标识他们无关。Cosine similarityis a measure of similarity ...
分类:其他好文   时间:2015-02-01 19:01:08    阅读次数:917
spark MLlib 概念 3: 卡方分布
数学定义[编辑]若k个随机变量、……、是相互独立,符合标准正态分布的随机变量(数学期望为0、方差为1),则随机变量Z的平方和被称为服从自由度为k的卡方分布,记作Definition[edit]IfZ1, ...,Zkareindependent,standard normalrandom varia...
分类:其他好文   时间:2015-02-01 17:32:23    阅读次数:209
spark MLlib 概念 2:Stratified sampling 层次抽样
定义:Instatistical surveys, when subpopulations within an overall population vary, it is advantageous to sample each subpopulation (stratum) independent...
分类:其他好文   时间:2015-02-01 17:25:53    阅读次数:251
Spark下的FP-Growth和Apriori(频繁项集挖掘并行化算法)
频繁项集挖掘是一个关联式规则挖掘问题。关联挖掘是数据挖掘中研究最早也是最活跃的领域,其中频繁模式的挖掘是关联挖掘的核心和基础,是产生关联规则挖掘的基础。其中FP-Growth和Apriori算法是最为经典的频繁项集挖掘算法。本文在spark下利用scala编写,充分利用了spark的内存计算方式和scala简洁的语法模式和先天性的并行化特性,充分发挥了FP-Growth。...
分类:编程语言   时间:2015-02-01 13:33:53    阅读次数:310
一天一段scala代码(四)
一天一段scala代码(四)        为了更好的驾驭spark,最近在学习scala语言特性,主要看《快学scala》,顺便把一些自己认为有用的代码记下来。 package examples object Example4 { def main(args: Array[String]) { //不可变Map val...
分类:其他好文   时间:2015-01-30 22:45:37    阅读次数:226
Spark API编程动手实战-04-以在Spark 1.2版本实现对union、groupByKe
下面看下union的使用: 使用collect操作查看一下执行结果: 再看下groupByKey的使用: 执行结果: join操作就是一个笛卡尔积操作的过程,如下示例: 对rdd3和rdd4执行join操作: 使用collect查看执行结果: 可以看...
分类:Windows程序   时间:2015-01-30 17:55:34    阅读次数:253
一天一段scala代码(三)
一天一段scala代码(三)        为了更好的驾驭spark,最近在学习scala语言特性,主要看《快学scala》,顺便把一些自己认为有用的代码记下来。 package examples import scala.collection.mutable.ArrayBuffer object Example3 { def main(args: Ar...
分类:其他好文   时间:2015-01-29 22:34:12    阅读次数:188
(转)Spark安装与学习
摘要:Spark是继Hadoop之后的新一代大数据分布式处理框架,由UC Berkeley的Matei Zaharia主导开发。我只能说是神一样的人物造就的神器,详情请猛击http://www.spark-project.org/ Created 2012-05-09 Modified 2012-0...
分类:其他好文   时间:2015-01-29 21:05:36    阅读次数:239
Spark 单机 Demo.
安装好Spark 后,官方自带了一些demo, 路径在 ?Spark根目录/examples/src/main/python/ 里面有些例子,例如统计字数的 wordcount.py import?sys from?operator?import?add from?pyspark?import?SparkCo...
分类:其他好文   时间:2015-01-29 17:53:34    阅读次数:224
Spark API编程动手实战-03-以在Spark 1.2版本实现对Job输出结果进行排序
从前一篇文章中的wordcount的输出结果可以看出来结果是未经排序的,如何对spark的输出结果进行排序呢? 先对reduceByKey的结果进行key,value位置置换(数字,字符),然后再进行数字排序,再将key,value位置置换...
分类:编程语言   时间:2015-01-29 14:48:39    阅读次数:142
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!