搜索关键字：spark 安装、介绍，搜索到7164个结果！码迷,mamicode.com！

spark MLlib 概念 5：余弦相似度（Cosine similarity）

概述：余弦相似度是对两个向量相似度的描述，表现为两个向量的夹角的余弦值。当方向相同时（调度为0），余弦值为1，标识强相关；当相互垂直时（在线性代数里，两个维度垂直意味着他们相互独立），余弦值为0，标识他们无关。Cosine similarityis a measure of similarity ...

分类：其他好文时间：2015-02-01 19:01:08 阅读次数：917

spark MLlib 概念 3：卡方分布

数学定义[编辑]若k个随机变量、……、是相互独立，符合标准正态分布的随机变量（数学期望为0、方差为1），则随机变量Z的平方和被称为服从自由度为k的卡方分布，记作Definition[edit]IfZ1, ...,Zkareindependent,standard normalrandom varia...

分类：其他好文时间：2015-02-01 17:32:23 阅读次数：209

spark MLlib 概念 2：Stratified sampling 层次抽样

定义：Instatistical surveys, when subpopulations within an overall population vary, it is advantageous to sample each subpopulation (stratum) independent...

分类：其他好文时间：2015-02-01 17:25:53 阅读次数：251

Spark下的FP-Growth和Apriori（频繁项集挖掘并行化算法）

频繁项集挖掘是一个关联式规则挖掘问题。关联挖掘是数据挖掘中研究最早也是最活跃的领域，其中频繁模式的挖掘是关联挖掘的核心和基础，是产生关联规则挖掘的基础。其中FP-Growth和Apriori算法是最为经典的频繁项集挖掘算法。本文在spark下利用scala编写，充分利用了spark的内存计算方式和scala简洁的语法模式和先天性的并行化特性，充分发挥了FP-Growth。...

分类：编程语言时间：2015-02-01 13:33:53 阅读次数：310

一天一段scala代码（四）

一天一段scala代码（四）为了更好的驾驭spark，最近在学习scala语言特性，主要看《快学scala》，顺便把一些自己认为有用的代码记下来。 package examples object Example4 { def main(args: Array[String]) { //不可变Map val...

分类：其他好文时间：2015-01-30 22:45:37 阅读次数：226

Spark API编程动手实战-04-以在Spark 1.2版本实现对union、groupByKe

下面看下union的使用：使用collect操作查看一下执行结果：再看下groupByKey的使用：执行结果： join操作就是一个笛卡尔积操作的过程，如下示例：对rdd3和rdd4执行join操作：使用collect查看执行结果：可以看...

分类：Windows程序时间：2015-01-30 17:55:34 阅读次数：253

一天一段scala代码（三）

一天一段scala代码（三）为了更好的驾驭spark，最近在学习scala语言特性，主要看《快学scala》，顺便把一些自己认为有用的代码记下来。 package examples import scala.collection.mutable.ArrayBuffer object Example3 { def main(args: Ar...

分类：其他好文时间：2015-01-29 22:34:12 阅读次数：188

（转）Spark安装与学习

摘要：Spark是继Hadoop之后的新一代大数据分布式处理框架，由UC Berkeley的Matei Zaharia主导开发。我只能说是神一样的人物造就的神器，详情请猛击http://www.spark-project.org/ Created 2012-05-09 Modified 2012-0...

分类：其他好文时间：2015-01-29 21:05:36 阅读次数：239

Spark 单机 Demo.

安装好Spark 后，官方自带了一些demo, 路径在 ?Spark根目录/examples/src/main/python/ 里面有些例子，例如统计字数的 wordcount.py import?sys from?operator?import?add from?pyspark?import?SparkCo...

分类：其他好文时间：2015-01-29 17:53:34 阅读次数：224

Spark API编程动手实战-03-以在Spark 1.2版本实现对Job输出结果进行排序

从前一篇文章中的wordcount的输出结果可以看出来结果是未经排序的，如何对spark的输出结果进行排序呢？先对reduceByKey的结果进行key,value位置置换（数字，字符），然后再进行数字排序，再将key，value位置置换...

分类：编程语言时间：2015-01-29 14:48:39 阅读次数：142

共7164条上一页 1 ... 640 641 642 643 644 ... 717 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)