概述:余弦相似度 是对两个向量相似度的描述,表现为两个向量的夹角的余弦值。当方向相同时(调度为0),余弦值为1,标识强相关;当相互垂直时(在线性代数里,两个维度垂直意味着他们相互独立),余弦值为0,标识他们无关。Cosine similarityis a measure of similarity ...
分类:
其他好文 时间:
2015-02-01 19:01:08
阅读次数:
917
数学定义[编辑]若k个随机变量、……、是相互独立,符合标准正态分布的随机变量(数学期望为0、方差为1),则随机变量Z的平方和被称为服从自由度为k的卡方分布,记作Definition[edit]IfZ1, ...,Zkareindependent,standard normalrandom varia...
分类:
其他好文 时间:
2015-02-01 17:32:23
阅读次数:
209
定义:Instatistical surveys, when subpopulations within an overall population vary, it is advantageous to sample each subpopulation (stratum) independent...
分类:
其他好文 时间:
2015-02-01 17:25:53
阅读次数:
251
频繁项集挖掘是一个关联式规则挖掘问题。关联挖掘是数据挖掘中研究最早也是最活跃的领域,其中频繁模式的挖掘是关联挖掘的核心和基础,是产生关联规则挖掘的基础。其中FP-Growth和Apriori算法是最为经典的频繁项集挖掘算法。本文在spark下利用scala编写,充分利用了spark的内存计算方式和scala简洁的语法模式和先天性的并行化特性,充分发挥了FP-Growth。...
分类:
编程语言 时间:
2015-02-01 13:33:53
阅读次数:
310
一天一段scala代码(四)
为了更好的驾驭spark,最近在学习scala语言特性,主要看《快学scala》,顺便把一些自己认为有用的代码记下来。
package examples
object Example4 {
def main(args: Array[String])
{
//不可变Map
val...
分类:
其他好文 时间:
2015-01-30 22:45:37
阅读次数:
226
下面看下union的使用: 使用collect操作查看一下执行结果: 再看下groupByKey的使用: 执行结果: join操作就是一个笛卡尔积操作的过程,如下示例: 对rdd3和rdd4执行join操作: 使用collect查看执行结果: 可以看...
一天一段scala代码(三)
为了更好的驾驭spark,最近在学习scala语言特性,主要看《快学scala》,顺便把一些自己认为有用的代码记下来。
package examples
import scala.collection.mutable.ArrayBuffer
object Example3 {
def main(args: Ar...
分类:
其他好文 时间:
2015-01-29 22:34:12
阅读次数:
188
摘要:Spark是继Hadoop之后的新一代大数据分布式处理框架,由UC Berkeley的Matei Zaharia主导开发。我只能说是神一样的人物造就的神器,详情请猛击http://www.spark-project.org/ Created 2012-05-09 Modified 2012-0...
分类:
其他好文 时间:
2015-01-29 21:05:36
阅读次数:
239
安装好Spark 后,官方自带了一些demo, 路径在 ?Spark根目录/examples/src/main/python/ 里面有些例子,例如统计字数的 wordcount.py import?sys
from?operator?import?add
from?pyspark?import?SparkCo...
分类:
其他好文 时间:
2015-01-29 17:53:34
阅读次数:
224
从前一篇文章中的wordcount的输出结果可以看出来结果是未经排序的,如何对spark的输出结果进行排序呢? 先对reduceByKey的结果进行key,value位置置换(数字,字符),然后再进行数字排序,再将key,value位置置换...
分类:
编程语言 时间:
2015-01-29 14:48:39
阅读次数:
142