码迷,mamicode.com
首页 >  
搜索关键字:SPARK RDD    ( 7287个结果
Spark Streaming、Kafka结合Spark JDBC External DataSouces处理案例
场景:使用Spark Streaming接收Kafka发送过来的数据与关系型数据库中的表进行相关的查询操作;Kafka发送过来的数据格式为:id、name、cityId,分隔符为tab1 zhangsan 12 lisi 13 wangwu ...
分类:数据库   时间:2015-02-02 10:48:27    阅读次数:169
Spark SQL 源代码分析之 In-Memory Columnar Storage 之 in-memory query
/**Spark SQL源代码分析系列文章*/ 前面讲到了Spark SQL In-Memory Columnar Storage的存储结构是基于列存储的。 那么基于以上存储结构,我们查询cache在jvm内的数据又是怎样查询的,本文将揭示查询In-Memory Data的方式。一、引子本例使用.....
分类:数据库   时间:2015-02-01 21:39:05    阅读次数:201
spark MLlib 概念 4: 协同过滤(CF)
1. 定义协同过滤(Collaborative Filtering)有狭义和广义两种意义:广义协同过滤:对来源不同的数据,根据他们的共同点做过滤处理。Collaborative filtering(CF) is a technique used by somerecommender systems....
分类:其他好文   时间:2015-02-01 19:09:37    阅读次数:326
spark MLlib 概念 5: 余弦相似度(Cosine similarity)
概述:余弦相似度 是对两个向量相似度的描述,表现为两个向量的夹角的余弦值。当方向相同时(调度为0),余弦值为1,标识强相关;当相互垂直时(在线性代数里,两个维度垂直意味着他们相互独立),余弦值为0,标识他们无关。Cosine similarityis a measure of similarity ...
分类:其他好文   时间:2015-02-01 19:01:08    阅读次数:917
spark MLlib 概念 3: 卡方分布
数学定义[编辑]若k个随机变量、……、是相互独立,符合标准正态分布的随机变量(数学期望为0、方差为1),则随机变量Z的平方和被称为服从自由度为k的卡方分布,记作Definition[edit]IfZ1, ...,Zkareindependent,standard normalrandom varia...
分类:其他好文   时间:2015-02-01 17:32:23    阅读次数:209
spark MLlib 概念 2:Stratified sampling 层次抽样
定义:Instatistical surveys, when subpopulations within an overall population vary, it is advantageous to sample each subpopulation (stratum) independent...
分类:其他好文   时间:2015-02-01 17:25:53    阅读次数:251
Spark下的FP-Growth和Apriori(频繁项集挖掘并行化算法)
频繁项集挖掘是一个关联式规则挖掘问题。关联挖掘是数据挖掘中研究最早也是最活跃的领域,其中频繁模式的挖掘是关联挖掘的核心和基础,是产生关联规则挖掘的基础。其中FP-Growth和Apriori算法是最为经典的频繁项集挖掘算法。本文在spark下利用scala编写,充分利用了spark的内存计算方式和scala简洁的语法模式和先天性的并行化特性,充分发挥了FP-Growth。...
分类:编程语言   时间:2015-02-01 13:33:53    阅读次数:310
一天一段scala代码(四)
一天一段scala代码(四)        为了更好的驾驭spark,最近在学习scala语言特性,主要看《快学scala》,顺便把一些自己认为有用的代码记下来。 package examples object Example4 { def main(args: Array[String]) { //不可变Map val...
分类:其他好文   时间:2015-01-30 22:45:37    阅读次数:226
Spark API编程动手实战-04-以在Spark 1.2版本实现对union、groupByKe
下面看下union的使用: 使用collect操作查看一下执行结果: 再看下groupByKey的使用: 执行结果: join操作就是一个笛卡尔积操作的过程,如下示例: 对rdd3和rdd4执行join操作: 使用collect查看执行结果: 可以看...
分类:Windows程序   时间:2015-01-30 17:55:34    阅读次数:253
一天一段scala代码(三)
一天一段scala代码(三)        为了更好的驾驭spark,最近在学习scala语言特性,主要看《快学scala》,顺便把一些自己认为有用的代码记下来。 package examples import scala.collection.mutable.ArrayBuffer object Example3 { def main(args: Ar...
分类:其他好文   时间:2015-01-29 22:34:12    阅读次数:188
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!