场景:使用Spark Streaming接收Kafka发送过来的数据与关系型数据库中的表进行相关的查询操作;Kafka发送过来的数据格式为:id、name、cityId,分隔符为tab1 zhangsan 12 lisi 13 wangwu ...
分类:
数据库 时间:
2015-02-02 10:48:27
阅读次数:
169
/**Spark SQL源代码分析系列文章*/ 前面讲到了Spark SQL In-Memory Columnar Storage的存储结构是基于列存储的。 那么基于以上存储结构,我们查询cache在jvm内的数据又是怎样查询的,本文将揭示查询In-Memory Data的方式。一、引子本例使用.....
分类:
数据库 时间:
2015-02-01 21:39:05
阅读次数:
201
1. 定义协同过滤(Collaborative Filtering)有狭义和广义两种意义:广义协同过滤:对来源不同的数据,根据他们的共同点做过滤处理。Collaborative filtering(CF) is a technique used by somerecommender systems....
分类:
其他好文 时间:
2015-02-01 19:09:37
阅读次数:
326
概述:余弦相似度 是对两个向量相似度的描述,表现为两个向量的夹角的余弦值。当方向相同时(调度为0),余弦值为1,标识强相关;当相互垂直时(在线性代数里,两个维度垂直意味着他们相互独立),余弦值为0,标识他们无关。Cosine similarityis a measure of similarity ...
分类:
其他好文 时间:
2015-02-01 19:01:08
阅读次数:
917
数学定义[编辑]若k个随机变量、……、是相互独立,符合标准正态分布的随机变量(数学期望为0、方差为1),则随机变量Z的平方和被称为服从自由度为k的卡方分布,记作Definition[edit]IfZ1, ...,Zkareindependent,standard normalrandom varia...
分类:
其他好文 时间:
2015-02-01 17:32:23
阅读次数:
209
定义:Instatistical surveys, when subpopulations within an overall population vary, it is advantageous to sample each subpopulation (stratum) independent...
分类:
其他好文 时间:
2015-02-01 17:25:53
阅读次数:
251
频繁项集挖掘是一个关联式规则挖掘问题。关联挖掘是数据挖掘中研究最早也是最活跃的领域,其中频繁模式的挖掘是关联挖掘的核心和基础,是产生关联规则挖掘的基础。其中FP-Growth和Apriori算法是最为经典的频繁项集挖掘算法。本文在spark下利用scala编写,充分利用了spark的内存计算方式和scala简洁的语法模式和先天性的并行化特性,充分发挥了FP-Growth。...
分类:
编程语言 时间:
2015-02-01 13:33:53
阅读次数:
310
一天一段scala代码(四)
为了更好的驾驭spark,最近在学习scala语言特性,主要看《快学scala》,顺便把一些自己认为有用的代码记下来。
package examples
object Example4 {
def main(args: Array[String])
{
//不可变Map
val...
分类:
其他好文 时间:
2015-01-30 22:45:37
阅读次数:
226
下面看下union的使用: 使用collect操作查看一下执行结果: 再看下groupByKey的使用: 执行结果: join操作就是一个笛卡尔积操作的过程,如下示例: 对rdd3和rdd4执行join操作: 使用collect查看执行结果: 可以看...
一天一段scala代码(三)
为了更好的驾驭spark,最近在学习scala语言特性,主要看《快学scala》,顺便把一些自己认为有用的代码记下来。
package examples
import scala.collection.mutable.ArrayBuffer
object Example3 {
def main(args: Ar...
分类:
其他好文 时间:
2015-01-29 22:34:12
阅读次数:
188