搜索关键字：SPARK RDD，搜索到7287个结果！码迷,mamicode.com！

Spark Streaming、Kafka结合Spark JDBC External DataSouces处理案例

场景：使用Spark Streaming接收Kafka发送过来的数据与关系型数据库中的表进行相关的查询操作；Kafka发送过来的数据格式为：id、name、cityId，分隔符为tab1 zhangsan 12 lisi 13 wangwu ...

分类：数据库时间：2015-02-02 10:48:27 阅读次数：169

Spark SQL 源代码分析之 In-Memory Columnar Storage 之 in-memory query

/**Spark SQL源代码分析系列文章*/ 前面讲到了Spark SQL In-Memory Columnar Storage的存储结构是基于列存储的。那么基于以上存储结构，我们查询cache在jvm内的数据又是怎样查询的，本文将揭示查询In-Memory Data的方式。一、引子本例使用.....

分类：数据库时间：2015-02-01 21:39:05 阅读次数：201

spark MLlib 概念 4：协同过滤（CF）

1. 定义协同过滤（Collaborative Filtering）有狭义和广义两种意义：广义协同过滤：对来源不同的数据，根据他们的共同点做过滤处理。Collaborative filtering(CF) is a technique used by somerecommender systems....

分类：其他好文时间：2015-02-01 19:09:37 阅读次数：326

spark MLlib 概念 5：余弦相似度（Cosine similarity）

概述：余弦相似度是对两个向量相似度的描述，表现为两个向量的夹角的余弦值。当方向相同时（调度为0），余弦值为1，标识强相关；当相互垂直时（在线性代数里，两个维度垂直意味着他们相互独立），余弦值为0，标识他们无关。Cosine similarityis a measure of similarity ...

分类：其他好文时间：2015-02-01 19:01:08 阅读次数：917

spark MLlib 概念 3：卡方分布

数学定义[编辑]若k个随机变量、……、是相互独立，符合标准正态分布的随机变量（数学期望为0、方差为1），则随机变量Z的平方和被称为服从自由度为k的卡方分布，记作Definition[edit]IfZ1, ...,Zkareindependent,standard normalrandom varia...

分类：其他好文时间：2015-02-01 17:32:23 阅读次数：209

spark MLlib 概念 2：Stratified sampling 层次抽样

定义：Instatistical surveys, when subpopulations within an overall population vary, it is advantageous to sample each subpopulation (stratum) independent...

分类：其他好文时间：2015-02-01 17:25:53 阅读次数：251

Spark下的FP-Growth和Apriori（频繁项集挖掘并行化算法）

频繁项集挖掘是一个关联式规则挖掘问题。关联挖掘是数据挖掘中研究最早也是最活跃的领域，其中频繁模式的挖掘是关联挖掘的核心和基础，是产生关联规则挖掘的基础。其中FP-Growth和Apriori算法是最为经典的频繁项集挖掘算法。本文在spark下利用scala编写，充分利用了spark的内存计算方式和scala简洁的语法模式和先天性的并行化特性，充分发挥了FP-Growth。...

分类：编程语言时间：2015-02-01 13:33:53 阅读次数：310

一天一段scala代码（四）

一天一段scala代码（四）为了更好的驾驭spark，最近在学习scala语言特性，主要看《快学scala》，顺便把一些自己认为有用的代码记下来。 package examples object Example4 { def main(args: Array[String]) { //不可变Map val...

分类：其他好文时间：2015-01-30 22:45:37 阅读次数：226

Spark API编程动手实战-04-以在Spark 1.2版本实现对union、groupByKe

下面看下union的使用：使用collect操作查看一下执行结果：再看下groupByKey的使用：执行结果： join操作就是一个笛卡尔积操作的过程，如下示例：对rdd3和rdd4执行join操作：使用collect查看执行结果：可以看...

分类：Windows程序时间：2015-01-30 17:55:34 阅读次数：253

一天一段scala代码（三）

一天一段scala代码（三）为了更好的驾驭spark，最近在学习scala语言特性，主要看《快学scala》，顺便把一些自己认为有用的代码记下来。 package examples import scala.collection.mutable.ArrayBuffer object Example3 { def main(args: Ar...

分类：其他好文时间：2015-01-29 22:34:12 阅读次数：188

共7287条上一页 1 ... 653 654 655 656 657 ... 729 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)