session cookie之间的差别在于session可以方便的存取多种数据类型,而cookie只支持字符串类型,同时对于一些安全性比较高的数据,cookie需要进行格式化与加密存储,而session存储在服务端则安全性较高。 10000, 'name' => 'spark', 'em...
分类:
Web程序 时间:
2015-05-08 12:50:16
阅读次数:
156
1.1 逻辑回归算法
1.1.1 基础理论
logistic回归本质上是线性回归,只是在特征到结果的映射中加入了一层函数映射,即先把特征线性求和,然后使用函数g(z)将最为假设函数来预测。g(z)可以将连续值映射到0和1上。
它与线性回归的不同点在于:为了将线性回归输出的很大范围的数,例如从负无穷到正无穷,压缩到0和1之间,这样的输出值表达为“可能性”才能说服广大民众。当然了,把大值压缩到这...
分类:
编程语言 时间:
2015-05-07 18:55:51
阅读次数:
391
val sc = new SparkContext(...)
val links = sc.parallelize(Array(('A',Array('D')),('B',Array('A')),('C',Array('A','B')),('D',Array('A','C'))),2).map(x => (x._1,x._2)).cache()
var ranks = sc.paralleliz...
分类:
其他好文 时间:
2015-05-07 18:53:41
阅读次数:
129
1、我理解常用的Spark部署方式有三种1)、本地服务,就是所谓的local,在IDE上本地跑程序,用于调试2)、Standalone,使用自己的master/worker进行服务的调度。 脱离yarn的资源管理3)、Spark on yarn。 使用yarn来进行资源的调度2、在spark-env...
分类:
其他好文 时间:
2015-05-07 18:33:08
阅读次数:
153
RDD是什么?RDD是Spark中的抽象数据结构类型,任何数据在Spark中都被表示为RDD。从编程的角度来看,RDD可以简单看成是一个数组。和普通数组的区别是,RDD中的数据是分区存储的,这样不同分区的数据就可以分布在不同的机器上,同时可以被并行处理。因此,Spark应用程序所做的无非是把需要处理...
最近,在学习和使用Spark的过程中,遇到了一些莫名其妙的错误和问题,在逐个解决的过程中,体会到有必要对解决上述问题的方法进行总结,以便能够在短时间内尽快发现问题来源并解决问题,现与各位看官探讨学习如下...
分类:
其他好文 时间:
2015-05-07 12:47:14
阅读次数:
123
本文中,我们将首先讨论如何在本地机器上利用Spark进行简单分析。然后,将在入门级水平探索Spark,了解Spark是什么以及它如何工作(希望可以激发更多探索)。最后两节将开始通过命令行与Spark进行交互,然后演示如...
分类:
编程语言 时间:
2015-05-07 06:31:35
阅读次数:
957
1、Spark MLlib
Linear Regression线性回归算法
1.1 线性回归算法
1.1.1 基础理论
在统计学中,线性回归(Linear Regression)是利用称为线性回归方程的最小平方函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析。这种函数是一个或多个称为回归系数的模型参数的线性组合。
回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条...
分类:
编程语言 时间:
2015-05-06 23:07:57
阅读次数:
669
分布式计算在许多领域都有广泛需求,目前流行的分布式计算框架主要有 Hadoop MapReduce, Spark Streaming, Storm; 这三个框架各有优势,现在都属于 Apache 基金会下的顶级项目,下文将对三个框架的特点与适用场景进行分析,以便开发者能快速选择适合自己的框架进行开发...
分类:
其他好文 时间:
2015-05-06 14:51:36
阅读次数:
174
采用aszip代码库生成,以下是测试代码,生成多个目录多个文件 xmlns:fx="http://ns.adobe.com/mxml/2009" xmlns:s="library://ns.adobe.com/flex/spark" xmlns:mx="library://ns.adobe.com/flex/mx"minWidth="9...
分类:
其他好文 时间:
2015-05-06 13:22:08
阅读次数:
153