特征选择 RFormula RFormula是一个很方便,也很强大的Feature选择(自由组合的)工具。 输入string 进行独热编码(见下面例子country) 输入数值型转换为double(见下面例子hour) label为string,也用StringIndexer进行编号 卡方独立检验 ...
分类:
编程语言 时间:
2018-01-31 20:24:50
阅读次数:
1193
Spark2.0 MLPC(多层神经网络分类器)算法概述 MultilayerPerceptronClassifier(MLPC)这是一个基于前馈神经网络的分类器,它是一种在输入层与输出层之间含有一层或多层隐含结点的具有正向传播机制的神经网络模型。 中间的节点使用sigmoid (logistic) ...
分类:
其他好文 时间:
2018-01-30 19:55:08
阅读次数:
243
概念梳理 GBDT的别称 GBDT(Gradient Boost Decision Tree),梯度提升决策树。 GBDT这个算法还有一些其他的名字,比如说MART(Multiple Additive Regression Tree),GBRT(Gradient Boost Regression T ...
分类:
其他好文 时间:
2018-01-22 13:02:33
阅读次数:
330
ALS矩阵分解 http://blog.csdn.net/oucpowerman/article/details/49847979 http://www.open-open.com/lib/view/open1457672855046.html 一个的打分矩阵 A 可以用两个小矩阵和的乘积来近似,描 ...
分类:
其他好文 时间:
2018-01-20 16:28:11
阅读次数:
213
MLlib中众多机器学习算法API在单一管道或工作流中更容易相互结合起来使用。管道的思想主要是受到scikit-learn库的启发。 ML API使用Spark SQL中的DataFrame作为机器学习的数据集。DataFrame不同的列可以分别存储文本,特征向量,真实的Lables,和预测值。 T ...
分类:
其他好文 时间:
2018-01-19 14:03:29
阅读次数:
172
Spark中的CrossValidation Spark中采用是k折交叉验证 (k-fold cross validation)。举个例子,例如10折交叉验证(10-fold cross validation),将数据集分成10份,轮流将其中9份做训练1份做验证,10次的结果的均值作为对算法精度的估 ...
分类:
其他好文 时间:
2018-01-18 17:12:27
阅读次数:
206
Spark2.0的机器学习算法比之前的改变最大的是2.0基本采用了dataframe来实现的,但之前的都是用的RDD,看官网说貌似在3.0的时候RDD就不用了!还有一个就是hiveContext和sqlContext进行了合并,统一是sessioncontext。 在spark.ml中,实现了加速失 ...
分类:
编程语言 时间:
2018-01-07 20:19:22
阅读次数:
1014
前提: 1.已经安装好spark。我的是spark2.2.0。 2.已经有python环境,我这边使用的是python3.6。 一、安装py4j 使用pip,运行如下命令: 使用conda,运行如下命令: 二、使用pycharm创建一个project。 创建过程中选择python的环境。进入之后点击 ...
分类:
系统相关 时间:
2017-12-18 01:24:34
阅读次数:
370
一、编译源码步骤演示详解 . 编译spark环境要求 1、必须在linux系统下编译(以centos6.4为例) 2、编译使用的JDK版本必须是1.6以上(以JDK1.8为例) 3、编译需要使用Maven版本3.0以上(以Maven3.3.9为例) 4、编译需要使用Scala(以scala-2.11 ...
分类:
其他好文 时间:
2017-11-12 11:18:43
阅读次数:
227