MLlib支持几种数据类型:本地向量(local vectors),和存储在本地或者基于RDD的分布式矩阵(matrices)。底层的线性代数转换操作是基于Breeze和jblas实现的。在MLlib...
分类:
其他好文 时间:
2017-04-20 20:10:37
阅读次数:
264
本篇博文主要围绕Spark上的决策树来讲解,我将分为2部分来阐述这一块的知识。第一部分会介绍一些决策树的基本概念、Spark下决策树的表示与存储、结点分类信息的存储、结点的特征选择与分类;第二部分通过...
分类:
编程语言 时间:
2017-04-11 12:15:33
阅读次数:
429
在FP Tree算法原理总结和PrefixSpan算法原理总结中,我们对FP Tree和PrefixSpan这两种关联算法的原理做了总结,这里就从实践的角度介绍如何使用这两个算法。由于scikit-learn中没有关联算法的类库,而Spark MLlib有,本文的使用以Spark MLlib作为使用 ...
分类:
编程语言 时间:
2017-04-07 18:22:19
阅读次数:
225
转载请标明出处http://www.cnblogs.com/haozhengfei/p/82c3ef86303321055eb10f7e100eb84b.html PIC算法 幂迭代聚类 PIC算法全称Power iteration clustering 幂迭代聚类 1.谱聚类 幂迭代聚类的前身-- ...
分类:
编程语言 时间:
2017-03-22 00:42:51
阅读次数:
458
转载请标明出处http://www.cnblogs.com/haozhengfei/p/24cb3f38b55e5d7516d8059f9f105eb6.html 保序回归 1.线性回归VS保序回归 ? 线性回归->线性拟合 ? 保序回归->保序的分段线性拟合,保序回归是拟合原始数据最佳的单调函数 ...
分类:
其他好文 时间:
2017-03-22 00:26:01
阅读次数:
247
转载请标明出处http://www.cnblogs.com/haozhengfei/p/8b9cb1875288d9f6cfc2f5a9b2f10eac.html GBDT算法 江湖传言:GBDT算法堪称算法界的倚天剑屠龙刀 <!--more--> GBDT算法主要由三个部分组成: – Regres ...
分类:
编程语言 时间:
2017-03-22 00:01:56
阅读次数:
828
Spark中定义的损失函数及梯度,在看源码之前,先回顾一下机器学习中定义了哪些损失函数,毕竟梯度求解是为优化求解损失函数服务的。监督学习问题是在假设空间F中选取模型f作为决策函数,对于给定的输入X,由...
分类:
编程语言 时间:
2017-03-20 19:32:19
阅读次数:
273
1. 软件版本:IDE:Intellij IDEA 14,Java:1.7,Scala:2.10.6;Tomcat:7,CDH:5.8.0; Spark:1.6.0-cdh5.8.0-hadoop2....
分类:
编程语言 时间:
2017-03-18 21:34:09
阅读次数:
500
WRMF is like the classic rock of implicit matrix factorization. It may not be the trendiest, but it will never go out of style ... ...
分类:
其他好文 时间:
2017-03-12 21:35:41
阅读次数:
1090