课程介绍本课程是世界上第一Spark企业级最佳实践课程,课程包含:Spark的架构设计;Spark编程模型;Spark内核框架源码剖析;Spark的广播变量与累加器;Shark的原理和使用;Spark的机器学习;Spark的图计算GraphX;SparkSQL;Spark实时流处理;Spark程序的...
分类:
其他好文 时间:
2014-12-23 06:40:31
阅读次数:
216
课程介绍2014年5月30日发布了Spark1.0.0版本,而本课程是世界上第一个Spark1.0.0企业级实践课程,课程包含Spark的架构设计、Spark编程模型、Spark内核框架源码剖析、Spark的广播变量与累加器、Shark的原理和使用、Spark的机器学习、Spark的图计算Graph...
分类:
其他好文 时间:
2014-12-23 06:40:01
阅读次数:
244
相似度的计算是数据挖掘与机器学习中的一个永恒的话题,为了能更好地理解与比较各种相似度计算的方法,能灵活运用到各种计算模型中,自己在研究机器学习之Mahout框架时,源代码中也实现了很多相似度计算方法,本文结合机器学习Mahout框架中各种相似度计算方法的实现,并且从代数角度和几何角度来理解相似度的计算方法。并阐述其优缺点,及自己的适用场景。本文通过总结和归纳,一共总结了9中距离测量方法,方法一到方法七是Mahout中完完本本实现了,其中前面是方面名,破折号后是Mahout中各方法实现的类名,本文结合Maho...
分类:
其他好文 时间:
2014-12-23 00:19:48
阅读次数:
1390
通过前四讲可知,在假设集大小(M)有限的条件下,机器是可以学习的。第五讲的目的是解决M为无限大时,机器是否能学习的问题。为什么在假设集大小(M)有限的条件下,机器是可以学习的?1. 其依据是Hoeffding不等式:这个不等式说明了,训练集的错误率Ein(g)和测试集的错误率Eout(g)的差距太大...
分类:
其他好文 时间:
2014-12-23 00:03:42
阅读次数:
208
斯坦福NG机器学习课程:Anomaly Detection 很好的异常检测入门学习资源。...
分类:
其他好文 时间:
2014-12-22 02:04:35
阅读次数:
192
1.matlab 和 octave 的使用2.待了解的名词(凸性优化,隐式马尔科夫链)3.一些数据挖掘的定义 : 一个计算机应用程序,假设有一个任务T,然后有一个性能测量方法P,在经验E的 影响下P对T的测量结果得到改进。4.向量机的概念: 用来把一个无限维数的向量变成有限的维数。5.学习性算法的分...
分类:
其他好文 时间:
2014-12-22 00:48:03
阅读次数:
238
这是个KNN算法的另一实例,计算Dating的可能性。import numpy as npimport osimport operatorimport matplotlibimport matplotlib.pyplot as pltdef classify(inX, dataSet, labels...
分类:
其他好文 时间:
2014-12-21 17:50:01
阅读次数:
266
监督学习(supervised learning):叫监督学习的原因是因为我们告诉了算法,我们想要预测什么。所谓监督,其实就是我们的意愿是否能直接作用于预测结果。典型代表:分类(classification)和回归(regression)。非监督学习(unsupervised learning):在...
分类:
其他好文 时间:
2014-12-21 00:39:40
阅读次数:
232
斯坦福NG机器学习课程:Dimensionality_reduction笔记,很好讲解降维和PCA算法。...
分类:
其他好文 时间:
2014-12-20 15:37:22
阅读次数:
434