课程介绍本课程是世界上第一Spark企业级最佳实践课程,课程包含:Spark的架构设计;Spark编程模型;Spark内核框架源码剖析;Spark的广播变量与累加器;Shark的原理和使用;Spark的机器学习;Spark的图计算GraphX;SparkSQL;Spark实时流处理;Spark程序的...
分类:
其他好文 时间:
2014-12-20 02:09:20
阅读次数:
227
在学到相关性度量的时候,有一个系数用来度量相似性(距离),这个系数叫做皮尔逊系数,事实上在统计学的时候就已经学过了,仅仅是当时不知道还能用到机器学习中来,这更加让我认为机器学习离不开统计学了。皮尔逊相关系数——Pearson correlation coefficient,用于度量两个变量之间的相关...
分类:
其他好文 时间:
2014-12-19 14:25:28
阅读次数:
217
转载:http://blog.csdn.net/v_july_v/article/details/40738211 0 引言 11月1日上午,机器学习班第7次课,邹博讲聚类(PPT),其中的谱聚类引起了自己的兴趣,他从最基本的概念:单位向量、两个向量的正交、方阵的特征值和特征向量,讲到相似度图、拉普...
分类:
其他好文 时间:
2014-12-19 11:57:00
阅读次数:
311
专业既然是机器学习,那工作肯定也是继续和数据打交道,那么问题来了,很多时候推荐算法和数据挖掘算法都是现成可用的,平台初建,重点还在数据过滤和抽取,怎样高效的抽取数据?
利用往常算法比赛中常用的字符串处理方法吗,omg,维护它是一个淡淡疼的忧伤。
那么,重点来了,正则表达式,干净利落。
模版如下:
//step1,set reg string
String r...
分类:
编程语言 时间:
2014-12-19 00:41:32
阅读次数:
265
1 梯度下降法我们使用梯度下降法是为了求目标函数最小值f(X)对应的X,那么我们怎么求最小值点x呢?注意我们的X不一定是一维的,可以是多维的,是一个向量。我们先把f(x)进行泰勒展开:这里的α是学习速率,是个标量,代表X变化的幅度;d表示的是单位步长,是一个矢量,有方向,单位长度为1,代表X变化的方...
分类:
其他好文 时间:
2014-12-18 22:07:28
阅读次数:
294
引言
上一小节,我们引入了VC维的概念,用它来描述假设集合的表达能力。这一小节中,我们将从VC维的物理意义出发,进一步学习如何根据VC维传达的信息来选择模型和假设集合。
VC维的物理意义
如果我们将假设集合的数量|H|比作假设集合的自由度,那么VC维就是假设集合在做二元分类的有效的自由度,即这个假设空间能够产生多少Dichotomies的能力(VC维说的是,到什么时候,假设集合还...
分类:
其他好文 时间:
2014-12-18 20:46:50
阅读次数:
314
第四讲介绍了机器学习是否可行的问题。1. 从给定的资料D中,找出一个接近目标f的假设g是可行的。比如PLA。但是,找到的这个g能否用于D以外的地方,这就难说了。2. Hoeffding's inequality回答了g是否能用于D以外的问题: (1)In probability theory, H....
分类:
其他好文 时间:
2014-12-18 20:27:01
阅读次数:
384
Awesome CPP,这又是一个 Awesome XXX 系列的资源整理,由 fffaraz 发起和维护。内容包括:标准库、Web应用框架、人工智能、数据库、图片处理、机器学习、日志、代码分析等。伯乐在线推荐几篇相关文章:《C++程序员的阅读清单》、《我推荐的一些C\C++书籍》 、《C++11标...
分类:
编程语言 时间:
2014-12-18 14:53:19
阅读次数:
534
1. 算法背景介绍分类树(决策树)是一种十分常用的分类方法。它是一种监管学习,所谓监管学习说白了很简单,就是给定一堆样本,每个样本都有一组属性和一个类别,这些类别是事先确定的,那么通过学习得到一个分类器,这个分类器能够对新出现的对象给出正确的分类。这样的机器学习就被称之为监督学习。C4.5分类树就是...
分类:
编程语言 时间:
2014-12-18 11:53:35
阅读次数:
336
前言 本文介绍机器学习分类算法中的K-近邻算法并给出伪代码,Python代码实现。算法原理 首先获取训练集中与目标对象距离最近的k个对象,然后再获取这k个对象的分类标签,求出其中出现频数最大的标签。 这个标签就是分类的结果。伪代码 对训练集中的每个点做以下操作: 1. 计算已知类别数据...
分类:
编程语言 时间:
2014-12-18 11:39:03
阅读次数:
203