spark1.0.0下使用scala实现机器学习算法,包括分类、回归、聚类、协同过滤以及降维等。
分类:
其他好文 时间:
2014-06-18 15:25:15
阅读次数:
346
1、介绍 ?决策树(decision tree)是一种有监督的机器学习算法,是一个分类算法。在给定训练集的条件下,生成一个自顶而下的决策树,树的根为起点,树的叶子为样本的分类,从根到叶子的路径就是一个样本进行分类的过程。 ?下图为一个决策树的例子,见http://zh.wikipedia.org/w...
分类:
其他好文 时间:
2014-06-17 13:17:44
阅读次数:
281
什么是回归?假设现在有些数据点,我用直线对这些点进行拟合(该线叫做最佳拟合直线),这个拟合的过程就叫做回归。Logistic回归?这里,Logistic回归进行分类的主要思想:根据现有数据对分类的边界线建立回归公式,以此边界线进行分类。这里的回归指的是最佳拟合,就是要找到边界线的回归公式的最佳拟合的...
分类:
其他好文 时间:
2014-06-17 12:52:30
阅读次数:
648
K-均值聚类算法的MapReduce实现理解...
分类:
其他好文 时间:
2014-06-16 22:04:50
阅读次数:
207
本文主要介绍了聚类算法中K-均值聚类,并给出了一个机器学习示例软件。...
分类:
其他好文 时间:
2014-06-16 20:34:33
阅读次数:
248
(转载请注明出处:http://blog.csdn.net/buptgshengod)1.背景 这是博主第一次大数据实战的经历,之前都是自己写一些算法然后测试很小的数量级。这次是真正接触到TB集的数据,而且完全是在云端处理。下面就把这次的经历简单分享一下。首先简单介绍一下这次比赛的环境吧:1.云:采用的是阿里云2.数据:从四月十五号到八月十五号期间,用户两千多万的购买行为(包括时间,购买、收...
分类:
其他好文 时间:
2014-06-16 14:21:39
阅读次数:
351
概要:
微软研究院的人写的文章,提出用逻辑回归来解决ctr预估问题,是以后ctr的经典解决方案,经典文章。
具体内容:
名词:
CPC —— cost per click
CTR —— click through rate
1. 研究初衷
搜索引擎主要靠商业广告收入,在广告位上面打广告,用户点击,之后广告商付费。在通用搜索引擎,通常广告位置是在搜索结果...
分类:
其他好文 时间:
2014-06-15 15:29:24
阅读次数:
416
Mac高大上嘛?Mac因为贵就高大上了?Mac因为没有这个哪个就不高大上了?怎么说都可以,本文是回归技术本源,是不是高大上还要大家自己评说。
本文力图详尽地介绍Mac OS X的文件系统(HFS, HFS+等)的由来和发展,与其它操作系统在文件系统上的比较,从技术和数据存储方面阐明逻辑卷管理子系统(LVM)对于现代操作系统的重要性,OS X在支持LVM方面走过的弯路,以及现在OS X内置的逻辑卷管理子系统-核心存储Core Storage。着重介绍核心存储的结构,功能,内部命令,希望能让对朋友们对它由一个相...
分类:
其他好文 时间:
2014-06-15 13:30:39
阅读次数:
476
推荐系统,主要采用对历史数据的分析计算,得到某种模型,对未来的数据进行预测。说到底,还是分类问题。
Mahout,是一个可扩展的机器学习库,可用于单机,也可用于Hadoop。
Mahout的API非常简单,实现一个推荐功能只需要如下的几行代码:
DataModel model = new FileDataModel(new File(file));//建立数据模型
UserSimil...
分类:
其他好文 时间:
2014-06-15 12:35:30
阅读次数:
193
简介
很多人都玩过一个游戏,通过限定次数的提问猜出对方在纸上写出的一个词,当然对方必须对我们的每一个猜测做出回应,通过一连串正确或者错误的判断,如果最终我们猜出了对方的那个词,那么我们就取得了胜利,决策树的工作原理就和这个游戏类似,看下面一个例子:
上面这张图就是一个典型的决策树,我们每天出门前要想一下今天是开车还是走路呢?首先看看窗外,下雨了吗?如果有再看看到底是雪还是雨?哇靠!是雪...
分类:
其他好文 时间:
2014-06-14 14:45:27
阅读次数:
833