决策树的核心思想是:根据训练样本构建这样一棵树,使得其叶节点是分类标签,非叶节点是判断条件,这样对于一个未知样本,能在树上找到一条路径到达叶节点,就得到了它的分类。举个简单的例子,如何识别有毒的蘑菇?如果能够得到一棵这样的决策树,那么对于一个未知的蘑菇就很..
分类:
编程语言 时间:
2014-10-30 19:26:22
阅读次数:
338
安装 sudo yum install numpy from numpy import * 产生一个数组 random.rand(4,5) result: array([[ 0.79056842, ?0.31659893, ?0.34054779, ?0.97328131, ?0.32648329], ? ? ? ?[ 0.51585845, ?0.706...
分类:
编程语言 时间:
2014-10-30 17:27:38
阅读次数:
248
开始学习用python实现机器学习的算法,用到了numpy库,好多函数不清楚。google上找到numpy的官网,可以链接到numpy的reference:http://docs.scipy.org/doc/numpy/reference/这里仅记录学习过程中用到的:【转】配置python命令tab...
分类:
编程语言 时间:
2014-10-30 16:51:02
阅读次数:
170
k近邻(k-NearestNeighbor,KNN)算法,应该是机器学习里最基础的算法,其核心思想是:给定一个未知分类的样本,如果与它最相似的k个已知样本中的多数属于某一个分类,那么这个未知样本也属于这个分类。所谓相似,是指两个样本之间的欧氏距离小,其计算公式为:k近邻算法的优点..
分类:
编程语言 时间:
2014-10-30 15:30:23
阅读次数:
231
学习Andrew N.g的机器学习课程之后的简单实现.课程地址:https://class.coursera.org/ml-007不大会编辑公式,所以略去具体的推导,有疑惑的同学去看看Andrew 的课程吧,顺带一句,Andrew的课程实在是很赞。如果还有疑问,feel free to contac...
分类:
编程语言 时间:
2014-10-30 13:08:29
阅读次数:
348
数学基础(2节课)微积分极限,e,导数,微分,积分偏导数,方向导数,梯度极值,多元函数极值,多元函数泰勒展开无约束优化,约束优化拉格朗日乘子,对偶问题线性代数矩阵,行列式,初等变换线性相关,线性无关秩,特征值,特征向量正交向量、正交矩阵矩阵分解概率随机变量,概率密度函数,分布函数条件概率,全概率公式...
分类:
其他好文 时间:
2014-10-30 10:16:09
阅读次数:
185
本内容 来自微信公众平台:机器学习之窗 以及 http://www.cnblogs.com/kaituorensheng/p/3579347.html在模式识别领域中,最近邻居法(KNN算法,又译K-近邻算法)是将在特征空间中最接近的训练样本进行分类的方法。最近邻居法采用向量空间模型来分类,概念.....
分类:
编程语言 时间:
2014-10-29 18:58:24
阅读次数:
387
机器学习实战python因为图像处理的原因,初步学习机器学习,选用语言python,参考书籍《机器学习实战》环境:python3.4+ windows7 +64位系统首先,今天解决的是安装numpy1)安装python,这个比较简单,去官网下载个安装包就可以了,地址:https://www.pyth...
分类:
编程语言 时间:
2014-10-29 18:36:02
阅读次数:
235
阅读导读:
1.什么是聚类分析?
2.Mahout中的kmeans算法,默认的分融符是什么?
3.用kmeans算法得到的结果有什么特点?
1.
聚类算法kmeans
聚类分析是数据挖掘及机器学习领域内的重点问题之一,在数据挖掘、模式识别、决策支持、机器学习及图像分割等领域有广泛的应用,是最重要的数据分析方法之一。聚类是在给定的数据集合中寻找同类的数据子集合,每一...
分类:
其他好文 时间:
2014-10-29 00:25:22
阅读次数:
359
最近学习了一种叫做 Factorization Machines(简称 FM)的通用算法,它可对任意的实值向量进行预测。其主要优点包括: 1) 可用于高度稀疏数据场景; 2) 具有线性的计算复杂度。本文将对 FM 框架进行简单介绍,并对其训练算法 — 随机梯度下降(SGD) 法和交替最小二乘法(ALS)法进行详细推导。...
分类:
系统相关 时间:
2014-10-28 12:21:35
阅读次数:
333