概述K最近邻(k-Nearest Neighbor,KNN)分类算法可以说是最简单的机器学习算法了。它采用测量不同特征值之间的距离方法进行分类。它的思想很简单:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。算法总结k-邻近算法是分类...
分类:
其他好文 时间:
2015-04-11 01:11:04
阅读次数:
209
k临近算法(kNN)采用测量不同特征值之间的距离方法进行分类,也是一种非常直观的方法。本文主要记录了使用kNN算法改进约会网站的例子。任务一:分类算法classify0
就是使用距离公式计算特征值之间的距离,选择最邻近的k个点,通过统计这k个点的结果来得出样本的预测值。
tile函数用法在这里
argsort函数在这里def classify0(inX,dataset,labels,k):...
分类:
其他好文 时间:
2015-04-10 22:36:02
阅读次数:
233
报错信息 :
java.lang.IllegalArgumentException: GiniAggregator given label 2.0 but requires label
在用mllib做分类,当用到一些分类算法时,常常需要加入基尼系数。
程序代码:RandomForest.trainClassifier(validData,2,Map[In...
分类:
编程语言 时间:
2015-04-09 21:54:31
阅读次数:
203
在机器学习领域,混淆矩阵(confusion matrix),又称为可能性表格或是错误矩阵。它是一种特定的矩阵用来呈现算法性能的可视化效果,通常是监督学习(非监督学习,通常用匹配矩阵:matching matrix)。其每一列代表预测值,每一行代表的是实际的类别。这个名字来源于它可以非常容易的表明多个类别是否有混淆(也就是一个class被预测成另一个class)。...
分类:
其他好文 时间:
2015-04-07 23:29:49
阅读次数:
642
在Mahout实现的机器学习算法见下表算法类算法名中文名分类算法Logistic Regression逻辑回归Bayesian贝叶斯SVM支持向量机Perceptron感知器算法Neural Network神经网络Random Forests随机森林Restricted Boltzmann Mach...
分类:
编程语言 时间:
2015-04-02 01:16:53
阅读次数:
178
分类和数值预测是预测问题的两种主要类型。分类是预测分类(离散、无序的)标号,而预测则是建立连续值函数模型。一、分类问题的步骤:1、使用训练集建立描述预先定义的数据类或概念集的分类器。第一步也称之为“学习步”或者“训练模型阶段”,使用特定的分类算法通过分析从训练集中学习来构造相应的分类器或者分类模型。...
分类:
其他好文 时间:
2015-03-30 18:11:35
阅读次数:
2205
原文http://blog.csdn.net/maverick1990/article/details/11721453欠拟合与过拟合概念本次课程大纲:1、局部加权回归:线性回归的变化版本2、概率解释:另一种可能的对于线性回归的解释3、Logistic回归:基于2的一个分类算法4、感知器算法:对于3...
分类:
其他好文 时间:
2015-03-28 18:33:49
阅读次数:
179
决策树、knn算法都是结果确定的分类算法,数据示实例最终被明确的划分到某个分类中贝叶斯:不能完全确定数据实例应该划分到某个类,湖综合只能给出数据实例属于给定分类的概率 *引入先验概率与逻辑推理来处理不确定命题 *(扩展命题),另一种叫频数概率,从数据本身出发得到结论,不考了逻辑推理及先验知识。朴.....
分类:
其他好文 时间:
2015-03-19 06:12:50
阅读次数:
155
adaboost是boosting方法多个版本中最流行的一个版本,它是通过构建多个弱分类器,通过各个分类器的结果加权之后得到分类结果的。这里构建多个分类器的过程也是有讲究的,通过关注之前构建的分类器错分的那些数据而获得新的分类器。这样的多个分类器在训练时很容易得到收敛。
本文主要介绍了通过单层决策树构建弱分类器,同理,也可以用其他的分类算法构建弱分类器。
boost 算法系列的起源来自...
分类:
编程语言 时间:
2015-03-18 15:55:50
阅读次数:
222