前一篇我们了解了一个最基本的 clustering 办法 k-means ,这次要说的 k-medoids 算法,其实从名字上就可以看出来,和 k-means 肯定是非常相似的。事实也确实如此,k-medoids 可以算是 k-means 的一个变种。 k-medoids 和 k-mean...
分类:
其他好文 时间:
2014-08-04 16:54:17
阅读次数:
232
机器学习问题方法总结大类名称关键词有监督分类决策树信息增益分类回归树Gini指数,Χ2统计量,剪枝朴素贝叶斯非参数估计,贝叶斯估计线性判别分析Fishre判别,特征向量求解K最邻近相似度度量:欧氏距离、街区距离、编辑距离、向量夹角、Pearson相关系数逻辑斯谛回归(二值分类)参数估计(极大似然估计...
分类:
其他好文 时间:
2014-08-03 23:05:56
阅读次数:
416
在机器学习的应用背景是多种多样的,做实际工程必须学会如何根据 具体的问题评估一个学习模型的好坏,如何合理地选择模型、提取特征,如何进行参数调优。这些也是我以前做模式识别时欠缺的环节,所以在遇到识别率很低的情 况时,往往很困惑,不知道该如何改进:到底是应该改进模型改变特征、还是应该增加训练样本数量,到...
分类:
其他好文 时间:
2014-08-03 23:00:26
阅读次数:
287
bag-of-words model的java实现...
分类:
编程语言 时间:
2014-08-01 23:19:02
阅读次数:
291
1.基础概念:
(1) 10折交叉验证:英文名是10-fold cross-validation,用来测试算法的准确性。是常用的测试方法。将数据集分成10份。轮流将其中的9份作为训练数据,1分作为测试数据,进行试验。每次试验都会得出相应的正确率(或差错率)。10次的结果的正确率(或差错率)的平均值作为对算法精度的估计,一般还需要进行多次10折交叉验证,在求其平均值,对算法的准确性进行估计。
...
分类:
其他好文 时间:
2014-08-01 13:47:32
阅读次数:
250
转自:http://blog.chinaunix.net/uid-446337-id-94440.html分类:机器学习的有概率分类器(probabilistic) ,贝叶斯推理网络(bayesian inference networks) , 决策树分类器(decision tree) ,决策规则...
分类:
其他好文 时间:
2014-07-31 19:33:17
阅读次数:
411
神经网络模型一、神经网络模型 对网络模型的研究始于20世纪40年代,作为一门交叉学科,它是人类基于对其大脑神经认识的基础上,人工构造实现某种功能的网络模型。经过将近70年的发展,神经网络模型已成为机器学习的典型代表,它不依照任何概率分布,而是模仿人脑功...
分类:
其他好文 时间:
2014-07-31 02:39:15
阅读次数:
348
caffe源码分析--poolinger_layer.cpp
对于采样层,cafffe里实现了最大采样和平均采样的算法。
最大采样,给定一个扫描窗口,找最大值,
平均采样,扫描窗口内所有值的平均值。...
分类:
其他好文 时间:
2014-07-30 20:48:44
阅读次数:
348
自然语言处理
ScalaNLP—机器学习和数值计算库的套装
Breeze —Scala用的数值处理库
Chalk—自然语言处理库。
FACTORIE—可部署的概率建模工具包,用Scala实现的软件库。为用户提供简洁的语言来创建关系因素图,评估参数并进行推断。
数据分析/数据可视化
MLlib in Apache Spark—Spark下的分布式机器学...
分类:
其他好文 时间:
2014-07-29 13:01:37
阅读次数:
372
均移:指偏移的均值向量,是一种非参数技术 主要思想:首先随机选择一个初始的感兴趣区域(初始窗)并确定其重心,接下来,搜索周围点密度更大的感兴趣区域并确定其重心 重复上面的过程不断将均值移动直到收敛。均移方法中,需要确定多变量密度核估计器。其中,核函数的作用是是的随着特征点与均值的距离不同,对均值的便...
分类:
其他好文 时间:
2014-07-28 23:31:34
阅读次数:
278