canopy是聚类算法的一种实现
它是一种快速,简单,但是不太准确的聚类算法
canopy通过两个人为确定的阈值t1,t2来对数据进行计算,可以达到将一堆混乱的数据分类成有一定规则的n个数据堆
由于canopy算法本身的目的只是将混乱的数据划分成大概的几个类别,所以它是不太准确的
但是通过canopy计算出来的n个类别可以用在kmeans算法中的k值的确定(因为人为无法准确的确定k值到底要...
分类:
编程语言 时间:
2015-04-11 19:32:07
阅读次数:
183
在使用mahout之前要安装并启动hadoop集群
将mahout的包上传至linux中并解压即可
mahout下载地址:
点击打开链接
mahout中的算法大致可以分为三大类:
聚类,协同过滤和分类
其中
常用聚类算法有:canopy聚类,k均值算法(kmeans),模糊k均值,层次聚类,LDA聚类等
常用分类算法有:贝叶斯,逻辑回归,支持向量机,感知器,神经网络等
...
分类:
编程语言 时间:
2015-04-11 09:04:31
阅读次数:
328
Mahout主要有协同过滤、聚类和分类三种算法的实现。现在我们就用Mahout来实现经典的Kmeans聚类算法。并且在Hadoop平台上跑出个结果!...
分类:
编程语言 时间:
2015-04-05 16:03:20
阅读次数:
329
今天要对一个1000个个记录,每个记录有n个属性的文本进行聚类,采用的是二分k均值方法。算法思想:我参考了Pang-Ning Tan数据挖掘导论里P317相对于kmeans的优点是不受其初始质心的影响。#coding utf-8#python 3.4#2015-4-3#Fitz Yin #yinr....
分类:
编程语言 时间:
2015-04-03 20:54:09
阅读次数:
203
这个算法是用于目标检索的比较快速的一个算法,参考Randomized Visual Phrases for Object Search。
算法的流程如下:
//图片训练阶段
1读入N张图片
2 转换成灰度图
3 检测N张图片的特征点,本算法中应用的是SIFT特征。
4 生成描述子
5 描述子聚类,生成visual word,用kmeans()算法完成。
6 将图片库中的图片用另...
分类:
其他好文 时间:
2015-04-03 15:30:43
阅读次数:
185
开一个机器学习方法科普系列,也做基础回顾之用。学而时习之。
content:
linear regression, Ridge, Lasso
Logistic Regression, Softmax
Kmeans, GMM, EM, Spectral Clustering
......
分类:
其他好文 时间:
2015-03-07 01:04:29
阅读次数:
231
kmeans:把一个特征序列归为m_mixNum个聚类,计算每个m_mixNum个聚类的中心(means)和方差(var),以及每个聚类所占的比重(prior)。gmm:把kmeans计算出来的m_mixNum个聚类,先用kmeans计算出来的中心和方差初始化高斯函数的中心和方差,根据高斯函数调整每...
分类:
其他好文 时间:
2015-03-03 15:09:07
阅读次数:
154
KMeans算法的基本思想是初始随机给定K个簇中心,按照最邻近原则把待分类样本点分到各个簇。然后按平均法重新计算各个簇的质心,从而确定新的簇心。一直迭代,直到簇心的移动距离小于某个给定的值。K-Means聚类算法主要分为三个步骤:(1)第一步是为待聚类的点寻找聚类中心(2)第二步是计算每个点到聚类中...
分类:
其他好文 时间:
2015-02-26 22:45:26
阅读次数:
250
kmeans是经典的聚类算法,newlisp提供了函数,同样分为train和query两个阶段。kmeans的算法目的是将训练数据划分成k个类,按照一定的算法动态的选择k个中心点。下面是个例子,我添加了中文注释:(set 'data '(
(6.57 4.96 11.91 0.9)
(2.29 4.18 1.06 0.8)
(8.63 2.51 8.11 0.7)
(1.85 1.89 0....
分类:
编程语言 时间:
2015-02-03 19:36:20
阅读次数:
184
本文主要介绍如何使用CUDA并行计算框架编程实现机器学习中的Kmeans算法,Kmeans算法的详细介绍在这里,本文重点在并行实现的过程。...
分类:
编程语言 时间:
2015-02-01 21:54:01
阅读次数:
219