码迷,mamicode.com
首页 >  
搜索关键字:高斯分布 混合高斯分布 聚类 gmm    ( 2168个结果
Mahout源码分析-K-means聚类算法
一 算法描述1、随机选取k个对象作为初始簇中心;2、计算每个对象到簇中心的距离,将每个对象聚类到离该对象最近的聚簇中去;3、计算每个聚簇中的簇均值,并将簇均值作为新的簇中心;4、计算准则函数;5、重复(2)、(3)和(4),直到准则函数不再发生变化。二源码分析
分类:其他好文   时间:2014-07-16 21:20:48    阅读次数:202
机器学习笔记——K-means
K-means是一种聚类算法,其要求用户设定聚类个数k作为输入參数,因此,在执行此算法前,须要预计须要的簇的个数。如果有n个点,须要聚到k个簇中。K-means算法首先从包括k个中心点的初始集合開始,即随机初始化簇的中心。随后,算法进行多次迭代处理并调整中心位置,知道达到最大迭代次数或中性收敛于固定...
分类:其他好文   时间:2014-07-16 20:04:42    阅读次数:184
利用cvKMeans2()实现图像聚类(位置+颜色)
///利用opencv提供的函数cvKMeans2()实现图像聚类 ///////运行环境:VC6.0+opencv1.0 ///////////////使用的时候,改变flag的初始值,即可实现对灰度图、彩色图基于色彩的聚类,以及根据位置和色彩对彩色图像聚类。 ////////////////最后结果显示的时候请注意pResult 和pResult3 #include "cv.h...
分类:其他好文   时间:2014-07-13 16:35:15    阅读次数:463
Mapreduce执行过程分析(基于Hadoop2.4)——(一)
1 概述 该瞅瞅MapReduce的内部运行原理了,以前只知道个皮毛,再不搞搞,不然怎么死的都不晓得。下文会以2.4版本中的WordCount这个经典例子作为分析的切入点,一步步来看里面到底是个什么情况。 2 为什么要使用MapReduce Map/Reduce,是一种模式,适合解决并行计算的问题,比如TopN、贝叶斯分类等。注意,是并行计算,而非迭代计算,像涉及到层次聚类的问题就不...
分类:其他好文   时间:2014-07-12 21:31:22    阅读次数:296
颜色聚类
这是一个按照图片颜色深浅的聚类算法 1 function [ result ] = my_kcluster_random( imgAddress ) 2 %UNTITLED Summary of this function goes here 3 % Detailed explanation g.....
分类:其他好文   时间:2014-07-11 18:47:45    阅读次数:148
使用scipy进行聚类
最近做图像的时候,突然有个idea,需要进行聚类,其实算法很简单,但是当时很急,就直接使用了scipy的cluster。 使用起来其实很简单,但是中文的文章很少,所以就简单的介绍一下,感兴趣的也可以自己去看一下英文的文档:http://docs.scipy.org/doc/scipy/reference/cluster.html。 这是我从stackoverflow看到的一个demo,如果只是...
分类:其他好文   时间:2014-07-08 19:25:48    阅读次数:309
利用LDA进行文本聚类(hadoop, mahout)
项目原理概述利用sqoop将数据从MySQL导入到HDFS中,利用mahout的LDA的cvb实现对输入数据进行聚类,并将结果更新到数据库中。数据流向图如下mahout算法分析输入数据格式为的matrix矩阵,key为待聚类文本的数字编号,value为待聚类文本的单词向量Vector, Vector...
分类:其他好文   时间:2014-07-07 10:43:16    阅读次数:1186
用python计算lda语言模型的困惑度并作图
转载请注明:电子科技大学EClab——落叶花开http://www.cnblogs.com/nlp-yekai/p/3816532.html困惑度一般在自然语言处理中用来衡量训练出的语言模型的好坏。在用LDA做主题和词聚类时,原作者D.Blei就是采用了困惑度来确定主题数量。文章中的公式为:perp...
分类:编程语言   时间:2014-07-02 18:03:38    阅读次数:827
聚类相关
归一化:可以将大量重复特征聚合为单一特征,降低重复带来的相似度差异。方法: Vx = Vx /abs(v1)+...abs(Vn)词干处理:(变形词,同意词,近义词聚合) 减少特征的重复性 imaging-images buy-bought 我-俺 早餐-早饭.......停用词:(弱特征)大量出现的没有实际特征意义的虚词,副词,语气词等  I ,am, is ,a,an,always 我,啊,了...
分类:其他好文   时间:2014-07-02 10:41:28    阅读次数:267
EM算法原理
在聚类中我们经经常使用到EM算法(i.e. Estimation - Maximization)进行參数预计, 在该算法中我们通过函数的凹/凸性,在estimation和maximization两步中迭代地进行參数预计,并保证能够算法收敛,达到局部最优解。PS:为了不在11.11这个吉祥的日子发bl...
分类:其他好文   时间:2014-07-02 09:56:51    阅读次数:234
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!