[摘要]关键词提取是中文信息处理技术的热点和难点,基于统计信息的方法是其中一个重要分支。本文针对基于统计信息关键词提取方法准确率低的问题,提出基于高维聚类技术的中文关键词提取算法。算法通过依据小词典的快速分词、二次分词、高维聚类及关键词甄选四个步骤实现关键词的提取。理论分析和实验显示,基于高维聚类技...
分类:
其他好文 时间:
2014-09-24 18:00:37
阅读次数:
141
聚类分析(clusteranalysis)是一组将研究对象分为相对同质的群组(clusters)的统计分析技术。聚类分析也叫分类分析(classificationanalysis)或数值分类(numericaltaxonomy)。聚类与分类的不同在于,聚类所要求划分的类是未知的。 聚类分析计算方.....
分类:
其他好文 时间:
2014-09-23 21:29:45
阅读次数:
209
Mean Shift,我们 翻译为“均值飘移”。其在聚类,图像平滑。图像切割和跟踪方面得到了比較广泛的应用。因为本人眼下研究跟踪方面的东西,故此主要介绍利用Mean Shift方法进行目标跟踪,从而对MeanShift有一个比較全面的介绍。 (下面某些部分转载常峰学长的“Mean Shift概述”)...
分类:
其他好文 时间:
2014-09-20 15:09:38
阅读次数:
228
入门级聚类: 一个班级有30学生,每个学生10张不同照片,将这300张照片打乱,聚类就是在不告诉机器任何学生信息,仅凭对300张照片的学习,然后把它分成10类;分类 一个班级有30学生,每个学生10张不同照片,每张照片上面写了该同学的名字,分类就是机器对这300张照片和照片上的名字进行学习,形成.....
分类:
其他好文 时间:
2014-09-19 23:44:46
阅读次数:
379
源代码下载:NaviveBayesClassify.rarPreface文本的分类和聚类是一个比较有意思的话题,我以前也写过一篇blog《基于K-Means的文本聚类算法》,加上最近读了几本数据挖掘和机器学习的书籍,因此很想写点东西来记录下学习的所得。在本文的上半部分《基于朴素贝叶斯分类器的文本分类...
分类:
其他好文 时间:
2014-09-18 22:02:34
阅读次数:
325
聚类算法在数据挖掘里面被称之为无监督学习(unsupervised learning),这是与监督学习(supervised learning)相对的。在它们两者之间还一种叫做半监督学习(semi-supervised learning)聚类算法的一般过程分为:1. 读入需预测样本2. 初始化聚类算...
分类:
其他好文 时间:
2014-09-18 20:18:04
阅读次数:
381
之前一直想读这篇,今天读了一下,颇有收获:
1.对文档按相似term聚类之后,delta较小,可以提高压缩率(similarity graph)
1.GPU一般可以有几百个核,有shared memory和global memory,shared memory相当于寄存器的速度,global memory速度较慢
2.有序数组上的搜索算法除了binary search还有interplati...
分类:
其他好文 时间:
2014-09-18 00:52:07
阅读次数:
239
印象笔记同步分享:Machine Learning—分类和聚类,监督学习和非监督学习...
分类:
其他好文 时间:
2014-09-14 01:24:16
阅读次数:
193
最近要在spark上做一个聚类的项目,数据规模和类的数目都比较大。因此总结了一下常见的聚类算法。最终选择mini-batch kmeans,并使用kmeans++来初始化类中心。这样算法的执行速度比较快,而且效果相对靠谱。...
分类:
其他好文 时间:
2014-09-13 00:51:24
阅读次数:
420
企业应有一个硬性的“目标”这个说法,我们听得越来越多——但那又是什么意思?
难道还没有足够多的标签,来描述企业的方向么?我们还需要另一个标签么? 我认为我们需要,并且我已汇总聚类来帮助区分所有这些标签。 一个形象的说法就是,一个企业想在未来变成什么样子?
这通常由高级管理描绘,也通过用一种清晰可回顾的方式努力思考日常活动之外的事来完成。比如,一家瑞典的叫做爱立信的公司就这样定义其愿景:...
分类:
其他好文 时间:
2014-09-11 11:15:41
阅读次数:
361