Solr 使用Carrot2完成了聚类功能,能够把检索到的内容自动分类, Carrot2聚类示例:
要想Solr支持聚类功能,首选要把Solr发行包的中的dist/ solr-clustering-4.2.0.jar, 复制到\solr\contrib\analysis-extras\lib下.然后打开solrconfig.xml进行添加配置:
...
分类:
其他好文 时间:
2015-06-03 17:45:08
阅读次数:
177
引文: k均值算法是一种聚类算法,所谓聚类,他是一种无监督学习,将相似的对象归到同一个蔟中。蔟内的对象越相似,聚类的效果越好。聚类和分类最大的不同在于,分类的目标事先已知,而聚类则不一样。因为其产生的结果和分类相同,而只是类别没有预先定义。算法的目的: 使各个样本与所在类均值的误差平方和达到最小(这也是评价K-means算法最后聚类效果的评价标准)K-均值聚类
优点:容易实现
缺点:可能收敛到局部最...
分类:
编程语言 时间:
2015-06-03 15:55:40
阅读次数:
139
谱聚类一般会先对两两样本间求相似度, 然后根据相似度矩阵求出拉普拉斯矩阵,然后将每个样本映射到拉普拉斯矩阵特诊向量中,最后使用k-means聚类。
scikit-learn开源包中已经有现成的接口可以使用,具体见
http://scikit-learn.org/dev/modules/generated/sklearn.cluster.SpectralClustering.html#sklea...
分类:
其他好文 时间:
2015-06-02 21:59:56
阅读次数:
219
preface:在走着走着的道路上,总会有些想法或者总结的念头,便想要记录下来,以备不时之需。ps:卤主搞自然语言处理相关,仅这块有些想法。
一、学好理论基础
卤主等有想法再些。
二、从数据入手,分析数据,看准需要实现的目标
无论科研还是工作,大同小异:做东西。在掌握基本方法(SVM, HMM, CRF, RF, LR等分类,聚类,回归工具)与工具(语言工具python,分...
分类:
其他好文 时间:
2015-06-02 18:03:01
阅读次数:
154
ROCK (RObust Clustering using linKs) 聚类算法?是一种鲁棒的用于分类属性的聚类算法。该算法属于凝聚型的层次聚类算法。之所以鲁棒是因为在确认两对象(样本点/簇)之间的关系时考虑了他们共同的邻居(相似样本点)的数量,在算法中被叫做链接(Link)的概念。而一些聚类算法...
分类:
编程语言 时间:
2015-05-30 00:26:56
阅读次数:
362
K均值算法可以分两步实现,一个是function [d] = dist(x,y) 其中x和y分别代表一个向量;另外一个是function [y,C] = Kmeans( D,k ) 其中y为聚类中心分类集合,C为聚类中心集,D为目标矩阵(即为待分类的矩阵),k为聚类中心个数。...
分类:
编程语言 时间:
2015-05-28 23:14:11
阅读次数:
165
在前面的博文中讲述过基于Arcgis for js如何实现聚类统计展示,在本文中讲述如何基于openlayers实现聚类统计的效果...
分类:
其他好文 时间:
2015-05-28 23:11:14
阅读次数:
329
K-means的缺点(优化不仅仅是最小化误差)#转载时,请注明英文原作David Robinson,译者Ding Chao。#我最近遇到一个交叉验证的问题,我认为这个给我提供了一个很好的机会去用“R”和“ggplot2”探索下K-means算法的一些基本假设。K-means方法广泛用于聚类分析。可是...
分类:
其他好文 时间:
2015-05-27 20:57:28
阅读次数:
1676
以前有个学科叫数据挖掘,用于对规律不明确的数据做分析,聚类正是这门学科的基础。我们普通人对一组数据做分析的时候,往往会大概的对数据画个范围,比如统计1-50,50-100,100-200分别有多少记录之类,而聚类则是用于替代人手工做这个工作。比如有一组数据,聚类则可以通过算法分析出这组数据的分段和每...
分类:
其他好文 时间:
2015-05-26 01:34:01
阅读次数:
163
聚类是非监督学习的一种形式,它将一个观测集(即数据点)划分到自然组或模式聚类。聚类的途径是测量分配给每个聚类的观测对之间的相似性以最小化一个指定的代价函数。
K-均值(K-means)简单易实现,同时具有良好的性能。
聚类重新定义:
给定N个观测值得集合,通过以下方式寻找编码器C:将这些观测值分配给K个聚类,使得在每个聚类中,给定的观测值与聚类均值的不相似性的平均度量最小。...
分类:
其他好文 时间:
2015-05-25 22:32:31
阅读次数:
242