public static double SimilarityNoContains(string a, string b) { string a1 = ""; string b1 = ""; if (a=...
分类:
其他好文 时间:
2015-06-08 17:12:53
阅读次数:
117
如果两个文件相似度很高,那么上下文格式的diff,将显示大量重复的内容,很浪费空间。1990年,GNU diff率先推出了"合并格式"的diff,将f1和f2的上下文合并在一起显示。它的使用方法是加入u参数(代表unified)。 $ diff -u f1 f2显示结果如下: --- f1 20.....
分类:
其他好文 时间:
2015-06-07 20:12:09
阅读次数:
123
聚类(clustering)就是将数据集划分为由若干相似实例组成的簇(cluster)的过程,使得同一个簇中实例间的相似度最大化,不同簇的实例间的相似度最小化。聚类分析的方法主要有: 1)划分的方法 2)层次的方法 3)基于密度的方法 4)基于网格的方法 5)基于模型的方法 。。。 w...
分类:
其他好文 时间:
2015-06-04 15:17:02
阅读次数:
109
谱聚类一般会先对两两样本间求相似度, 然后根据相似度矩阵求出拉普拉斯矩阵,然后将每个样本映射到拉普拉斯矩阵特诊向量中,最后使用k-means聚类。
scikit-learn开源包中已经有现成的接口可以使用,具体见
http://scikit-learn.org/dev/modules/generated/sklearn.cluster.SpectralClustering.html#sklea...
分类:
其他好文 时间:
2015-06-02 21:59:56
阅读次数:
219
相似度计算map-reduce实现思路
输入:
1 f(1)
2 f(2)
3 f(3)
4 f(4)
mapper:
1,2 f(1)
1,3 f(1)
1,4 f(1)
1,2 f(2)
2,3 f(2)
2,4 f(2)
1,3 f(3)
2,3 f(3)
3,4 f(3)
1,4 f(4)
2,4 f(4)
3,4 f(4)...
分类:
其他好文 时间:
2015-05-31 18:32:49
阅读次数:
98
本文实现代码:利用word分词提供的文本相似度算法来辅助记忆英语单词 本文使用的英语单词囊括了几乎所有的考纲词汇共18123词: /**
?*?考纲词汇
?*?@return
?*/
public?static?Set<Word>?getSyllabusVoca...
分类:
编程语言 时间:
2015-05-29 14:09:38
阅读次数:
199
通过?采集系统?我们采集了大量文本数据,但是文本中有很多重复数据影响我们对于结果的分析。分析前我们需要对这些数据去除重复,如何选择和设计文本的去重算法?常见的有余弦夹角算法、欧式距离、Jaccard相似度...
分类:
其他好文 时间:
2015-05-28 18:29:58
阅读次数:
159
//这段程序写的是忽略偏好值基于谷本系数计算相似度
//这个算法是基于谷本系数。
//这个值也叫做Jaccard系数,由两个用户共同表达过偏好的物品数目除以至少
//一个用户表达过偏好的物品数目而得(就是两者得交集除以两者得并集)
package byuser;
import java.io.File;
import java.io.IOException;
import org.apache...
分类:
其他好文 时间:
2015-05-27 21:10:24
阅读次数:
638