1、一致性哈希。在分布式系统用途广泛。2、局部敏感哈希LSH:simhash和minhash。可以用于相似度检测等。谷歌有篇文章利用LSH进行网页去重。3、布隆过滤器。判断一个元素是否在一个集合中。4、在数据流算法中哈希算法应用更是广泛。比如数据流中独立元素计数等。5、特征哈希。近几年在nips等机...
分类:
其他好文 时间:
2015-05-24 15:34:48
阅读次数:
111
搜索引擎抓取内容模拟器 可以模拟蜘蛛抓取指定网页Text,Link,Keywords及Description信息 http://www.webconfs.com/search-engine-spider-simulator.php 相似页面检测工具 检验两个页面的相似度.如果相似度达80%以...
分类:
其他好文 时间:
2015-05-20 11:34:34
阅读次数:
203
word分词提供了两种文本相似度计算方式: 方式一:余弦相似度,通过计算两个向量的夹角余弦值来评估他们的相似度 实现类:org.apdplat.word.analysis.CosineTextSimilarity 用法如下: String?text1?=?"我爱学...
分类:
其他好文 时间:
2015-05-20 08:20:25
阅读次数:
109
js 检测两个数组是否相似 数组中的成员类型相同,顺序可以不同。例如[1, true] 与 [false, 2]是相似的数组的长度一致类型的判断范围,需要区分:String, Boolean, Number, undefined, null, 函数,日期, window.
分类:
编程语言 时间:
2015-05-19 00:34:10
阅读次数:
370
上一篇中介绍了四个算法,并用四个算法分别计算了两个人的相似度。这篇就来讲讲相似性算法在实际当中怎么用。第一:将指定的人与其他人作相似性比较,并从高到低进行排序;第二:对指定的人推荐未看过的电影。同样还是先给出具体分析,然后给出相应算法,再最后一起给出代码。 根据相似性从高到底排序。def to...
分类:
其他好文 时间:
2015-05-18 14:35:23
阅读次数:
594
在搞验证码识别的时候需要比较字符代码的相似度用到“编辑距离算法”,关于原理和C#实现做个记录。据百度百科介绍:编辑距离,又称Levenshtein距离(也叫做Edit Distance),是指两个字串之间,由一个转成另一个所需的最少编辑操作次数,如果它们的距离越大,说明它们越是不同。许可的编辑操作包...
分类:
编程语言 时间:
2015-05-18 10:38:25
阅读次数:
196
昨天了解了suggest包中的spell相关的内容,主要是拼写检查和相似度查询提示;
今天准备了解下关于联想词的内容,lucene的联想词是在org.apache.lucene.search.suggest包下边,提供了自动补全或者联想提示功能的支持;
InputIterator说明
InputIterator是一个支持枚举term,weight,payload三元组的供suggester使...
分类:
Web程序 时间:
2015-05-18 01:12:12
阅读次数:
202
近日逛博客的时候偶然发现了一个有关图片相似度的Python算法实现。想着很有意思便搬到C#上来了,给大家看看。闲言碎语 才疏学浅,只把计算图像相似度的一个基本算法的基本实现方式给罗列了出来,以至于在最后自己测评的时候也大发感慨,这个算法有点不靠谱。不管怎么样,这个算法有时候还是有用的,所以还是列出....
分类:
编程语言 时间:
2015-05-17 14:57:46
阅读次数:
257
suggest应用场景
用户的输入行为是不确定的,而我们在写程序的时候总是想让用户按照指定的内容或指定格式的内容进行搜索,这里就要进行人工干预用户输入的搜索条件了;我们在用百度谷歌等搜索引擎的时候经常会看到按键放下的时候直接会提示用户是否想搜索某些相关的内容,恰好lucene在开发的时候想到了这一点,lucene提供的suggest包正是用来解决上述问题的。
suggest包联想词相关介绍...
分类:
Web程序 时间:
2015-05-16 23:26:28
阅读次数:
521