在文本相似度判定中,作者将该算法用于文本聚类中,其核心思想通过比较两个文本向量中元素的相似度,即向量中所含的元素相似个数越多,则两个向量越相似,继而上述文本越相似。作者在短文本相似判定中采用了余弦相似度该算法来实现,本文借鉴数学集合取交集,借用现有组件来实现上述算法功能,继而减少工作量,也具备便捷性...
分类:
其他好文 时间:
2015-10-25 12:03:30
阅读次数:
292
最近需要写几个的算法,做预研,深度学习压力太大了,自己一个人写还是有困难,要是用别人的开源的库,肯定很快,但是,要是出了问题,老师肯定也不会给我顶着。所以选择一个相对尺度小一点的机器学习算法写着玩吧。 其中权重的算法textrank,但是首先要看一下bm25.做相似度计算的。BM25算法,...
分类:
编程语言 时间:
2015-10-24 06:39:25
阅读次数:
549
VSM思想 把文档表示成R|v|上的向量,从而可以计算文档与文档之间的相似度(根据欧氏距离或者余弦夹角) 那么,如何将文档将文档表示为向量呢? 首先,需要选取基向量/dimensions,基向量须是线性独立的或者正交的向量。 在IR系统中,有两种方式决定基向量: 1.核心概念的思想(core...
分类:
其他好文 时间:
2015-10-18 15:33:57
阅读次数:
158
针对文本相似判定,本文提供余弦相似度和SimHash两种算法,并根据实际项目遇到的一些问题,给出相应的解决方法。经过实际测试表明:余弦相似度算法适合于短文本,而SimHash算法适合于长文本,并且能应用于大数据环境中。
分类:
其他好文 时间:
2015-10-15 10:04:48
阅读次数:
273
一、问题来源 t = 2xy/(x+y);融合相似度和信任度,我需要验证值域是不是[0,1];二、求解clear all;clc;%linspace(0:1,0.1)这样是错的,第三个参数是段数,不是间距,应该是11,分成11分x = 0:0.1:1;y = x;[x,y] = meshgrid(....
分类:
其他好文 时间:
2015-10-10 12:17:32
阅读次数:
200
本文将按照作者学习的顺序,对推荐算法进行一个综述性的介绍,可能会有些跳跃性。一则供自己后续不时翻阅,二则分享给读者。传播知识是一件很快乐的事情。 ? ? 1. 基于相似度的方法(协同过滤) ? ? ...
分类:
编程语言 时间:
2015-10-08 16:42:27
阅读次数:
256
http://www.jb51.net/article/55941.htmC#实现:复制代码 代码如下: #region 计算字符串相似度 /// /// 计算字符串相似度 /// /// 字符串1 /// 字符串2 /// 相似度 public static float Leven...
分类:
数据库 时间:
2015-10-07 18:39:29
阅读次数:
243
C#与JAVA学习感悟学完C#与JAVA,感觉收获良多。C#与JAVA这两门语言相似度很高(了解它们早期历史的人可能知道为什么),也许很多人在学习JAVA(或C#)时会同时学习C#(或JAVA),因为它们太相似了。但在我看来先学习一种,精通后学另一种,这样的效率会高一些,同样是因为它们太相似了,许多...
分类:
编程语言 时间:
2015-10-06 22:02:35
阅读次数:
293
1、动机2、基于内容的分类器3、python实现一、动机在前面的文章中介绍了基于用户和基于物品的协同过滤推荐方法,其实无论是基于用户还是基于物品,都是通过群体效应来进行推荐,因为衡量相似度的向量都是基于一定群体用户的评分,所以推荐出来的物品都是热门的流行的物品,对于一些冷门物品可能就无法收到亲睐。而...
分类:
其他好文 时间:
2015-10-05 11:34:11
阅读次数:
336