最近需要写几个的算法,做预研,深度学习压力太大了,自己一个人写还是有困难,要是用别人的开源的库,肯定很快,但是,要是出了问题,老师肯定也不会给我顶着。所以选择一个相对尺度小一点的机器学习算法写着玩吧。 其中权重的算法textrank,但是首先要看一下bm25.做相似度计算的。BM25算法,...
分类:
编程语言 时间:
2015-10-24 06:39:25
阅读次数:
549
http://www.jb51.net/article/55941.htmC#实现:复制代码 代码如下: #region 计算字符串相似度 /// /// 计算字符串相似度 /// /// 字符串1 /// 字符串2 /// 相似度 public static float Leven...
分类:
数据库 时间:
2015-10-07 18:39:29
阅读次数:
243
皮尔逊积矩相关系数的学习做相似度计算的时候经常会用到皮尔逊相关系数(Pearson Correlation Coefficient),那么应该如何理解该系数?其数学本质、含义是什么? 皮尔逊相关系数理解有两个角度 一、以高中课本为例,将两组数据首先做Z分数处理之后,然后两组数据的乘积和除以样本数。 ...
分类:
其他好文 时间:
2015-09-25 20:25:14
阅读次数:
209
进行用户协同过滤时,一个关键问题是如何计算用户之间的相似性。比较常见的计算用户相似度的算法有余弦相似性、皮尔森系数、调整余弦相似性三种。 ????这三种相似性都是基于一个称为用户-项目矩阵的数据结构来...
分类:
其他好文 时间:
2015-09-02 19:23:22
阅读次数:
683
1 数据描述
空白
sku1sku_1
sku2sku_2
…
skuNsku_{N} session1session_1
0
1
…
1
session2session_2
1
0
…
1
…
…
…
…
…
sessionMsession_M
1
1
0
0
2 向量相似度计算下面给出计算向量x,y...
分类:
编程语言 时间:
2015-08-19 16:59:23
阅读次数:
187
稀疏矩阵处理方法:(1) 数据平滑技术,如设定缺省值,将为评分项设为平均分或众数,回归填补法,随机填补法;聚类平滑技术,将未评分项使用聚类中心的数据经行填充。(2) 降维技术,主成分分析( PCA)和奇异值分解(SVD)(3)对已有相似度计算模型进行局部加权处理。如基于时间的加权,基于共现次数的线性...
分类:
其他好文 时间:
2015-08-16 19:33:54
阅读次数:
195
Jaccard indexFrom Wikipedia, the free encyclopediaTheJaccard index, also known as theJaccard similarity coefficient(originally coinedcoefficient de co...
分类:
其他好文 时间:
2015-08-08 22:45:01
阅读次数:
279
前言最近在阅读吴军博士的>这门书,得到了很多的启发和思考,里面提到了一个概念---信息指纹。一般正常人提到这个概念,第一个想到的词应该是哈希映射算法,将任何对象都映射成一个独立的变量,一般这个变量是一个独有的数字,当然也不排除哈希碰撞的可能行。论单个对象,用哈希算法做一次映射,比较对象是否一致,这固然是可以的,但是如果想用哈希算法做一些文章之间的相似度计算的时候,可能传统的哈希算法就不见得是最佳的...
分类:
编程语言 时间:
2015-07-29 23:02:39
阅读次数:
253
计算字符串的相似度问题描述分析与解法具体代码如下: 1 package chapter3jiegouzhifa.StringSimilarity; 2 /** 3 * 计算字符串的相似度 4 * 【解法一】 5 * @author DELL 6 * 7 */ 8 public class ...
分类:
其他好文 时间:
2015-07-16 15:49:13
阅读次数:
116
题目描述:要求两字符串有差异的字符个数。例如:aaaaabaaaaaaaaaacaabaa这两个字符串,最大公共字串长度是5,但它们只有两个字符不同,函数输出值应为2。如果是:aaabbbcccdddaaaeeeddd函数的输出值应该是6。比较形象地形容一下,把两个字符串排成上下两行,每个字符串都可...
分类:
其他好文 时间:
2015-07-16 11:24:14
阅读次数:
243