进行用户协同过滤时,一个关键问题是如何计算用户之间的相似性。比较常见的计算用户相似度的算法有余弦相似性、皮尔森系数、调整余弦相似性三种。 ????这三种相似性都是基于一个称为用户-项目矩阵的数据结构来...
分类:
其他好文 时间:
2015-09-02 19:23:22
阅读次数:
683
最近在做一个有关文本挖掘的项目,需要用到Ngram模型已经相对应的向量匹配相似度的技术
Ngram分词的程序
有位网友在问我,想了想写在这里吧,至于那些jar包也很好找,lucene jar ,在百度搜索都能找到
package edu.fjnu.huanghong;
import java.io.IOException;
import java.io.StringReader;
impo...
分类:
Web程序 时间:
2015-08-29 17:07:35
阅读次数:
231
题目说明: 一种衡量两个字符串之间的差异性的方法是,计算两个字符串转换时候需要的最少操作,需要的操作越少说明这两个字符串越相似。 题目解析: 假设字符串的操作只有三种: 插入一个字符; 删除一个字符; 替换一个字符; 两个字符串之间的编辑距离定义为:从字符串str1到str2的最少的操作次数。首先,...
分类:
编程语言 时间:
2015-08-21 19:18:11
阅读次数:
165
1 数据描述
空白
sku1sku_1
sku2sku_2
…
skuNsku_{N} session1session_1
0
1
…
1
session2session_2
1
0
…
1
…
…
…
…
…
sessionMsession_M
1
1
0
0
2 向量相似度计算下面给出计算向量x,y...
分类:
编程语言 时间:
2015-08-19 16:59:23
阅读次数:
187
#include
#include
#include
#include
using namespace std;
//倒排索引,以属性值来存储关键字。//找出两个人相似度最高的人,相似度=(相同爱好数)/总的爱好数。
struct Node
{
string like;
int count;
Node(...
分类:
其他好文 时间:
2015-08-17 14:04:37
阅读次数:
142
稀疏矩阵处理方法:(1) 数据平滑技术,如设定缺省值,将为评分项设为平均分或众数,回归填补法,随机填补法;聚类平滑技术,将未评分项使用聚类中心的数据经行填充。(2) 降维技术,主成分分析( PCA)和奇异值分解(SVD)(3)对已有相似度计算模型进行局部加权处理。如基于时间的加权,基于共现次数的线性...
分类:
其他好文 时间:
2015-08-16 19:33:54
阅读次数:
195
题目链接:点击打开链接
题目描述:给出平面上n个点,找一个矩形,使得边界上包含尽量多的点。
看到这样一道题,猛一下真的觉得无从下手,上来能够想到的办法就是枚举上下边界,然后再枚举左右边界,然后统计点数。复杂度是O(n5)。显然无法承受。
因此,我们需要一点点仔细的分析,试图将这个问题往以前做过的类似的问题上转化。相似度最高的问题就是“最大连续和问题”,里面用到了一个“...
分类:
其他好文 时间:
2015-08-16 18:22:00
阅读次数:
123
1. 欧几里得距离两个n维向量a(x11,x12,…,x1n)与 b(x21,x22,…,x2n)间的欧氏距离: 也可以用表示成向量运算的形式:适用:需要从维度的数值大小中体现差异的分析,如使用用户行为指标分析用户价值的相似度或差异。2. 余弦距离两个n维样本点a(x11,x12,…,x1n)和b....
分类:
编程语言 时间:
2015-08-16 10:45:01
阅读次数:
134
各种聚类算法的比较 聚类的目标是使同一类对象的相似度尽可能地大;不同类对象之间的相似度尽可能地小。目前聚类的方法很多,根据基本思想的不同,大致可以将聚类算法分为五大类:层次聚类算法、分割聚类算法、基于约束的聚类算法、机器学习中的聚类算法和用于高维度的聚类算法。摘自 数据挖掘中的聚类分析研究综述 这篇...
分类:
编程语言 时间:
2015-08-14 18:48:43
阅读次数:
163
整体思想: ? ? ? 完全按照自己的想法来写的,首先写模板文件,然后打开模板文件,对模板进行字符串格式化处理,最后再将格式化后的字符串保存到新的文件里面。如有更好的想法,欢迎交流。 将相似度很高的代码...
分类:
编程语言 时间:
2015-08-14 08:53:10
阅读次数:
837