注:完全进行了测试,并附有完整代码:
# -*- coding: cp936 -*-
from gensim import corpora, models, similarities
import logging
logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s' , level=logging.INF...
分类:
其他好文 时间:
2016-07-19 11:10:16
阅读次数:
297
本文代码全部实现,并附上注释:
# -*- coding: cp936 -*-
import nltk
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
from nltk.stem.lancaster import LancasterStemmer
from gensim import cor...
分类:
其他好文 时间:
2016-07-19 10:39:25
阅读次数:
239
详见:Glen Jeh 和 Jennifer Widom 的论文SimRank: A Measure of Structural-Context Similarity?一、简介
目前主要有两大类相似性度量方法:
(1) 基于内容(content-based)的特定领域(domain-specific)度量方法,如匹配文本相似度,计算项集合的重叠区域等;
(2) 基于链接(对象间的...
分类:
其他好文 时间:
2016-07-19 10:32:59
阅读次数:
483
9号回的家 想想还是要总结下最近一个月的学习状态 秉持着不能再挂科的理念 叫上XZY一起到自习室学习 考完信号和控制 我发现WL给我的题相似度如此之高 貌似他自己也没发现... 我那天顿悟了一个十几年来都忽略或是提起重视又忘记的的道理 便是:关键时候还得靠人 单打独斗的方式已经不再适应当下的社会 如 ...
分类:
其他好文 时间:
2016-07-12 21:26:50
阅读次数:
145
L2-005. 集合相似度 时间限制 400 ms 内存限制 65536 kB 代码长度限制 8000 B 判题程序 Standard 作者 陈越 时间限制 400 ms 时间限制 400 ms 内存限制 65536 kB 内存限制 65536 kB 代码长度限制 8000 B 代码长度限制 800 ...
分类:
其他好文 时间:
2016-07-11 07:51:31
阅读次数:
131
k-means 算法 k-means 算法接受输入量 k ;然后将n个数据对象划分为 k个聚类以便使得所获得的聚类满足:同一聚类中的对象相似度较高;而不同聚类中的对象相似度较小。聚类相似度是利用各聚类中对象的均值所获得一个“中心对象”(引力中心)来进行计算的。 k-means 算法的工作过程说明如下 ...
分类:
编程语言 时间:
2016-07-09 22:13:42
阅读次数:
210
k-均值聚类是非监督学习的一种,输入必须指定聚簇中心个数k。k均值是基于相似度的聚类,为没有标签的一簇实例分为一类。 一 经典的k-均值聚类 思路: 1 随机创建k个质心(k必须指定,二维的很容易确定,可视化数据分布,直观确定即可); 2 遍历数据集的每个实例,计算其到每个质心的相似度,这里也就是欧 ...
分类:
其他好文 时间:
2016-07-04 23:26:24
阅读次数:
214
在分类聚类算法中,时常需要计算两个变量(通常是向量的形式)的距离,即相似性度量。其中,距离度量的性质:非负性,自反性,对称性和三角不等式。
本文的目的就是对常用的相似性度量作一个总结。
本文目录:
1.欧氏距离
2.曼哈顿距离
3. 切比雪夫距离
4. 闵可夫斯基距离
5.标准化欧氏距离
6.马氏距离
7.余弦相似度
...
分类:
其他好文 时间:
2016-07-03 20:05:42
阅读次数:
785
在概率论和统计学中,相关(Correlation,或称相关系数或关联系数),显示两个随机变量之间线性关系的强度和方向。在统计学中,相关的意义是用来衡量两个变量相对于其相互独立的距离。
在推荐系统中,我们常用皮尔逊相关系数来衡量两个用户兴趣的相似度,它是判断两组数据与某一直线拟合程度的一种度量。它在用户对物品的评分数据差别大时(如有些用户评分普遍较高,有些用户评分普遍偏低)时的效果更好。也即它...
分类:
其他好文 时间:
2016-07-03 11:55:37
阅读次数:
398
聚类 和 k-means简单概括。 聚类是一种 无监督学习 问题,它的目标就是基于 相似度 将相似的子集聚合在一起。 k-means算法是聚类分析中使用最广泛的算法之一。它把n个对象根据它们的属性分为k个聚类,以便使得所获得的聚类满足: 同一聚类中的对象相似度较高;而不同聚类中的对象相似度较小。 k ...
分类:
编程语言 时间:
2016-06-30 19:42:20
阅读次数:
139