码迷,mamicode.com
首页 >  
搜索关键字:相似度    ( 854个结果
如何计算两个文档的相似度(二)
注:完全进行了测试,并附有完整代码: # -*- coding: cp936 -*- from gensim import corpora, models, similarities import logging logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s' , level=logging.INF...
分类:其他好文   时间:2016-07-19 11:10:16    阅读次数:297
如何计算两个文档的相似度(三)
本文代码全部实现,并附上注释: # -*- coding: cp936 -*- import nltk from nltk.tokenize import word_tokenize from nltk.corpus import stopwords from nltk.stem.lancaster import LancasterStemmer from gensim import cor...
分类:其他好文   时间:2016-07-19 10:39:25    阅读次数:239
SimRank--基于结构的相似度度量方法学习笔记
详见:Glen Jeh 和 Jennifer Widom 的论文SimRank: A Measure of Structural-Context Similarity?一、简介 目前主要有两大类相似性度量方法: (1) 基于内容(content-based)的特定领域(domain-specific)度量方法,如匹配文本相似度,计算项集合的重叠区域等; (2) 基于链接(对象间的...
分类:其他好文   时间:2016-07-19 10:32:59    阅读次数:483
回家有感
9号回的家 想想还是要总结下最近一个月的学习状态 秉持着不能再挂科的理念 叫上XZY一起到自习室学习 考完信号和控制 我发现WL给我的题相似度如此之高 貌似他自己也没发现... 我那天顿悟了一个十几年来都忽略或是提起重视又忘记的的道理 便是:关键时候还得靠人 单打独斗的方式已经不再适应当下的社会 如 ...
分类:其他好文   时间:2016-07-12 21:26:50    阅读次数:145
L2-005. 集合相似度
L2-005. 集合相似度 时间限制 400 ms 内存限制 65536 kB 代码长度限制 8000 B 判题程序 Standard 作者 陈越 时间限制 400 ms 时间限制 400 ms 内存限制 65536 kB 内存限制 65536 kB 代码长度限制 8000 B 代码长度限制 800 ...
分类:其他好文   时间:2016-07-11 07:51:31    阅读次数:131
k-Means和KNN算法简述
k-means 算法 k-means 算法接受输入量 k ;然后将n个数据对象划分为 k个聚类以便使得所获得的聚类满足:同一聚类中的对象相似度较高;而不同聚类中的对象相似度较小。聚类相似度是利用各聚类中对象的均值所获得一个“中心对象”(引力中心)来进行计算的。 k-means 算法的工作过程说明如下 ...
分类:编程语言   时间:2016-07-09 22:13:42    阅读次数:210
机器学习实战5:k-means聚类:二分k均值聚类+地理位置聚簇实例
k-均值聚类是非监督学习的一种,输入必须指定聚簇中心个数k。k均值是基于相似度的聚类,为没有标签的一簇实例分为一类。 一 经典的k-均值聚类 思路: 1 随机创建k个质心(k必须指定,二维的很容易确定,可视化数据分布,直观确定即可); 2 遍历数据集的每个实例,计算其到每个质心的相似度,这里也就是欧 ...
分类:其他好文   时间:2016-07-04 23:26:24    阅读次数:214
相似性度量(距离及相似系数)
在分类聚类算法中,时常需要计算两个变量(通常是向量的形式)的距离,即相似性度量。其中,距离度量的性质:非负性,自反性,对称性和三角不等式。   本文的目的就是对常用的相似性度量作一个总结。 本文目录: 1.欧氏距离 2.曼哈顿距离 3. 切比雪夫距离 4. 闵可夫斯基距离 5.标准化欧氏距离 6.马氏距离 7.余弦相似度 ...
分类:其他好文   时间:2016-07-03 20:05:42    阅读次数:785
皮尔逊相关系数
在概率论和统计学中,相关(Correlation,或称相关系数或关联系数),显示两个随机变量之间线性关系的强度和方向。在统计学中,相关的意义是用来衡量两个变量相对于其相互独立的距离。 在推荐系统中,我们常用皮尔逊相关系数来衡量两个用户兴趣的相似度,它是判断两组数据与某一直线拟合程度的一种度量。它在用户对物品的评分数据差别大时(如有些用户评分普遍较高,有些用户评分普遍偏低)时的效果更好。也即它...
分类:其他好文   时间:2016-07-03 11:55:37    阅读次数:398
[聚类算法] K-means 算法
聚类 和 k-means简单概括。 聚类是一种 无监督学习 问题,它的目标就是基于 相似度 将相似的子集聚合在一起。 k-means算法是聚类分析中使用最广泛的算法之一。它把n个对象根据它们的属性分为k个聚类,以便使得所获得的聚类满足: 同一聚类中的对象相似度较高;而不同聚类中的对象相似度较小。 k ...
分类:编程语言   时间:2016-06-30 19:42:20    阅读次数:139
854条   上一页 1 ... 47 48 49 50 51 ... 86 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!