码迷,mamicode.com
首页 >  
搜索关键字:相似度    ( 854个结果
Spark学习之路 (二十七)图简介[转]
图 基本概念 图是由顶点集合(vertex)及顶点间的关系集合(边edge)组成的一种数据结构。 这里的图并非指代数中的图。图可以对事物以及事物之间的关系建模,图可以用来表示自然发生的连接数据,如:社交网络、互联网web页面 常用的应用有:在地图应用中找到最短路径、基于与他人的相似度图,推荐产品、服 ...
分类:其他好文   时间:2020-01-26 19:15:45    阅读次数:89
数据建模()-K-means聚类算法
K-Means算法是典型基于距离的非层次聚类算法,在最小化误差函数的基础上将数据划分为预定的类数K,采用作为相似性的评价指标,即认为2个对象的距离越近,其相似度越大。 1.算法过程 1)从N个样本数据中随机选取K个对象作为初始的聚类中心 2)分别计算每个样本到各聚类中心的距离,将对象分配到距离最近的 ...
分类:编程语言   时间:2020-01-23 11:04:46    阅读次数:105
什么是TD-IDF?(计算两篇文章相似度)
什么是TD-IDF? 计算特征向量(或者说计算词条的权重) 构造文档模型 我们这里使用空间向量模型来数据化文档内容:向量空间模型中将文档表达为一个矢量。 We use the spatial vector model to digitize the document content: the vec ...
分类:其他好文   时间:2020-01-22 18:28:36    阅读次数:236
计算两篇文章相似度
[[(0, 1), (1, 1), (2, 1), (3, 1), (4, 1), (5, 1), (6, 1)], [(0, 1), (4, 1), (5, 1), (7, 1), (8, 1), (9, 2), (10, 1)], [(0, 1), (3, 1), (4, 1), (5, 1), ...
分类:其他好文   时间:2020-01-22 17:59:17    阅读次数:96
动手实践用LDA模型计算两篇英文文档相似度
知道原理的同学这部分可以略过直接看实践部分 什么是TD-IDF? 构造文档模型 我们这里使用空间向量模型来数据化文档内容:向量空间模型中将文档表达为一个矢量。 用特征向量(T1,W1;T2,W2;T3, W3;…;Tn,Wn)表示文档。 Ti是词条项,Wi是Ti在文档中的重要程度, 即将文档看作是由 ...
分类:其他好文   时间:2020-01-22 14:35:25    阅读次数:138
机器学习--K均值聚类算法原理、方法及代码实现
一、K-means算法原理 k-means算法是一种简单的迭代型聚类算法,采用距离作为相似性指标,从而发现给定数据集中的K个类,且每个类的中心是根据类中所有值的均值得到,每个类用聚类中心来描述。对于给定的一个包含n个d维数据点的数据集X以及要分得的类别K,选取欧式距离作为相似度指标,聚类目标是使得各 ...
分类:编程语言   时间:2020-01-19 18:59:10    阅读次数:91
几种相似性/距离(杰卡德距离和余弦距离)与其matlab实现
1. 几种相似度 1.1 Jaccard系数 杰卡德系数(Jaccard index) , 又称为Jaccard相似系数(Jaccard similarity coefficient),用于比较有限样本集之间的相似性与差异性。 1.2 余弦相似度 余弦相似度,又称为余弦相似性,是通过计算两个向量的夹 ...
分类:其他好文   时间:2020-01-13 18:08:09    阅读次数:77
机器学习(6)之聚类算法(k-means\Canopy\层次聚类\谱聚类)
@[toc] 1 聚类的定义 聚类就是对大量未知标注的数据集,按照数据 内部存在的数据特征 将数据集划分为多个不同的类别,使类别内的数据比较相似,类别之间的数据相似度比较小;属于 无监督学习 。 聚类算法的重点是计算样本项之间的 相似度 ,有时候也称为样本间的 距离 。 和分类算法的区别: 分类算法 ...
分类:编程语言   时间:2020-01-04 01:38:28    阅读次数:134
关于考题和书籍上知识相似度匹配的想法实现
首先短文相似度的关键算法用百度AI里面提高的API 其实考题和书籍上知识是提前做出excel表的,用python的pandas库进行处理 ...
分类:其他好文   时间:2019-12-31 01:04:48    阅读次数:94
关于文本相似度-LD算法和余弦算法的比较
具体算法代码网上有现成的工具类。不一一列举了。我在做某个项目的时候发现LD算法有个弊端。就是对于较大文本(>5w)的相似度计算会特别慢,原因在于LD的计算形式是: LD 可能衡量两字符串的相似性。它们的距离就是一个字符串转换成那一个字符串过程中的添加、删除、修改数值。如果文本变的非常的大可以想象计算 ...
分类:编程语言   时间:2019-12-28 13:11:00    阅读次数:92
854条   上一页 1 ... 7 8 9 10 11 ... 86 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!