码迷,mamicode.com
首页 >  
搜索关键字:相似度    ( 854个结果
向量空间模型(VSM)计算文本相似度
1.定义 向量空间模型是一个把文本表示为标引项(Index Term)向量的代数模型,原型系统SMART*。 向量空间模型的定义很简单,文档d,查询q都用向量来表示。 查询和文档都可转化成term及其权重组成的向量表示,都可以看成空间中的点。向量之间通过距离计算得到查询和每个文档的相似度。 我们在向 ...
分类:其他好文   时间:2016-04-06 15:03:08    阅读次数:499
腾讯编程题
这是一个腾讯笔试的编程题: 我们常常会用到一个LCS的问题,本题的唯一的一个巧妙之处在于,最后求解的字符串变为的是原来的字符串与其reverse之后的字符串的最大LCS,这样本题就得到了解决。 最长公共子序列求解:递归与动态规划方法   在做OJ题目的时候,经常会用到字符串的处理。例如,比较二个字符串相似度。这篇文章介绍一下求两个字符串的最长公共子序列。   一个字符串...
分类:其他好文   时间:2016-04-05 17:58:44    阅读次数:236
中文句子相似度之計算與應用
原文:http://www.aclweb.org/anthology/O05-1008 中文句子相似度之计算与应用 郑守益 梁婷国立交通大学信息科学系 摘要 近年來受惠于国内外各项语料库资源的建置及网际网路上的大量中文语料,使计算机语文辅助教材的涵盖层面日趋广泛。因此如何产生大量且具高质量之辅助教材 ...
分类:其他好文   时间:2016-04-02 16:06:14    阅读次数:152
(6)文本挖掘(三)——文本特征TFIDF权重计算及文本向量空间VSM表示
建立文本数据数学描述的过程分为三个步骤:文本预处理、建立向量空间模型和优化文本向量。文本预处理主要采用分词、停用词过滤等技术将原始的文本字符串转化为词条串或者特点的符号串。文本预处理之后,每一个文本的词条串被进一步转换为一个文本向量,向量的每一维对应一个词条,其值反映的是这个词条与这个文本之间的相似度。相似度有很多不同的计算方法,所以优化文本向量就是采用最为合适的计算方法来规范化文本向量,使其能更好...
分类:其他好文   时间:2016-03-29 10:48:22    阅读次数:314
图像相似度计算之哈希值方法OpenCV实现
感知哈希度,图像相似算法
分类:其他好文   时间:2016-03-15 06:24:00    阅读次数:216
使用MinHash算法计算两个集合的相似度
集合相似度计算是一个常见的问题。例如,已知看过芈月传的人都有哪些,还知道看过琅琊榜的人都有哪些,那么想知道同时看过两者的人群占至少看过一部的人群的占比,就是求这两个集合的相似度: 集合A = 看过芈月传的人群集合B = 看过琅琊榜的人群相似度 = |A∩B| / |A∪B| = 既看过芈月传又看过琅
分类:编程语言   时间:2016-03-14 18:31:39    阅读次数:385
特征降维 理论
特征值分解 奇异值分解SVD Python实现SVD 低阶近似 奇异值选取策略 相似度计算 基于物品相似度 基于物品相似度的推荐步骤 利用物品相似度预测评分 基于物品相似度的推荐结果 利用SVD降维 利用SVD降维前后结果比较 基于SVD的图像压缩–阈值处理 基于SVD的图像压缩...
分类:其他好文   时间:2016-03-10 17:29:55    阅读次数:247
利用sklearn计算文本相似性
利用sklearn计算文本相似性,并将文本之间的相似度矩阵保存到文件当中。这里提取文本TF-IDF特征值进行文本的相似性计算。 #!/usr/bin/python # -*- coding: utf-8 -*- import numpy import os import sys from sklea
分类:其他好文   时间:2016-03-08 00:01:24    阅读次数:2085
【转载】各种聚类算法的比较
聚类的目标是使同一类对象的相似度尽可能地大;不同类对象之间的相似度尽可能地小。目前聚类的方法很多,根据基本思想的不同,大致可以将聚类算法分为五大类:层次聚类算法、分割聚类算法、基于约束的聚类算法、机器学习中的聚类算法和用于高维度的聚类算法。摘自 数据挖掘中的聚类分析研究综述 这篇论文。 1、层次聚类
分类:编程语言   时间:2016-03-06 23:20:22    阅读次数:205
百度面试题 字符串相似度 算法 similar_text 和页面相似度算法
在百度的面试,简直就是花样求虐。 首先在面试官看简历的期间,除了一个自己定义字符串相似度,并且写出求相似度的算法。 。。。这个确实没听说过,php的similar_text函数也是闻所未闻的。之前看seo的时候,到简单了解了一下页面的相似度,百度算法中很常见的需要判断页面是否是重复的,重复的肯定就不
分类:编程语言   时间:2016-03-03 12:49:36    阅读次数:187
854条   上一页 1 ... 51 52 53 54 55 ... 86 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!