余弦相似度计算字符串相似率 功能需求:最近在做通过爬虫技术去爬取各大相关网站的新闻,储存到公司数据中。这里面就有一个技术点,就是如何保证你已爬取的新闻,再有相似的新闻 或者一样的新闻,那就不存储到数据库中。(因为有网站会去引用其它网站新闻,或者把其它网站新闻拿过来稍微改下内容就发布到自己网站中)。 ...
分类:
编程语言 时间:
2018-08-16 00:42:08
阅读次数:
162
人脸检测属于计算机视觉的范畴,早期人们的主要研究方向是人脸识别,即根据人脸来识别人物的身份,后来在复杂背景下的人脸检测需求越来越大,人脸检测也逐渐作为一个单独的研究方向发展起来。 目前人脸检测的方法主要有两大类:基于知识和基于统计。 基于知识的方法:主要利用先验知识将人脸看作器官特征的组合,根据眼睛 ...
分类:
其他好文 时间:
2018-08-15 22:42:57
阅读次数:
235
人脸识别 首先我想描述一下,在学校的时候一直好奇人脸识别与人脸检测这个技术,之后做了很多实验,曾经使用过很多简单的算法来做人脸相似度对比,比如:夹角余弦算法、判断两个矩阵之间对应位置元素相同来做统计、直方图比对、欧氏距离、绝对值距离等等很多这个低级的实验我都做过,一次次的识别让我感到万分难过。之后我 ...
1、余弦距离: 描述:余弦夹角也可以叫余弦相似度。几何中夹角余弦可用来衡量两个向量方向的差异,机 器学习中借用这一概念来衡量向量样本之间的差异。余弦的取值范围[-1,1],求的两个向量 的夹角并得出夹角对应的余弦值,次余弦值就可以用来表征这两个向量的相似性。夹角越小, 趋近于零度,余弦值越接近于 1 ...
分类:
编程语言 时间:
2018-08-12 17:26:43
阅读次数:
224
"Awesome Repositories for NLI and Semantic Similarity" mainly record pytorch implementations for NLI and similarity computing |REPOSITORY|REFERENCE| | ...
分类:
编程语言 时间:
2018-08-12 15:45:51
阅读次数:
1274
主要参考 K-means 聚类算法及 python 代码实现 还有 《机器学习实战》 这本书,当然前面那个链接的也是参考这本书,懂原理,会用就行了。 1、概述 K-means 算法是集简单和经典于一身的基于距离的聚类算法 采用距离作为相似性的评价指标,即认为两个对象的距离越近,其相似度就越大。 该算 ...
分类:
编程语言 时间:
2018-08-10 17:09:20
阅读次数:
191
最近天气有点热,三伏天得了空调病,最后发现是颈椎引起的问题,期间还拔了颗顽固的智齿,也算是一波三折了。 这次介绍 Item(User)相似度 的计算方法,其广泛运用于基于邻域的协同过滤算法的推荐系统。简而言之,基于邻域,就是基于相邻的元素进行推荐,而相邻元素的得到过程就是相似度的计算过程。 对于空间 ...
分类:
其他好文 时间:
2018-08-09 13:48:05
阅读次数:
1726
流形学习(Manifold Learning)是机器学习中一大类算法的统称,而MDS就是其中非常经典的一种方法。 多维尺度变换是一种在低维空间展示“距离”数据结构的多元数据分析技术,是一种将多维空间的研究对象简化到低维空间进行定位、分析和归类,同时又保留对象间原始关系的数据分析方法。多维尺度变换算法 ...
分类:
其他好文 时间:
2018-08-05 18:58:28
阅读次数:
1466
关键词句和文本集每篇文章相关度计算:假设语料库中有几万篇文章,每篇文章的长度不一,你任意输入关键词或句子,通过代码以tf-idf值为准检索出来相似度高的文章。 1、TF-IDF概述 TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文 ...
分类:
编程语言 时间:
2018-08-03 10:47:38
阅读次数:
286
1. delorean,用来处理时间的库 2.prettybody 3.snowballstemmer 4.wget,比较有用的库,可以用来下载图片 当然输入一个普通的url,会将整个页面的html文本下载下来 5.fuzzywuzzy,用来做字符串的相似度 ...
分类:
编程语言 时间:
2018-07-31 01:33:40
阅读次数:
159