需求,最近实现了文章的原创度检测功能,处理思路一是分词之后做搜索引擎匹配飘红,另一方面是量化词组,按文章、段落、句子做数据库查询,功能基本满足实际需求。 接下来,还需要在海量大数据中快速的查找到与一句或者一段话最相关的文章、段落。 上一篇随笔里记录有当时的一些想法,今天下午按想法具体实现并测试了一次 ...
分类:
数据库 时间:
2016-09-08 22:54:30
阅读次数:
1375
主要内容: 人脸识别登录 根据人脸识别与浏览记录相结合的方式进行商品和广告推荐 根据表情识别来分别客户对广告推荐的喜好程度 功能性需求: 人脸检测: 通过摄像头获取人脸轮廓,提取特征生成特征数据库,将实时生成的特征数据与预置的特征库进行比较,计算相似度,给出相应识别结果,可以支持多个人脸识别,并能辨 ...
分类:
其他好文 时间:
2016-09-01 10:40:55
阅读次数:
124
在概率论和统计理论中,Hellinger距离被用来度量两个概率分布的相似度。它是f散度的一种(f散度——度量两个概率分布相似度的指标)。Hellinger距离被定义成Hellinger积分的形式,这种形式由Ernst Hellinger在1909年引进。 目录 ·1 定义 ·1.1 度量理论 ·1. ...
分类:
其他好文 时间:
2016-08-28 16:30:33
阅读次数:
134
相似基因 题目描述 大家都知道,基因可以看作一个碱基对序列。它包含了4种核苷酸,简记作A,C,G,T。生物学家正致力于寻找人类基因的功能,以利用于诊断疾病和发明药物。在一个人类基因工作组的任务中,生物学家研究的是:两个基因的相似程度。因为这个研究对疾病的治疗有着非同寻常的作用。两个基因的相似度的计算 ...
分类:
其他好文 时间:
2016-08-16 10:24:07
阅读次数:
164
欧几里德距离评价: 以经过人们一致评价的物品为坐标轴,然后将参与评价的人绘制到图上,并考察他们彼此之间的距离远近。计算出每一轴向上的差值,求平方之后再相加,最后对总和取平方根。 皮尔逊相关度评价: Mick Lasalle为《Superman》评了3分,而Gene Seyour则评了5分,所以该影片 ...
分类:
其他好文 时间:
2016-08-15 18:39:39
阅读次数:
355
最近在搞jni, 所以又捡起了c++, java 和c++都是类c的语言, 所以相似度还是很高的, 这就导致了某些地方窝老是搞混, 比如类的实例化。 c++: | java: class A{ | public class A{ public: | public A(int i){}; A(int ...
分类:
编程语言 时间:
2016-08-15 17:10:06
阅读次数:
127
华为上机题汇总(十二)注:编译环境为Visual Studio 2012,答案仅供参考。目录华为上机题汇总十二
目录
第五十六题
第五十七题
第五十八题
第五十九题
第六十题第五十六题56.在中国,形容夫妻恩爱的词汇中,大家用的比较多的就是“夫妻相”。所谓“夫妻相”,就是两个人看上去比较般配,长相、身材等某些方面有一定的相似度。本题则另辟蹊径,从人的姓名维度,以字母重复个数来寻找最具“夫妻相”的人。...
分类:
其他好文 时间:
2016-08-14 17:56:27
阅读次数:
307
写了很久忘保存了,囧没了,先放这里 catalogue 1. TF-IDF Relevant Link: 2. 基于空间向量的余弦算法 3. 最长公共子序列该算法的最大缺陷是计算CPU消耗较大 为进一步提升该算法,我们可以将字符相同节点的值加上左上角(d[i-1,j-1])的值,这样即可获得最大公共 ...
分类:
编程语言 时间:
2016-08-05 15:28:26
阅读次数:
225
1.概述 跟SimHash一样,MinHash也是LSH的一种,可以用来快速估算两个集合的相似度。MinHash由Andrei Broder提出,最初用于在搜索引擎中检测重复网页。它也可以应用于大规模聚类问题。 2.Jaccard index 在介绍MinHash之前,我们先介绍下Jaccard i ...
分类:
编程语言 时间:
2016-08-03 10:14:33
阅读次数:
185
题意:求出将两个字符串改成一样长度所能形成最大的相似度。 思路:这个可以说是编辑距离的一个变形,编辑距离最终状态时要两个字符串完全一致,这个就是要求长度一样,而且这个只允许插入“—”这一个字符。模仿编辑距离定义状态,dp[i][j]表示将第一个字符串的前i个字符与第二个字符串的前j个字符变为相同长度 ...
分类:
其他好文 时间:
2016-07-31 17:28:52
阅读次数:
145