在前一篇文章 《海量数据相似度计算之simhash和海明距离》 介绍了simhash的原理,大家应该感觉到了算法的魅力。但是随着业务的增长 simhash的数据也会暴增,如果一天100w,10天就1000w了。我们如果插入一条数据就要去比较1000w次的simhash,计算量还是蛮大,普通PC 比较 ...
分类:
其他好文 时间:
2017-02-16 14:31:26
阅读次数:
167
通过 采集系统 我们采集了大量文本数据,但是文本中有很多重复数据影响我们对于结果的分析。分析前我们需要对这些数据去除重复,如何选择和设计文本的去重算法?常见的有余弦夹角算法、欧式距离、Jaccard相似度、最长公共子串、编辑距离等。这些算法对于待比较的文本数据不多时还比较好用,如果我们的爬虫每天采集 ...
分类:
其他好文 时间:
2017-02-16 14:25:14
阅读次数:
247
http://study.163.com/course/courseLearn.htm?courseId=1002887002#/learn/video?lessonId=1003387781&courseId=1002887002 可以用余弦相似度来计算两者的相似度。 如果两者关系为0,可以节省计 ...
分类:
其他好文 时间:
2017-02-03 14:32:25
阅读次数:
182
摘自:http://www.36dsj.com/archives/75208 最近参与了了一个日志和告警的数据挖掘项目,里面用到的一些思路在这里和大家做一个分享。 项目的需求是收集的客户系统一个月300G左右的的日志和告警数据做一个整理,主要是归类(Grouping)和关联(Correlation) ...
分类:
其他好文 时间:
2017-01-26 17:27:12
阅读次数:
343
#!/usr/bin/env python # -*- coding: utf-8 -*- from __future__ import division import jieba.analyse from math import sqrt class Similarity(): def __ini... ...
分类:
其他好文 时间:
2017-01-25 17:25:40
阅读次数:
231
前言:前两篇转载别人的精彩文章,自己也总结一下吧! 最近又开始用起py,是为什么呢? 自己要做一个文本相似度匹配程序,大致思路就是两个文档,一个是试题,一个是材料,我将试题按每题分割出来,再将每题的内容与材料中进行文本相似度匹配。 所以先首先要做的是将试题把每道题作为一个字符串切割开来,存放到字典中 ...
分类:
编程语言 时间:
2017-01-12 11:37:51
阅读次数:
164
FCM算法是一种基于划分的聚类算法,它的思想就是使得被划分到同一簇的对象之间相似度最大,而不同簇之间的相似度最小。模糊C均值算法是普通C均值算法的改进,普通C均值算法对于数据的划分是硬性的,而FCM则是一种柔性的模糊划分。在介绍FCM具体算法之前我们先介绍一些模糊集合的基本知识。 1 模糊集基本知识 ...
分类:
编程语言 时间:
2017-01-07 16:32:44
阅读次数:
253
总结:构建基于人的协同过滤模型,以自己的评价或者购买过的商品构建输入向量,计算与模型中其他人的的相似度,然后sum(相似度*评分)/sum(所有评价过此商品的人的相似度)来计算物品推荐值。 对于大规模的物品时,不可能对实时的为每个人计算相似度,然后进行物品的推荐,此时的做法是构建基于物品的协同过滤模 ...
分类:
其他好文 时间:
2017-01-07 10:50:53
阅读次数:
196
本文虽然是学自官方教程而来,但是也融入了自己的理解,而且对官方的例子做了一些修改 /* 类 面向对象编程的一大核心 使用C#、Java进行编程的朋友肯定已经是不能够再熟悉了 TypeScript的类与C#的类有着很高的相似度,但也有着些许不同 */ //构造函数不同,与类同名不再是构造函数而是方法 ... ...
分类:
其他好文 时间:
2017-01-05 23:42:17
阅读次数:
244
很久之前做的东西了,最近做了一个人脸相似度检测,里面用到了这里的一个模型,所以抽个空把人脸年龄检测的思路总结一下。 与其他CNN分类问题类似,人脸年龄预测无非就是将人脸分为多个类别,然后训练卷积神经网络,最后利用训练好的卷积神经网络进行分类即可。 但是在人脸年龄分类方面,有几个比较重要的问题,第一, ...
分类:
其他好文 时间:
2016-11-30 11:42:00
阅读次数:
177