搜索关键字：相似度，搜索到854个结果！码迷,mamicode.com！

海量数据相似度计算之simhash短文本查找

在前一篇文章《海量数据相似度计算之simhash和海明距离》介绍了simhash的原理，大家应该感觉到了算法的魅力。但是随着业务的增长 simhash的数据也会暴增，如果一天100w，10天就1000w了。我们如果插入一条数据就要去比较1000w次的simhash，计算量还是蛮大，普通PC 比较 ...

分类：其他好文时间：2017-02-16 14:31:26 阅读次数：167

海量数据相似度计算之simhash和海明距离

通过采集系统我们采集了大量文本数据，但是文本中有很多重复数据影响我们对于结果的分析。分析前我们需要对这些数据去除重复，如何选择和设计文本的去重算法？常见的有余弦夹角算法、欧式距离、Jaccard相似度、最长公共子串、编辑距离等。这些算法对于待比较的文本数据不多时还比较好用，如果我们的爬虫每天采集 ...

分类：其他好文时间：2017-02-16 14:25:14 阅读次数：247

协同过滤及大数据处理

http://study.163.com/course/courseLearn.htm?courseId=1002887002#/learn/video?lessonId=1003387781&courseId=1002887002 可以用余弦相似度来计算两者的相似度。如果两者关系为0，可以节省计 ...

分类：其他好文时间：2017-02-03 14:32:25 阅读次数：182

日志和告警数据挖掘经验谈——利用日志相似度进行聚类，利用时间进行关联分析

摘自：http://www.36dsj.com/archives/75208 最近参与了了一个日志和告警的数据挖掘项目，里面用到的一些思路在这里和大家做一个分享。项目的需求是收集的客户系统一个月300G左右的的日志和告警数据做一个整理，主要是归类(Grouping)和关联(Correlation) ...

分类：其他好文时间：2017-01-26 17:27:12 阅读次数：343

利用余弦定理计算文本的相似度

#!/usr/bin/env python # -*- coding: utf-8 -*- from __future__ import division import jieba.analyse from math import sqrt class Similarity(): def __ini... ...

分类：其他好文时间：2017-01-25 17:25:40 阅读次数：231

前两篇转载别人的精彩文章，自己也总结一下python split的用法吧！

前言：前两篇转载别人的精彩文章，自己也总结一下吧！最近又开始用起py，是为什么呢？自己要做一个文本相似度匹配程序，大致思路就是两个文档，一个是试题，一个是材料，我将试题按每题分割出来，再将每题的内容与材料中进行文本相似度匹配。所以先首先要做的是将试题把每道题作为一个字符串切割开来，存放到字典中 ...

分类：编程语言时间：2017-01-12 11:37:51 阅读次数：164

FCM聚类算法介绍

FCM算法是一种基于划分的聚类算法，它的思想就是使得被划分到同一簇的对象之间相似度最大，而不同簇之间的相似度最小。模糊C均值算法是普通C均值算法的改进，普通C均值算法对于数据的划分是硬性的，而FCM则是一种柔性的模糊划分。在介绍FCM具体算法之前我们先介绍一些模糊集合的基本知识。 1 模糊集基本知识 ...

分类：编程语言时间：2017-01-07 16:32:44 阅读次数：253

协同过滤

总结：构建基于人的协同过滤模型，以自己的评价或者购买过的商品构建输入向量，计算与模型中其他人的的相似度，然后sum(相似度*评分)/sum(所有评价过此商品的人的相似度)来计算物品推荐值。对于大规模的物品时，不可能对实时的为每个人计算相似度，然后进行物品的推荐，此时的做法是构建基于物品的协同过滤模 ...

分类：其他好文时间：2017-01-07 10:50:53 阅读次数：196

TypeScript 素描 - 类

本文虽然是学自官方教程而来,但是也融入了自己的理解，而且对官方的例子做了一些修改 /* 类面向对象编程的一大核心使用C#、Java进行编程的朋友肯定已经是不能够再熟悉了 TypeScript的类与C#的类有着很高的相似度,但也有着些许不同 */ //构造函数不同,与类同名不再是构造函数而是方法 ... ...

分类：其他好文时间：2017-01-05 23:42:17 阅读次数：244

利用CNN进行人脸年龄预测

很久之前做的东西了，最近做了一个人脸相似度检测，里面用到了这里的一个模型，所以抽个空把人脸年龄检测的思路总结一下。与其他CNN分类问题类似，人脸年龄预测无非就是将人脸分为多个类别，然后训练卷积神经网络，最后利用训练好的卷积神经网络进行分类即可。但是在人脸年龄分类方面，有几个比较重要的问题，第一， ...

分类：其他好文时间：2016-11-30 11:42:00 阅读次数：177

共854条上一页 1 ... 43 44 45 46 47 ... 86 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)