聚类分析 什么是聚类分析? 聚类 (Clustering) 就是将数据对象分组成为多个类或者簇 (Cluster),它的目标是:在同一个簇中的对象之间具有较高的相似度,而不同簇中的对象差别较大。所以,在很多应用中,一个簇中的...
分类:
编程语言 时间:
2015-08-12 19:58:56
阅读次数:
220
字符串的相似度定义为:将一个字符串转换成另外一个字符串时需要付出的代价。转换可以采用插入、删除和替换三种编辑方式,因此转换的代价就是对字符串的编辑次数。作为对比采用两种方式:递归算法和动态规划算法朴素递归方式实现:朴素递归方式很清晰,很简洁,但是时间复杂度很高public static int ed...
分类:
其他好文 时间:
2015-08-12 16:44:27
阅读次数:
110
1、余弦距离余弦距离,也称为余弦相似度,是用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小的度量。向量,是多维空间中有方向的线段,如果两个向量的方向一致,即夹角接近零,那么这两个向量就相近。而要确定两个向量方向是否一致,这就要用到余弦定理计算向量的夹角。余弦定理描述了三角形中任何一个夹角...
分类:
其他好文 时间:
2015-08-11 18:27:14
阅读次数:
128
爬虫抓取网页过程中,会产生很多的问题,当然最重要的一个问题就是重复问题,网页的重复抓取.最简单的方式就是对url去重.已经抓取过的url不再抓取.但是其实在实际业务中是需要对于已经抓取过的URL进行再次抓...
分类:
Web程序 时间:
2015-08-10 20:25:02
阅读次数:
146
在分类聚类算法,推荐系统中,常要用到两个输入变量(通常是特征向量的形式)距离的计算,即相似性度量.不同相似性度量对于算法的结果,有些时候,差异很大.因此,有必要根据输入数据的特征,选择一种合适的相似性度量方法.令X=(x1,x2,..,xn)T,Y=(y1,y2,...yn)T为两个输入向量,1.欧...
分类:
其他好文 时间:
2015-08-09 15:27:47
阅读次数:
178
寻找数据之间的相似性是数据聚合、分类、拟合预测等应用中常见的场景;寻找数据之间的相异性是异常检测,排除离群点等数据操作必需的步骤。所以计算数据之间的相似度和相异度是数据处理的基本手段,常用的方法是计算数据之间的距离和密度。相似度顾名思义就是两个对象相似程度的数值度量,常常在0(不相似)和1(完全相似...
分类:
其他好文 时间:
2015-08-08 22:47:48
阅读次数:
282
Jaccard indexFrom Wikipedia, the free encyclopediaTheJaccard index, also known as theJaccard similarity coefficient(originally coinedcoefficient de co...
分类:
其他好文 时间:
2015-08-08 22:45:01
阅读次数:
279
//n个物品,用字母表示每个物品的种类,
//给出标准答案对于每种物品的字母表示
//给出每个人的答案,问怎样的匹配使得两个答案的相似度更高
//{A A B A B B C C C C},{F F E F E E D D D D}表示一种答案
//对每个字母和字母之间建图,两个答案在同一个位置的字母之间的边的权值加1
//那么就只需要求其最大带权匹配
#include
#inclu...
分类:
编程语言 时间:
2015-08-07 19:57:29
阅读次数:
132
Mahout提供推荐系统引擎是模块化的,分为5个主要部分组成:
1. 数据模型
2. 相似度算法
3. 近邻算法
4. 推荐算法
5. 算法评分器
今天好好看了看关于推荐算法以及算法评分部分的源码。
以http://blog.csdn.net/jianjian1992/article/details/46582713
里边数据的为例进行实验。整体流程的代码如下,依...
分类:
其他好文 时间:
2015-08-07 13:24:42
阅读次数:
246
百度问的一些问题供参考:1. epoll 和 select,epoll 两种模式,阻塞非阻塞;2. 两个严格递增链表找出相同的元素组成新的链表; ref1 ref 3. 网络传输中如何传送一个结构体,实现一个通用的程序;4. accept 非阻塞模式;5. 两段话如何计算相似度6. stl 中 .....
分类:
其他好文 时间:
2015-08-05 19:55:40
阅读次数:
173