摘自:http://blog.csdn.net/fxjtoday/article/details/5142661 Leveraging term vectors所谓term vector, 就是对于documents的某一field,如title,body这种文本类型的, 建立词频的多维向量空间.每 ...
分类:
Web程序 时间:
2017-03-23 14:04:12
阅读次数:
246
余弦距离,也称为余弦相似度,是用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小的度量。 向量,是多维空间中有方向的线段,如果两个向量的方向一致,即夹角接近零,那么这两个向量就相近。而要确定两个向量方向是否一致,这就要用到余弦定理计算向量的夹角。 余弦定理描述了三角形中任何一个夹角和三个边 ...
分类:
其他好文 时间:
2017-03-23 13:35:50
阅读次数:
226
L2-005. 集合相似度 时间限制 400 ms 内存限制 65536 kB 代码长度限制 8000 B 判题程序 Standard 作者 陈越 时间限制 400 ms 时间限制 400 ms 内存限制 65536 kB 内存限制 65536 kB 代码长度限制 8000 B 代码长度限制 800 ...
分类:
其他好文 时间:
2017-03-19 23:46:32
阅读次数:
181
L2-005. 集合相似度 时间限制 400 ms 内存限制 65536 kB 代码长度限制 8000 B 判题程序 Standard 作者 陈越 时间限制 400 ms 时间限制 400 ms 内存限制 65536 kB 内存限制 65536 kB 代码长度限制 8000 B 代码长度限制 800 ...
分类:
其他好文 时间:
2017-03-19 22:23:58
阅读次数:
307
目前大多数中文文本分类系统都采用词作为特征项,作为特征项的词称作特征词。这些特征词作为文档的中间表示形式,用来实现文档与文档、文档与用户目标之间的相似度计算 。 1 基于频率的过滤方法 基于频率的过滤方法中,一条留言中一个词语出现一次以上都是按照一次计算。本文采用了长匹配优先的方式对其进行匹配。如果 ...
分类:
其他好文 时间:
2017-03-17 23:15:39
阅读次数:
245
恢复内容开始 L2-005. 集合相似度 时间限制 400 ms 内存限制 65536 kB 代码长度限制 8000 B 判题程序 Standard 作者 陈越 时间限制 400 ms 时间限制 400 ms 内存限制 65536 kB 内存限制 65536 kB 代码长度限制 8000 B 代码长 ...
分类:
其他好文 时间:
2017-03-10 20:22:38
阅读次数:
191
3. K-means 算法: 3.1 Clustering 中的经典算法,数据挖掘十大经典算法之一 3.2 算法接受参数 k ;然后将事先输入的n个数据对象划分为 k个聚类以便使得所获得的聚类满足:同一 聚类中的对象相似度较高;而不同聚类中的对象相似度较小。 3.3 算法思想: 以空间中k个点为中心 ...
分类:
编程语言 时间:
2017-03-06 17:24:40
阅读次数:
161
一阶估计:用来衡量两个存在连接的结点的相似度。 结合嵌入的方法的具体应用:预测跨社交网络中的锚链接。http://xueshu.baidu.com/s?wd=paperuri:(d90c70ad50b2307df3dc1bc7cd247653)&filter=sc_long_sign&sc_ks_p ...
分类:
其他好文 时间:
2017-03-06 13:23:29
阅读次数:
181
相比kNN的无脑比较相似度,我们需要一种能够较清晰地给出数据内在含义的分类器。 这一章给出了“决策树”这种选择,这一概念本身不难理解,问题在于 在树的每一层如何划分数据集能达到最好的效果 (书中选用的是ID3算法,虽然不是很理解这个名字,但算法本身不是很难理解) 这里的效果,我们引入信息熵这个概念进 ...
分类:
其他好文 时间:
2017-03-04 21:08:52
阅读次数:
150
索引统计信息中需要我们最为重点关注的是CLUSTERING_FACTOR(聚簇因子)。在Oracle数据库中,聚簇因子是指按照索引键值排序的索引行和存储于对应表中数据行的存储顺序和相似度。Oracle是按照如下的算法来计算聚簇因子的值:聚簇因子的初始值为1。Oracle首先定位到目标索引处于最..
分类:
数据库 时间:
2017-02-26 08:23:59
阅读次数:
351