搜索关键字：相似度，搜索到854个结果！码迷,mamicode.com！

基于社交网络的情绪化分析IV

基于社交网络的情绪化分析IVBy 白熊花田(http://blog.csdn.net/whiterbear) 转载需注明出处，谢谢。前面进行了微博数据的抓取，简单的处理，相似度分析，后面两篇进行学校微博的情感分析。微博情感分析这里试图通过字典分析的方式计算学校微博的情感倾向，主要分为积极情感，消极情感，客观。这里字典分析的情感分析和机器学习方式进行情感分析均参考rzcoding的博客，这里只是...

分类：其他好文时间：2015-07-05 21:18:03 阅读次数：246

基于社交网络的情绪化分析III

基于社交网络的情绪化分析IIIBy 白熊花田(http://blog.csdn.net/whiterbear) 转载需注明出处，谢谢。前面进行了微博数据的抓取，简单的处理，这一篇进行学校微博的相似度分析。微博相似度分析这里试图计算任意两个学校之间的微博用词的相似度。思路：首先对学校微博进行分词，遍历获取每个学校的高频用词词典，组建用词基向量，使用该基向量构建每个学校的用词向量，最后使用TF-IDF算...

分类：其他好文时间：2015-06-28 17:36:26 阅读次数：160

句子的编辑距离

在机器翻译中，有时候要做句子的相似度比对，其中要用到编辑距离的计算。而网络上搜索到的资料大部分都将字符作为编辑距离计算的最小单位。事实上，对于句子来说，词语作为编辑距离的最小计算单位往往更加合理。通过动态规划的方法，我们能轻松实现编辑距离的计算。这里要注意的是递推边界的问题。就是当待译句子移动完之后，会出现0-0,0-1,…,0-n的情况（n为候选句子包含词语的个数），这种情况下需要修改的次数我们可...

分类：其他好文时间：2015-06-24 19:13:41 阅读次数：133

数据挖掘十大算法之k-means算法

k-means算法主要是用来解决什么问题呢？主要是用来解决类似于这样的问题：聚类，如一次班级聚餐，平时玩的好的同学，就会自动的聚集在一起愉快的玩耍。那么什么样才算平时玩的好呢？请看k-means算法。 K-means算法是硬聚类算法，是典型的基于原型的目标函数聚类方法的代表，它是数据点到原型的某种距离作为优化的目标函数，利用函数求极值的方法得到迭代运算的调整规则。K-means算法以欧式距离作为相似度测度，它是求对应某一初始聚类中心向量V最优分类，使得评价指标J最小。算法采用误差平方和准...

分类：编程语言时间：2015-06-22 11:09:19 阅读次数：163

Fisher Vector学习笔记

1，背景现有的模式分类方法主要分为两类，一类是生成式方法，比如GMM，这类方法主要反映同类数据之间的相似度；一类是判别式方法，比如SVM，主要是反映异类数据之间的差异。fisher kernel是想要结合二者的优势（1，生成式方法可以处理长度不一的输入数据，2，判别式方法不能处理长度不一的数据但是分类效果较好。），将生成式模型用于判别式分类器中。关于处理长度不一的数据，举例说明如...

分类：其他好文时间：2015-06-21 02:05:43 阅读次数：1313

余弦相似度

定义余弦相似度(cosine similarity)，又称为余弦相似性。通过计算两个向量的夹角余弦值来评估他们的相似度。概念向量，是多维空间中有方向的线段，如下图是二维空间的两个向量：如果两个向量的方向一致，即夹角接近零，那么这两个向量就相近。要确定两个向量方向是否一致，可以用余弦定理计算向量的夹角...

分类：其他好文时间：2015-06-18 18:37:06 阅读次数：195

A/B Test Sensitivity Improvement by Using Post-Stratification

a/b测试是ebay主要使用的算法优化方法。由于交易数据的长尾特性，用以比较测试组和控制组的 t假设检验方法敏感度不高。本文通过事后分层的统计分析方法，对a/b测试中的用户按照试验前线上行为的相似度进行分组，通过减少组内行为差异而减少试验方差，进而提高测试敏感度，改进试验效率。...

分类：其他好文时间：2015-06-18 17:25:16 阅读次数：233

Solr相似度名词：VSM(Vector Space Model)向量空间模型

最近想学习下Lucene ，以前运行的Demo就感觉很神奇，什么原理呢，尤其是查找相似度最高的、最优的结果。索性就直接跳到这个问题看，很多资料都提到了VSM（Vector Space Model）即向量空间模型，根据这个模型可以对搜索的结果进行最优化的筛选，目前还不知道如何证明，只能凭借想象应该是这...

分类：其他好文时间：2015-06-15 20:09:03 阅读次数：329

Solr相似度算法三：DRFSimilarity框架介绍

地址:http://terrier.org/docs/v3.5/dfr_description.htmlThe Divergence from Randomness (DFR) paradigm is a generalisation of one of the very first models ...

分类：编程语言时间：2015-06-15 18:40:02 阅读次数：1614

Solr相似度算法二：BM25Similarity

BM25算法的全称是 Okapi BM25，是一种二元独立模型的扩展，也可以用来做搜索的相关度排序。Sphinx的默认相关性算法就是用的BM25。Lucene4.0之后也可以选择使用BM25算法(默认是TF-IDF)。如果你使用的solr，只需要修改schema.xml，加入下面这行就可以BM25也...

分类：编程语言时间：2015-06-15 18:15:05 阅读次数：409

共854条上一页 1 ... 61 62 63 64 65 ... 86 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)