这里是我整理的一些自己知道的信息检索知识的备忘document: 相当于数据块里的一条记录field: 相当于数据库里的一列term: 指某个field的词,英文单词一般会转词的原型tf:term在field内的词频率函数df:term在全文档集合内的频率函数idf:term在全文档集合内的逆向频率...
分类:
其他好文 时间:
2014-11-06 01:59:40
阅读次数:
174
1,TF-IDF (Term Frequence - Inverse Document Frequency)这个算法用来评价一个词(Term)对整个文档的重要程度,它只考虑了两个因素:(1) 这个词条在本文档中出现的次数是否高 (2) 这个词在所有文档中出现的次数是否高。算法的思想很容易搞懂:在本文...
分类:
其他好文 时间:
2014-11-02 23:49:24
阅读次数:
398
转载于: http://blog.idf.cn/book_intro/黑客文化/传记书名作者出版社《黑客(计算机革命的英雄)》Steven Levy机械工业出版社《黑客与画家》Paul Graham人民邮电出版社《掘金黑客》Kevin Poulsen电子工业出版社《黑客帝国与哲学》William I...
分类:
其他好文 时间:
2014-10-24 00:16:51
阅读次数:
265
还是同前一篇作为学习入门。1. KNN算法描述:step1: 文本向量化表示,计算特征词的TF-IDF值step2: 新文本到达后,根据特征词确定文本的向量step3 : 在训练文本集中选出与新文本向量最相近的k个文本向量,相似度度量采用“余弦相似度”,根据实验测试的结果调整k值,此次选择20ste...
分类:
编程语言 时间:
2014-10-23 12:14:28
阅读次数:
403
谈起自动摘要算法,常见的并且最易实现的当属TF-IDF,但是感觉TF-IDF效果一般,不如TextRank好。TextRank是在Google的PageRank算法启发下,针对文本里的句子设计的权重算法,目标是自动摘要。它利用投票的原理,让每一个单词给它的邻居(术语称窗口)投赞成票,票的权重取决于自...
分类:
编程语言 时间:
2014-10-14 13:31:48
阅读次数:
189
使用用户打标签次数*物品打标签次数做乘积的算法虽然简单,但是会造成热门物品推荐的情况。物品标签的权重是物品打过该标签的次数,用户标签的权重是用户使用过该标签的次数,从而导致个性化的推荐降低,而造成热门推荐。
运用TF-IDF的思想可以对算法进行改进。TF-IDF(term frequemcy-inverse documnet frequency)是一种用于资讯检索和文本挖掘的加权技术。用来评估一...
分类:
其他好文 时间:
2014-10-09 01:49:57
阅读次数:
250
TF-IDF 加权及其应用TF-IDF(term frequency–inverse document frequency)是一种用于资讯检索的常用加权技术。TF-IDF是一种统计方法,用以评估某个单词对于一个文档集合(或一个语料库)中的其中一份文件的重要程度。单词的重要性随着它在文件中出现的次数成...
分类:
其他好文 时间:
2014-09-30 21:35:50
阅读次数:
237
转载:码农场 » TextRank算法提取关键词的Java实现谈起自动摘要算法,常见的并且最易实现的当属TF-IDF,但是感觉TF-IDF效果一般,不如TextRank好。TextRank是在 Google的PageRank算法启发下,针对文本里的句子设计的权重算法,目标是自动摘要。它利用投票的原理...
分类:
编程语言 时间:
2014-09-25 18:31:07
阅读次数:
3995
TF-IDF(term frequency–inverse document frequency)是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随著它在文件中出现的次数成正比增加,但同时会随著它...
分类:
其他好文 时间:
2014-09-24 19:29:07
阅读次数:
208
TF-IDF算法是一种简单快捷的文档特征词抽取方法,通过统计文档中的词频来对文档进行主题分类。TF-IDF(term frequency–inverse document frequency)是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件...
分类:
其他好文 时间:
2014-09-24 18:51:57
阅读次数:
252