码迷,mamicode.com
首页 >  
搜索关键字:idf    ( 581个结果
从网页相关性TF-IDF到余弦定理的新闻分类的程序实现
TF-IDF(term frequency–inverse document frequency)是一种用于资讯检索与资讯探勘的常用加权技术。权重计算方法经常会和余弦相似度(cosine similarity)一同使用于向量空间模型中,用以判断两份文件之间的相似性。应用到余弦定理到新闻分类的算法模拟程序...
分类:Web程序   时间:2014-09-20 01:12:26    阅读次数:370
python 分词计算文档TF-IDF值并排序
python 分词计算文档TF-IDF值并排序...
分类:编程语言   时间:2014-08-09 11:38:07    阅读次数:617
【转载】软件开发启示录——迟到的领悟
作者: John Sonmez来源: IDF实验室博客发布时间: 2013-10-20 15:47转自(http://blog.idf.cn/2013/09/4-things-i-wish-i-would-have-known-when-i-started-my-software-developme...
分类:其他好文   时间:2014-07-25 23:59:46    阅读次数:499
Python TF-IDF计算100份文档关键词权重
上一篇博文中,我们使用结巴分词对文档进行分词处理,但分词所得结果并不是每个词语都是有意义的(即该词对文档的内容贡献少),那么如何来判断词语对文档的重要度呢,这里介绍一种方法:TF-IDF。 一,TF-IDF介绍 TF-IDF(Term Frequency–Inverse Document F...
分类:编程语言   时间:2014-07-18 08:30:03    阅读次数:620
关于目前分词的想法
目前分词性能比较差,只有1.65M/s,同事在没有改变主要算法的情况下做了一点优化调整,到3.52M/s,但对性能的提升仍然不够明显。我感觉亟须解决几个问题: 1.search时keyword分词也按多种粒度进行,然后分别sloppyphrase,最后or起来,由于大粒度分的词词频低,因此idf大,它们在排序时优先级更高,符合期望。现在只做一个粒度的切法,又要求在索引里面都能找到,感觉不太现实。...
分类:其他好文   时间:2014-06-27 07:07:34    阅读次数:203
python scikit-learn计算tf-idf词语权重
python的scikit-learn包下有计算tf-idf的api,研究了下做个笔记 1 安装scikit-learn包 sudo pip install scikit-learn 2 中文分词采用的jieba分词,安装jieba分词包 sudo pip install jieba 3  关于jieba分词的使用非常简单,参考这里,关键的语句就是(这里简单试水,不追求效...
分类:编程语言   时间:2014-06-16 14:40:05    阅读次数:437
TF-IDF算法简介
TF-IDF算法全称为termfrequency–inversedocumentfrequency。TF就是termfrequency的缩写,意为词频。IDF则是inversedocumentfrequency的缩写,意为逆文档频率。该算法在信息处理中通常用来抽取关键词。比如,对一个文章提取关键词作为搜索词,就可以采用TF-IDF算法。要找出一?.
分类:其他好文   时间:2014-06-10 22:27:19    阅读次数:395
云计算大会有感—MapReduce和UDF
(转载请注明出处:http://blog.csdn.net/buptgshengod)1.參会有感 首先还是非常感谢CSDN能给我票,让我有机会參加这次中国云计算峰会。感觉不写点什么对不起CSDN送我的门票(看到网上卖一千多一张呢)。 还是得从国家会议中心说起,两年前lz以前在那当过IDF...
分类:其他好文   时间:2014-06-03 08:21:39    阅读次数:299
云计算大会有感—MapReduce和UDF
(转载请注明出处:http://blog.csdn.net/buptgshengod)1.参会有感      首先还是非常感谢CSDN能给我票,让我有机会参加这次中国云计算峰会。感觉不写点什么对不起CSDN送我的门票(看到网上卖一千多一张呢)。        还是得从国家会议中心说起,两年前lz曾经在那当过IDF的志愿者,当时是纯体力劳动,负责给参会人员发一些杂志什么的,当时苦逼的为了多蹭一个盒饭...
分类:其他好文   时间:2014-05-25 00:59:08    阅读次数:458
TF-IDF及其算法(转)
http://www.cnblogs.com/biyeymyhjob/archive/2012/07/17/2595249.html
分类:其他好文   时间:2014-04-29 11:28:46    阅读次数:302
581条   上一页 1 ... 56 57 58 59 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!