码迷,mamicode.com
首页 > 其他好文 > 详细

TF-IDF概念

时间:2018-03-23 14:17:34      阅读:189      评论:0      收藏:0      [点我收藏+]

标签:概念   调整   class   频率   inverse   body   .com   重要   tf-idf   

之前就了解过TF-IDF,现在做一个回顾。

概念:

TF(Term Frequency)词频:一个文档中关键词出现的次数/该文档的总词数,

IDF(Inverse Document Frequency)逆文档频率:

技术分享图片

如果一个词越常见,那么分母就越大,逆文档频率就越小越接近0。分母之所以要加1,是为了避免分母为0(即所有文档都不包含该词),这就是一个调整系数,如果某个词在语料库中总体比较少见,但是它在这篇文档里出现频率很高,那这个词就很有可能是我们需要的关键词

得到"词频"(TF)和"逆文档频率"(IDF)以后,将这两个值相乘,就得到了一个词的TF-IDF值。某个词对文章的重要性越高,它的TF-IDF值就越大。所以,排在最前面的几个词,就是这篇文章的关键词。

TF-IDF概念

标签:概念   调整   class   频率   inverse   body   .com   重要   tf-idf   

原文地址:https://www.cnblogs.com/yqpy/p/8629808.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!