码迷,mamicode.com
首页 > 其他好文 > 详细

常见统计模型

时间:2020-01-08 14:32:19      阅读:110      评论:0      收藏:0      [点我收藏+]

标签:lock   code   效果   频率   简单   有关   使用场景   字段   语言模型   

统计语言模型

抽取概率:在一个文档DOC中随机抽取了一个词Word,被抽中的概率。

用户搜索W1、W2,W1在Doc1中的抽取概率为1%,W2的抽取概率为2%,则本次搜索中,Doc1的相关性的分为1%*2%,依次可以计算出所有文档的相关性得分,并按相关性对搜索结果进行排序。?

特点:与BM25效果相当,但需要使用大量文档语料库来训练,语料库最好与使用场景比较相似。

布尔模型

苹果 AND 公司:表示既包含“苹果”,有包含“公司”,这两个词的文档。
苹果 OR 公司:表示搜索包含“苹果”或者“公司”这两个词中任意一个的文档。
特点:简单粗暴。

BIM模型

BIM:按照文档中含有关键词的数量和词在文档中出现的频率,确定权重。
BM25:在BIM的基础上增加了:

  1. 搜索词在文档中的权重。
  2. 搜索词本身的权重。

BM25F:在BM25的基础上增加了考虑文档中不同字段的权重。
BM25F是最常见的商业模型。

常见统计模型

标签:lock   code   效果   频率   简单   有关   使用场景   字段   语言模型   

原文地址:https://www.cnblogs.com/lqysfu/p/12166267.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!