码迷,mamicode.com
首页 > 其他好文 > 详细

SRILM语言模型格式解读

时间:2014-05-07 06:04:11      阅读:388      评论:0      收藏:0      [点我收藏+]

标签:srilm   语言模型   

先看一下语言模型的输出格式

(注:上面的值都是以10为底的对数值)


上面是一个语言模型的一部分,三元语言模型的综合格式如下:

第一项表示ngram的条件概率,就是P(wordN | word1,word2,。。。,wordN-1)。

第二项表示ngram的词。

最后一项是回退的权重。


举例来说,对于三个连续的词来说,我们计算三个词一起出现的概率:

表示word1和word2出现的情况下word3出现的概率,比如P(平|习,进)的意思是已经出现了“习进”两个字,后面是平的概率,这个概率这么计算:


上面的计算又集中在计算P(word3 | word2)的概率上,就是如果不存在习进平的三元模型,此时不管何种路径,都要计算P(word3 | word2) 的概率,计算如下:


SRILM语言模型格式解读,布布扣,bubuko.com

SRILM语言模型格式解读

标签:srilm   语言模型   

原文地址:http://blog.csdn.net/chenlei0630/article/details/23916921

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!