码迷,mamicode.com
首页 > 其他好文 > 详细

【数学之美】第3章 统计语言模型

时间:2014-05-25 23:12:32      阅读:262      评论:0      收藏:0      [点我收藏+]

标签:style   c   a   color   数据   rgb   

用数学的方法描述语言规律

 

贾里尼克:一个句子是否合理,等同于判断其可能性的大小,用概率来衡量

Markov模型:简化条件概率运算。

二元模型 Bigram model,N元模型

为什么合理?上下文相关,短程依赖。

不足之处:忽略长程依赖性 Long Distance Dependency

N的取值?tradeoff,同时关注:效果的提升,资源的耗费

 

模型训练的问题:零概率问题(不平滑)

解决办法:平滑方法

理论基础:

Good-Turing Estimate: 相信可靠的统计数据,对不可信的统计数据打折扣,将折扣出来的小部分概率给予为看见的事件 (Unseen Events)

(IBM)Katz backoff

 

语料的选取问题:训练语料尽量和模型应用的领域相结合

训练数据尽可能多。但在某些领域(如机器翻译的双语语料)训练数据很少,无法追求大量数据

需要过滤训练数据

【数学之美】第3章 统计语言模型,布布扣,bubuko.com

【数学之美】第3章 统计语言模型

标签:style   c   a   color   数据   rgb   

原文地址:http://www.cnblogs.com/chenhuanfa/p/3751155.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!