码迷,mamicode.com
首页 > 编程语言 > 详细

中文自动分词算法

时间:2014-11-10 11:43:12      阅读:218      评论:0      收藏:0      [点我收藏+]

标签:style   color   使用   sp   strong   文件   数据   on   问题   

中文自动分词算法

  当在搜索引擎中搜索“软件使用技巧”时,搜索引擎通常会帮你找出同时含有”软件“、”使用“、”技巧“的网页。一个好的新闻网站通常会有“相关文件推荐”的功能,这也要依赖于自动分词的算法。要想让计算机准确切分并不容易,例如某网站报道北京大学生,而相关文章里列出的全是北京大学的新闻。这多半是分词算法错误地把标题中的“北京大学”当成了一个词。

  难题一,交集词。例如“结婚的和尚未结婚的”。“和尚”和“尚未”都是词。“中外科学名著”里,“中外”、“外科”、“科学”。。。全是词。类似的问题很多,“提高产品质量”、“鞭炮声响彻夜空”、“努力学习法语规则”。这些极端的例子下,分词算法的优劣一试便知。

  一种改进方法是构造一个不单独成词表,比如“”民“、”尘“、”伟“,这些字通常不会单独划出来,都要跟旁边的字一块组成一个词。在分词过程中,一理发现这些字被孤单出来,都要重新考虑它与前面的字组词的可能性。

  另一种改进方法是根据数据统计,计算出每个词出现的概率,来给一个句子打分。将句子中每种分词结果都打一个分,选取一个最高分。此种问题下,一些高频词会产生问题,如“的”字,考虑“的确”这个词组,“的”字总是以高分单独列出。

  难题二,组合词。如“个人恩怨”、”这个人“中,虽然都有”个人“,都要拆分成2个词。

  我们可以构造一个二元模型,P(w1,w2)表示w1后恰好是w2的概率。再定义一个句子的划分方案得分:P(s, w1)*P(w1, w2)。。。

  更多资料参考《思考的乐趣》11篇《中文自动分词算法》

中文自动分词算法

标签:style   color   使用   sp   strong   文件   数据   on   问题   

原文地址:http://www.cnblogs.com/tekkaman/p/4086605.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!