码迷,mamicode.com
首页 > 其他好文 > 详细

基于统计的机器翻译

时间:2021-04-08 13:26:01      阅读:0      评论:0      收藏:0      [点我收藏+]

标签:英文   大小写   中英文   规则   合并   大学   学院   高性能   其他   

 

1. 中英文平行语料预处理
中文处理
数据泛化,解决数据稀疏问题
数字 $number
日期 $date
时间 $time
网址等 $literal
专有名词处理:如“东北大学信息学院”建议拆分为“东北大学”、“信息学院”,有助于抽取出更多翻译规则

英文
大小写
句尾结束符与最后单词用空格分开
数据泛化处理

其他
全角 > 半角
中英文同一类型泛化名最好一致,如时间
可crf或语言模型高性能中文分词
英文句尾与Mr.Smith区分
泛化结果一致性检验,如一方含$number另一方也应含$number
双语预处理工具,NiuPlan/NiuTrans.YourData.html


2. 词对齐
挑战:ambiguity, 一词多义;不同语言的句子构成结构
直译弊端:单个词很多ifelse费时
工具:GIZA++
(源-目标,目标-源,结果不同,
需合并 -> 1.双向对齐;2.邻居单向对齐且未与任何词双向对齐)

the Noisy Channel Model(噪声信道模型)

基于统计的机器翻译

标签:英文   大小写   中英文   规则   合并   大学   学院   高性能   其他   

原文地址:https://www.cnblogs.com/iupoint/p/14628269.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!