RT,NLP实验二。音字转换,其中用到的思想比较基本、比较老。
1.首先统计unigram和bigram的频数
2.词作为状态集,音作为观测序列。
3.计算转移矩阵概率和发射矩阵概率,建立HMM模型
4.给定HMM模型和观测序列,采用viterbi算法动态规划解码。
viterbi.py
# -*- coding: cp936 -*-
"""
viterbi.py
au...
分类:
其他好文 时间:
2014-12-13 15:13:29
阅读次数:
256
本栏目来源于对Coursera在线课程NLP(by Michael Collins)的理解。课程链接为:https://class.coursera.org/nlangp-0011. Tagging Problems1.1 POS Tagging问题描述Input:Profits soared at...
分类:
其他好文 时间:
2014-12-09 15:18:10
阅读次数:
254
RT,NLP第一次实验,96人民日报语料分词+unigram和bigram词频统计。
一开始写了个RMM,用了各种序列排序,然后分词的算法用了简单的前缀暴力匹配,果然跑语料的时间根本无法估计、、
果断重写、、又找了一个blog,发现MM算法 一开始是想得太复杂了,导致循环太多,后来修改成简单版本的即可正常时间运行、
python代码:
# -*- coding: cp936 -*-
imp...
分类:
其他好文 时间:
2014-12-06 22:54:40
阅读次数:
250
PLSA是前面LSA的兄弟版,相比于LSA而言,PLSA定义了概率模型,而且每个变量以及相应的概率分布和条件概率分布都有明确的物理解释了。这篇博文我们分三部分来说PLSA:基本思想,EM算法推导,以及优缺点分析。...
分类:
其他好文 时间:
2014-12-04 12:21:21
阅读次数:
418
Latent Semantic Analysis 模型,隐性语义分析,也就是我们常说的LSA模型。后面还有他的兄弟PLSA和LDA模型,这个我们后面再说。这几个都是NLP中比较经典的模型!学习这个模型,主要总结到了三个方面:LSA模型可以应用在哪儿?LSA的理论部分,以及LSA的优缺点分析。...
分类:
其他好文 时间:
2014-12-03 15:52:01
阅读次数:
459
条件随机场模型是Lafferty于2001年,在最大熵模型和隐马尔科夫模型的基础上,提出的一种判别式概率无向图学习模型,是一种用于标注和切分有序数据的条件概率模型。
CRF最早是针对序列数据分析提出的,现已成功应用于自然语言处理(Natural Language Processing,NLP) 、生物信息学、机器视觉及网络智能等领域。
1.序列标注的例子
标注(实体命名识别):任命...
分类:
其他好文 时间:
2014-12-03 15:46:28
阅读次数:
242
Artificial IntelligenceKnowledge representation, machine learning, NLP and IR, reasoning, robotics, search, visionComputational BiologySequence analys...
分类:
其他好文 时间:
2014-12-03 14:04:14
阅读次数:
172
为了做自动化部署,第一步就是要先根据端口杀死进程,举例的端口号是8080。? 在linux下很容易做到,方法是:? netstat -nlp |grep :::8080 |awk ‘{print $7}‘ |awk -F/ ‘{print $1}‘ |xargs kill -9? 在windo...
分类:
其他好文 时间:
2014-12-01 11:32:51
阅读次数:
193
EM是我一直想深入学习的算法之一,第一次听说是在NLP课中的HMM那一节,为了解决HMM的参数估计问题,使用了EM算法。在之后的MT中的词对齐中也用到了。在Mitchell的书中也提到EM可以用于贝叶斯网络中。下面主要介绍EM的整个推导过程。1. Jensen不等式 回顾优化理论中的一些概念。设f是...
分类:
编程语言 时间:
2014-11-27 12:01:04
阅读次数:
259
NLP分析技术大致分为三个层面:词法分析、句法分析和语义分析。...
分类:
其他好文 时间:
2014-11-26 11:27:01
阅读次数:
147