语言模型的基本概念 本文介绍一下有关语言模型的基本概念,但是在介绍语言模型之前,先简单回顾一下自然语言处理这个大问题吧。现在自然语言处理的研究绝对是一个非常火热的方向,主要是被当前的互联网发展所带动起来的。在互联网上充斥着大量的信息,主要是文字方面的信息,对这些信息的处理离不开自然语言处理的技术。....
分类:
其他好文 时间:
2014-09-09 18:11:49
阅读次数:
314
A Neural Probabilistic Language Model,这篇论文是Begio等人在2003年发表的,可以说是词表示的鼻祖。在这里给出简要的译文A Neural Probabilistic Language Model一个神经概率语言模型摘要 统计语言模型的一个目标是学习一种语言....
分类:
其他好文 时间:
2014-09-01 22:29:03
阅读次数:
364
软件需求:首先你必须要有Moses(废话哈哈)、然后要有GIZA++用作词对齐(traning-model.perl的时候会用到)、IRSTLM产生语言模型大致步骤:大体的步骤如下:准备Parallerl data(需要句子对齐):对语料进行tokenisation、truecasing和clean...
分类:
其他好文 时间:
2014-08-28 23:56:46
阅读次数:
432
神经概率语言模型,内容分为三块:问题,模型与准则,实验结果。[此节内容未完待续...]1,语言模型问题 语言模型问题就是给定一个语言词典包括v个单词,对一个字串做出二元推断,推断其是否符合该语言表达习惯。也就是的取值为0或者为1。 概率语言模型放松了对取值的限制,让其在0~1之间取值(语言模...
分类:
其他好文 时间:
2014-08-24 23:45:53
阅读次数:
361
手册里写到: ~/irstlm/bin/compile-lm \ --text yes \ news-commentary-v8.fr-en.lm.en.gz \ news-commentary-v8.fr-en.arpa.en经过查阅compile-lm的帮助里写到:compile-...
分类:
其他好文 时间:
2014-08-24 16:42:02
阅读次数:
209
rnnlm toolkit 是一个基于循环神经网络 (Recurrent Neural Network)的语言模型工具,原始版本地址为 http://rnnlm.org ,现在提供windows下的对应版本,包含一个mingw版本和一个vs2010版本。下载地址:百度网盘: http://pan.b...
一个语言模型通常构建为字符串s的概率分布p(s),这里p(s)试图反映的是字符串s作为一个句子出现的频率。例如,在一个人所说的话中每100个句子里面大约有一句是Okay,则可以认为p(Okay)约等于0.01。而对于句子“An apple ate the chicken”我们可以认为其概率是0,.....
分类:
其他好文 时间:
2014-07-18 18:32:38
阅读次数:
222
CSLM工具(continuous space language model toolkit)用于训练NNLM,支持SRILM、KENLM(默认)语言模型工具,CUDA加速,CSTM统计机器翻译。本文粗略介绍在SRILM与CUDA环境下配置CSLM工具过程。操作系统为Ubuntu64bit 13.0...
分类:
其他好文 时间:
2014-07-05 18:32:34
阅读次数:
670
转载请注明:电子科技大学EClab——落叶花开http://www.cnblogs.com/nlp-yekai/p/3816532.html困惑度一般在自然语言处理中用来衡量训练出的语言模型的好坏。在用LDA做主题和词聚类时,原作者D.Blei就是采用了困惑度来确定主题数量。文章中的公式为:perp...
分类:
编程语言 时间:
2014-07-02 18:03:38
阅读次数:
827