数据收集以后,我们下面接着要干的事情是如何将文本转换为神经网络能够识别的东西。 词向量 作为自然语言,只有被数学化才能够被计算机认识和计算。数学化的方法有很多,最简单的方法是为每个词分配一个编号,这种方法已经有多种应用,但是依然存在一个缺点:不能表示词与词的关系。 词向量是这样的一种向量[2.1, ...
分类:
其他好文 时间:
2017-06-08 01:23:18
阅读次数:
267
统计语言模型 统计语言模型(Statistical Language Model)即是用来描述词、语句乃至于整个文档这些不同的语法单元的概率分布的模型,能够用于衡量某句话或者词序列是否符合所处语言环境下人们日常的行文说话方式。统计语言模型对于复杂的大规模自然语言处理应用有着非常重要的价值,它能够有助 ...
分类:
编程语言 时间:
2017-06-04 18:32:35
阅读次数:
200
http://52opencourse.com/111/斯坦福大学自然语言处理第四课-语言模型(language-modeling) 一、课程介绍 斯坦福大学于2012年3月在Coursera启动了在线自然语言处理课程,由NLP领域大牛Dan Jurafsky 和 Chirs Manning教授授课 ...
分类:
编程语言 时间:
2017-06-04 11:46:26
阅读次数:
278
在进行RDF数据查询或描写叙述的时候。Sparql不管从出身、标准抑或操作习惯上都是一个不错的选择。然而对于一个刚開始学习的人来说多多少少有些“禁忌”的意味,操作起来也有点畏首畏尾。所以正好利用这段时间进行语言的总结与学习,顺道对语言特性进行一一破解。 简单查询 1、总决式(基本要诀) select ...
分类:
编程语言 时间:
2017-05-31 10:23:07
阅读次数:
175
''' Created on 2017年5月13日 @author: weizhen ''' import numpy as np import tensorflow as tf import ptb_iterator as reader from tensorflow.contrib import ...
分类:
编程语言 时间:
2017-05-21 11:45:31
阅读次数:
1799
以下内容全部来自宗成庆博士的《统计自然语言处理(中文信息处理)》一书的第五章(部分)。 还有许多其他的平滑方法,不介绍了。最后,总结一下: ...
分类:
编程语言 时间:
2017-04-21 20:16:26
阅读次数:
151
0语言模型-N-Gram 语言模型就是给定句子前面部分,预测后面缺失部分 eg.我昨天上学迟到了,老师批评了____。 N-Gram模型: ,对一句话切词 我 昨天 上学 迟到 了 ,老师 批评 了 ____。 2-N-Gram 会在语料库中找 了 后面最可能的词; 3-N-Gram 会在预料库中找 ...
分类:
其他好文 时间:
2017-04-15 20:19:39
阅读次数:
359
统计语音识别的基本等式 X 声学特征向量序列,观测值 W 单词序列 W* 给定观测值下,概率最大的单词序列 应用贝叶斯理论 等价于 进而得出统计语音识别的框架 运用声学模型、语言模型、词典得出给定观测值下概率最大的单词序列 运用单词错误率评价语音识别的好坏 单词错误率=(替换错+删除错+插入错)/单 ...
分类:
其他好文 时间:
2017-04-13 14:54:59
阅读次数:
131
原文地址:http://blog.csdn.net/mspinyin/article/details/6137815#t12 现在自然语言处理的研究绝对是一个非常火热的方向,主要是被当前的互联网发展所带动起来的。在互联网上充斥着大量的信息,主要是文字方面的信息,对这些信息的处理离不开自然语言处理的技 ...
分类:
编程语言 时间:
2017-04-04 17:13:42
阅读次数:
250
在阅读本文之前,建议首先阅读“简单易学的机器学习算法——word2vec的算法原理”,掌握如下的几个概念:
什么是统计语言模型
神经概率语言模型的网络结构
CBOW模型和Skip-gram模型的网络结...
分类:
编程语言 时间:
2017-03-16 17:42:17
阅读次数:
525