最近考虑做些英文词语词干化的工作,听说coreNLP这个工具不错,就拿来用了。
coreNLP是斯坦福大学开发的一套关于自然语言处理的工具(toolbox),使用简单功能强大,有;命名实体识别、词性标注、词语词干化、语句语法树的构造还有指代关系等功能,使用起来比较方便。
coreNLP是使用Java编写的,运行环境需要在JDK1.8,1.7貌似都不支持。这是需要注意的
...
分类:
其他好文 时间:
2016-05-07 11:03:45
阅读次数:
1015
俗话说“庙小妖风大,水浅王八多”,作为一名自然语言处理的水货研究生,通常只是对论文有着一知半解的了解,然而因为毕竟人老了年纪大容易忘事,有时候还是想把这一知半解的想法用文字写出来,以便之后回顾,看官勿喷,水货要开始动笔了。
文本建模是自然语言处理领域中很基础的内容,而且也已经被研究了千万遍,这个系列我主要的思路是从LSA->pLSA->unigram model ->LDA,其中p...
分类:
其他好文 时间:
2016-05-07 10:12:49
阅读次数:
206
隐马尔科夫模型(HMM)是一种重要的机器学习模型,同时也是PGM中的一种。本文将通过几个例子来演示HMM可以帮我们做些什么事情。特别地,在这个过程中,我们还将向你介绍HMM中非常重要的前向(Forward)算法以及(基于动态规划思想设计的)维特比(Viterbi)算法。最后再来讨论一下HMM在自然语言处理中的一个应用举例。...
分类:
编程语言 时间:
2016-05-07 07:03:29
阅读次数:
523
LINUX系统下Java和Scala的环境配置 最近,笔者在研究一个有关“自然语言处理”的项目,在这个项目中,需要我们用Spark进行编程。而Spark内核是由Scala语言开发的,所以在使用Spark之前,我们必须配置好Scala,而Scala又是运行在JVM上的,所以在配置Scala之前,先要配 ...
分类:
编程语言 时间:
2016-05-06 20:30:45
阅读次数:
227
【编者按】本文作者为专注于自然语言处理多年的 Pierre-Yves Saumont,Pierre-Yves 著有30多本主讲Java 软件开发的书籍,自2008开始供职于 Alcatel-Lucent 公司,担任软件研发工程师。 本文主要介绍了 Java 8 中的函数与原语,由国内 ITOM 管理 ...
分类:
编程语言 时间:
2016-05-04 10:27:23
阅读次数:
231
为了解决使用N-Gram模型时可能引入的稀疏数据问题,人们设计了多种平滑(Smoothing)算法,本文将讨论其中最为重要的几种。具体包括:Add-one (Laplace) Smoothing, Add-k Smoothing, Backoff(回退),Interpolation(插值),Absolute Discounting,以及目前最先进的Kneser-Ney Smoothing算法。...
分类:
编程语言 时间:
2016-05-03 18:29:24
阅读次数:
761
前言CNTK是微软开源的深度学习工具箱,主要在机器学习领域实现了各种神经网络结构的计算功能。而目前在自然语言处理领域上,深度计算等更是研究的主流方向,笔者将会在本文中,针对一些简单的语言模型概念进行讲解,并结合CNTK工具箱进行一些基础的实践工作。...
分类:
编程语言 时间:
2016-04-29 16:52:55
阅读次数:
797
【编者按】本文作者为专注于自然语言处理多年的 Pierre-Yves Saumont,Pierre-Yves 著有30多本主讲 Java 软件开发的书籍,自2008开始供职于 Alcatel-Lucent 公司,担任软件研发工程师。本文主要介绍了 Java 8 中的闭包与局部套用功能,由国内 ITOM 管理平台 OneAPM 编译呈现。关于Java 8,存在着许多错误观念。譬如,认为Java 8给J...
分类:
编程语言 时间:
2016-04-29 15:54:04
阅读次数:
325
现在机器学习逐渐成为行业热门,经过二十几年的发展,机器学习目前也有了十分广泛的应用,如:数据挖掘、计算机视觉、自然语言处理、生物特征识别、搜索引擎、医学诊断、DNA序列测序、语音和手写识别、战略游戏和机器人等方面。云栖社区特意翻译整理了目前GitHub上最受欢迎的28款开源的机器学习项目,以供开发者 ...
分类:
其他好文 时间:
2016-04-23 09:05:21
阅读次数:
361
输入例句:S1="计算语言学课程有意思" ; 定义:最大词长MaxLen = 5;S2= " ";分隔符 = “/”; 假设存在词表:…,计算语言学,课程,意思,…; 最大逆向匹配分词算法过程如下: (1)S2="";S1不为空,从S1右边取出候选子串W="课程有意思"; (2)查词表,W不在词表中 ...
分类:
编程语言 时间:
2016-04-19 19:05:32
阅读次数:
254