码迷,mamicode.com
首页 >  
搜索关键字:nlp    ( 935个结果
自然语言处理学习笔记(1)——绪论
暑假开始研究NLP,先从宗成庆老师的《统计自然语言处理》开始学起。一、语言:语言是由语音、词汇和语法构成的,语音和文字是构成语言的两个基本属性,语音是语言的物质外壳,文字则是记录语言的书写符号系统。二、语音学:1)发音语音学(articulatory phonetics) 2)声学语音...
分类:其他好文   时间:2014-07-02 18:40:23    阅读次数:224
用python计算lda语言模型的困惑度并作图
转载请注明:电子科技大学EClab——落叶花开http://www.cnblogs.com/nlp-yekai/p/3816532.html困惑度一般在自然语言处理中用来衡量训练出的语言模型的好坏。在用LDA做主题和词聚类时,原作者D.Blei就是采用了困惑度来确定主题数量。文章中的公式为:perp...
分类:编程语言   时间:2014-07-02 18:03:38    阅读次数:827
NLP | 自然语言处理 - 标注问题与隐马尔科夫模型(Tagging Problems, and Hidden Markov Models)
在自然语言处理中有一个常见的任务,即标注。常见的有:1)词性标注(Part-Of-Speech Tagging),将句子中的每个词标注词性,例如名词、动词等;2)实体标注(Name Entity Tagging),将句子中的特殊词标注,例如地址、日期、人物姓名等。粗略看来,这并不是一个简单问题。首先每个词都可能有多个含义,不同情况表达不同含义;其次,一个词的含义或者词性也受到前后多个词的影响。 然后隐马尔科夫模型却从数学上给出了一个近乎完美的解决方案。...
分类:其他好文   时间:2014-07-02 10:45:21    阅读次数:283
分类中数据不平衡问题的解决经验
问题:研究表明,在某些应用下,1∶35的比例就会使某些分类方法无效,甚至1∶10的比例也会使某些分类方法无效。 (1)少数类所包含的信息就会很有限,从而难以确定少数类数据的分布,即在其内部难以发现规律,进而造成少数类的识别率低 (2)数据碎片。很多分类算法采用分治法,样本空间的逐渐划分会导致数据碎片问题,这样只能在各个独立的子空间中寻找数据的规律,对于少数类来说每个子空间中包含了很少的数据信息...
分类:其他好文   时间:2014-06-29 23:01:55    阅读次数:251
stanford trex使用方法
一、stanford trex 简介 http://nlp.stanford.edu/software/tregex.shtml                  A java program for identifying patterns in trees                  Like regular expressions for strings, b...
分类:其他好文   时间:2014-06-24 18:51:30    阅读次数:344
一种利用 Cumulative Penalty 训练 L1 正则 Log-linear 模型的随机梯度下降法
Log-Linear 模型(也叫做最大熵模型)是 NLP 领域中使用最为广泛的模型之一,其训练常采用最大似然准则,且为防止过拟合,往往在目标函数中加入(可以产生稀疏性的) L1 正则。但对于这种带 L1 正则的最大熵模型,直接采用标准的随机梯度下降法(SGD)会出现效率不高和难以真正产生稀疏性等问题。本文为阅读论文 Stochastic Gradient Descent Training for L1-regularized Log-linear Models with Cumulative Penalty...
分类:其他好文   时间:2014-06-19 12:01:04    阅读次数:286
Eclipse 编译StanfordNLP
1、源码最新下载地址:http://nlp.stanford.edu/software/index.shtml;2、解压stanford-corenlp.zip;3、打开Eclipse新建JAVA项目stanford-corenlp,然后在项目根目录创建文夹名"lib";4、将步骤2解压出的*.ja...
分类:系统相关   时间:2014-06-10 09:43:55    阅读次数:741
自然语言理解——introduction
1.基本概念: NLP:自然语言处理是研究如何利用计算机技术对语言文本(句子、篇章或话语等)进行处理和加工的一门学科,研究内容包括对词法、句法、语义和语用等信息的识别、分类、提取、转换和生成等各种处理方法和实现技术。 语言的基本属性:语音和文字 2.研究内容: 3.基本问题: a)形态学(morph...
分类:其他好文   时间:2014-06-03 13:45:29    阅读次数:428
【头脑风暴】NLP全面成就计划
【心智模式】1.如果你说不出你能怎么使公司受益,那你就该走人了2.新型的专业人士,明显特点1.有出色的能力2.关于做客户服务3.拥有庞大的人际关系网4.追求卓越;有使命感5.自动自觉,关于自我激励3.有些人做大事,有些人看人做大事,还有些人惊奇于别人做大事4.NLP全面成就计划1.复制卓越者的成功模...
分类:其他好文   时间:2014-06-02 16:44:42    阅读次数:304
自然语言理解——NLP中的形式语言自动机
1.形式语言:是用来精确地描述语言(包括人工语言和自然语言)及其结构的手段。形式语言学 也称代数语言学。 2.自动机:识别器是有穷地表示无穷语言的另一种方法。每一个语言的句子都能被一定的识别器所接受。 *有限状态转换机(FST) 除了前面提到的单词拼写检查、词法分析、词性标注...
分类:其他好文   时间:2014-05-31 15:18:10    阅读次数:631
935条   上一页 1 ... 91 92 93 94 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!