转载请注明出处:电子科技大学EClab——落叶花开http://www.cnblogs.com/nlp-yekai/p/3848528.htmlSVD,即奇异值分解,在自然语言处理中,用来做潜在语义分析即LSI,或者LSA。最早见文章An introduction to latent semanti...
分类:
编程语言 时间:
2014-07-19 16:10:01
阅读次数:
418
字符串是一个很长的话题,纵然现在开始第三部分,但是也不能完全说尽。因为字符串是自然语言中最复杂的东西,也是承载功能最多的,计算机高级语言编程,要解决自然语言中的问题,让自然语言中完成的事情在计算机上完成,所以,也不得不有更多的话题。
字符串就是一个话题中心。
给字符串编号
在很多很多情况下,我们都要对字符串中的每个字符进行操作(具体看后面的内容),要准确进行操作,必须做的一个...
分类:
其他好文 时间:
2014-07-19 02:38:56
阅读次数:
186
如果对自然语言分类,有很多中分法,比如英语、法语、汉语等,这种分法是最常见的。在语言学里面,也有对语言的分类方法,比如什么什么语系之类的。我这里提出一种分法,这种分法尚未得到广大人民群众和研究者的广泛认同,但是,我相信那句“真理是掌握在少数人的手里”,至少在这里可以用来给自己壮壮胆。
我的分法:一种是语言中的两个元素(比如两个字)和在一起,出来一个新的元素(比如新的字);另外一种是两个元素和...
分类:
编程语言 时间:
2014-07-18 21:34:06
阅读次数:
348
(原创,转载请注明) 不久前接手一个java web开发的活,网站是一个学术期刊的发布和共享平台。支持在线搜索网站内部期刊。以前没接触过搜索引擎,觉得搜索是一门高深的学问,后来折腾了两天写了一个简单的,不包含权重排序、爬虫和大型数据库和全文搜索(貌似中文不支持全文搜索),不涉及自然语言处理相关...
分类:
Web程序 时间:
2014-07-15 23:08:41
阅读次数:
330
在自然语言学习过程中,每个人一定都学过语法,例如句子可以用主语、谓语、宾语来表示。在自然语言的处理过程中,有许多应用场景都需要考虑句子的语法,因此研究语法解析变得非常重要。语法解析有两个主要的问题,其一是句子语法在计算机中的表达与存储方法,以及语料数据集;其二是语法解析的算法。这也是本章将要讨论的内容。...
分类:
其他好文 时间:
2014-07-12 18:49:36
阅读次数:
243
如同学习任何一种自然语言比如英语、或者其它编程语言比如汇编(这个我喜欢,可惜多年之后,已经好久没有用过了)一样,总要说一说有关这种语言的事情,有的可能就是八卦,越八卦的越容易传播。当然,以下的所有说法中,难免充满了自恋,因为你看不到说Python的坏话。这也好理解,如果要挑缺点是比较容易的事情,但是找优点,不管是对人还是对其它事务,都是困难的。这也许是人的劣根之所在吧,喜欢挑别人的刺儿,从而彰显自...
分类:
编程语言 时间:
2014-07-09 11:26:18
阅读次数:
288
折腾了大半天,终于把mbp上python自然语言开发环境搭建好了。第一步,安装JDK1.7 for mac MacOS10.9是自带python2.7.5的,够用,具体的可以打开终端输入python显示版本号码。在10.9中MacOS没有自带的JDK1.7所以我们得先安装JDK1.7 for ...
分类:
编程语言 时间:
2014-07-05 19:52:29
阅读次数:
437
暑假开始研究NLP,先从宗成庆老师的《统计自然语言处理》开始学起。一、语言:语言是由语音、词汇和语法构成的,语音和文字是构成语言的两个基本属性,语音是语言的物质外壳,文字则是记录语言的书写符号系统。二、语音学:1)发音语音学(articulatory phonetics) 2)声学语音...
分类:
其他好文 时间:
2014-07-02 18:40:23
阅读次数:
224
转载请注明:电子科技大学EClab——落叶花开http://www.cnblogs.com/nlp-yekai/p/3816532.html困惑度一般在自然语言处理中用来衡量训练出的语言模型的好坏。在用LDA做主题和词聚类时,原作者D.Blei就是采用了困惑度来确定主题数量。文章中的公式为:perp...
分类:
编程语言 时间:
2014-07-02 18:03:38
阅读次数:
827
在自然语言处理中有一个常见的任务,即标注。常见的有:1)词性标注(Part-Of-Speech Tagging),将句子中的每个词标注词性,例如名词、动词等;2)实体标注(Name Entity Tagging),将句子中的特殊词标注,例如地址、日期、人物姓名等。粗略看来,这并不是一个简单问题。首先每个词都可能有多个含义,不同情况表达不同含义;其次,一个词的含义或者词性也受到前后多个词的影响。
然后隐马尔科夫模型却从数学上给出了一个近乎完美的解决方案。...
分类:
其他好文 时间:
2014-07-02 10:45:21
阅读次数:
283