码迷,mamicode.com
首页 >  
搜索关键字:自然语言    ( 1435个结果
用Python做SVD文档聚类---奇异值分解----文档相似性----LSI(潜在语义分析)
转载请注明出处:电子科技大学EClab——落叶花开http://www.cnblogs.com/nlp-yekai/p/3848528.htmlSVD,即奇异值分解,在自然语言处理中,用来做潜在语义分析即LSI,或者LSA。最早见文章An introduction to latent semanti...
分类:编程语言   时间:2014-07-19 16:10:01    阅读次数:418
玩转字符串(3)
字符串是一个很长的话题,纵然现在开始第三部分,但是也不能完全说尽。因为字符串是自然语言中最复杂的东西,也是承载功能最多的,计算机高级语言编程,要解决自然语言中的问题,让自然语言中完成的事情在计算机上完成,所以,也不得不有更多的话题。 字符串就是一个话题中心。 给字符串编号 在很多很多情况下,我们都要对字符串中的每个字符进行操作(具体看后面的内容),要准确进行操作,必须做的一个...
分类:其他好文   时间:2014-07-19 02:38:56    阅读次数:186
[零基础学python]玩转字符串(1)
如果对自然语言分类,有很多中分法,比如英语、法语、汉语等,这种分法是最常见的。在语言学里面,也有对语言的分类方法,比如什么什么语系之类的。我这里提出一种分法,这种分法尚未得到广大人民群众和研究者的广泛认同,但是,我相信那句“真理是掌握在少数人的手里”,至少在这里可以用来给自己壮壮胆。 我的分法:一种是语言中的两个元素(比如两个字)和在一起,出来一个新的元素(比如新的字);另外一种是两个元素和...
分类:编程语言   时间:2014-07-18 21:34:06    阅读次数:348
网站内部搜索引擎简单实现
(原创,转载请注明) 不久前接手一个java web开发的活,网站是一个学术期刊的发布和共享平台。支持在线搜索网站内部期刊。以前没接触过搜索引擎,觉得搜索是一门高深的学问,后来折腾了两天写了一个简单的,不包含权重排序、爬虫和大型数据库和全文搜索(貌似中文不支持全文搜索),不涉及自然语言处理相关...
分类:Web程序   时间:2014-07-15 23:08:41    阅读次数:330
NLP | 自然语言处理 - 语法解析(Parsing, and Context-Free Grammars)
在自然语言学习过程中,每个人一定都学过语法,例如句子可以用主语、谓语、宾语来表示。在自然语言的处理过程中,有许多应用场景都需要考虑句子的语法,因此研究语法解析变得非常重要。语法解析有两个主要的问题,其一是句子语法在计算机中的表达与存储方法,以及语料数据集;其二是语法解析的算法。这也是本章将要讨论的内容。...
分类:其他好文   时间:2014-07-12 18:49:36    阅读次数:243
[零基础学python]一些关于Python的事情
如同学习任何一种自然语言比如英语、或者其它编程语言比如汇编(这个我喜欢,可惜多年之后,已经好久没有用过了)一样,总要说一说有关这种语言的事情,有的可能就是八卦,越八卦的越容易传播。当然,以下的所有说法中,难免充满了自恋,因为你看不到说Python的坏话。这也好理解,如果要挑缺点是比较容易的事情,但是找优点,不管是对人还是对其它事务,都是困难的。这也许是人的劣根之所在吧,喜欢挑别人的刺儿,从而彰显自...
分类:编程语言   时间:2014-07-09 11:26:18    阅读次数:288
Mac OS10.9 下python开发环境(eclipse)以及自然语言包NLTK的安装与注意
折腾了大半天,终于把mbp上python自然语言开发环境搭建好了。第一步,安装JDK1.7 for mac MacOS10.9是自带python2.7.5的,够用,具体的可以打开终端输入python显示版本号码。在10.9中MacOS没有自带的JDK1.7所以我们得先安装JDK1.7 for ...
分类:编程语言   时间:2014-07-05 19:52:29    阅读次数:437
自然语言处理学习笔记(1)——绪论
暑假开始研究NLP,先从宗成庆老师的《统计自然语言处理》开始学起。一、语言:语言是由语音、词汇和语法构成的,语音和文字是构成语言的两个基本属性,语音是语言的物质外壳,文字则是记录语言的书写符号系统。二、语音学:1)发音语音学(articulatory phonetics) 2)声学语音...
分类:其他好文   时间:2014-07-02 18:40:23    阅读次数:224
用python计算lda语言模型的困惑度并作图
转载请注明:电子科技大学EClab——落叶花开http://www.cnblogs.com/nlp-yekai/p/3816532.html困惑度一般在自然语言处理中用来衡量训练出的语言模型的好坏。在用LDA做主题和词聚类时,原作者D.Blei就是采用了困惑度来确定主题数量。文章中的公式为:perp...
分类:编程语言   时间:2014-07-02 18:03:38    阅读次数:827
NLP | 自然语言处理 - 标注问题与隐马尔科夫模型(Tagging Problems, and Hidden Markov Models)
在自然语言处理中有一个常见的任务,即标注。常见的有:1)词性标注(Part-Of-Speech Tagging),将句子中的每个词标注词性,例如名词、动词等;2)实体标注(Name Entity Tagging),将句子中的特殊词标注,例如地址、日期、人物姓名等。粗略看来,这并不是一个简单问题。首先每个词都可能有多个含义,不同情况表达不同含义;其次,一个词的含义或者词性也受到前后多个词的影响。 然后隐马尔科夫模型却从数学上给出了一个近乎完美的解决方案。...
分类:其他好文   时间:2014-07-02 10:45:21    阅读次数:283
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!