码迷,mamicode.com
首页 >  
搜索关键字:nltk    ( 189个结果
自然语言处理-感述
最近花了点时间学习nlp--实际只是学习使用nltk和伴随它出现的gensim。 ????也许nlp在国内普及的时间还不是很长,绝大多数资料都来自nltk和gensim的官网,国内最多的例子止于演示一下nltk分词/划分词性...
分类:其他好文   时间:2014-09-17 20:34:03    阅读次数:185
nltk-比较中文文档相似度
nltk同时也能处理中文的场景,只要做如下改动: 使用中文分词器(如我选用了结巴分词) 对中文字符做编码处理,使用unicode编码方式 python的源码编码统一声明为 gbk 使用支持中文的语料库 to be continue......
分类:其他好文   时间:2014-09-17 10:30:22    阅读次数:275
nltk-比较文档相似度-完整实例
整理自?http://itindex.net/detail/44409-%E8%AE%A1%E7%AE%97-%E7%9B%B8%E4%BC%BC 说明: * 其中基准数据,可以来自外部,处理过程为: ? ? ?- 处理为词袋 ? ? ?- 经过数据集的tfidf结果 * 无法处理中文 ...
分类:其他好文   时间:2014-09-16 19:17:11    阅读次数:246
自然语言处理(3)之条件频率分布
自然语言处理(3)之条件频率分布条件频率分布式频率分布的集合,每个频率分布有一个不同的条件。从下面的例子就可以看出,cfd就是两个条件(news,romance)的频率分布集合 1 >>> cfd=nltk.ConditionalFreqDist( 2 ... ...
分类:其他好文   时间:2014-09-02 22:47:45    阅读次数:323
自然语言处理(2)之文本资料库
自然语言处理(2)之文本资料库1.获取文本资料库本章首先给出了一个文本资料库的实例:nltk.corpus.gutenberg,通过gutenberg实例来学习文本资料库。我们用help来查看它的类型 1 >>> import nltk 2 >>> help(nltk.corpus.gutenb.....
分类:其他好文   时间:2014-08-28 00:41:48    阅读次数:464
SnowNLP:一个处理中文文本的 Python 类库[转]
SnowNLP是一个python写的类库,可以方便的处理中文文本内容,是受到了TextBlob的启发而写的,由于现在大部分的自然语言处理库基本都是针对英文的,于是写了一个方便处理中文的类库,并且和TextBlob不同的是,这里没有用NLTK,所有的算法都是自己实现的,并且自带了一些训练好的字典。注意...
分类:编程语言   时间:2014-08-27 16:14:27    阅读次数:1561
自然语言处理(1)之NLTK与PYTHON
自然语言处理(1)之NLTK与PYTHON题记: 由于现在的项目是搜索引擎,所以不由的对自然语言处理产生了好奇,再加上一直以来都想学Python,只是没有机会与时间。碰巧这几天在亚马逊上找书时发现了这本《Python自然语言处理》,瞬间觉得这对我同时入门自然语言处理与Python有很大的帮助。所以最...
分类:编程语言   时间:2014-08-18 00:08:23    阅读次数:845
文本分类之情感分析 – 朴素贝叶斯分类器
情感分析正成为研究和社交媒体分析的热点领域,尤其是在用户评论和微博上。它是文本挖掘的一种特殊情况,一般关注在识别正反观点上,虽然它常不很准确,它仍然是有用的。为简单起见(因为训练数据容易获取),我将重点放在2个可能的情感分类:积极的和消极的。 NLTK 朴素贝叶斯分类 NLTK附带了所有你需要的情感分析的入手的东西:一份带有分为POS和NEG类别的电影评论语料,以及一些可训练分类器。我...
分类:其他好文   时间:2014-07-19 02:14:25    阅读次数:338
Mac OS10.9 下python开发环境(eclipse)以及自然语言包NLTK的安装与注意
折腾了大半天,终于把mbp上python自然语言开发环境搭建好了。第一步,安装JDK1.7 for mac MacOS10.9是自带python2.7.5的,够用,具体的可以打开终端输入python显示版本号码。在10.9中MacOS没有自带的JDK1.7所以我们得先安装JDK1.7 for ...
分类:编程语言   时间:2014-07-05 19:52:29    阅读次数:437
189条   上一页 1 ... 17 18 19
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!