最近花了点时间学习nlp--实际只是学习使用nltk和伴随它出现的gensim。 ????也许nlp在国内普及的时间还不是很长,绝大多数资料都来自nltk和gensim的官网,国内最多的例子止于演示一下nltk分词/划分词性...
分类:
其他好文 时间:
2014-09-17 20:34:03
阅读次数:
185
nltk同时也能处理中文的场景,只要做如下改动: 使用中文分词器(如我选用了结巴分词) 对中文字符做编码处理,使用unicode编码方式 python的源码编码统一声明为 gbk 使用支持中文的语料库 to be continue......
分类:
其他好文 时间:
2014-09-17 10:30:22
阅读次数:
275
整理自?http://itindex.net/detail/44409-%E8%AE%A1%E7%AE%97-%E7%9B%B8%E4%BC%BC 说明: * 其中基准数据,可以来自外部,处理过程为: ? ? ?- 处理为词袋 ? ? ?- 经过数据集的tfidf结果 * 无法处理中文 ...
分类:
其他好文 时间:
2014-09-16 19:17:11
阅读次数:
246
自然语言处理(3)之条件频率分布条件频率分布式频率分布的集合,每个频率分布有一个不同的条件。从下面的例子就可以看出,cfd就是两个条件(news,romance)的频率分布集合 1 >>> cfd=nltk.ConditionalFreqDist( 2 ... ...
分类:
其他好文 时间:
2014-09-02 22:47:45
阅读次数:
323
自然语言处理(2)之文本资料库1.获取文本资料库本章首先给出了一个文本资料库的实例:nltk.corpus.gutenberg,通过gutenberg实例来学习文本资料库。我们用help来查看它的类型 1 >>> import nltk 2 >>> help(nltk.corpus.gutenb.....
分类:
其他好文 时间:
2014-08-28 00:41:48
阅读次数:
464
SnowNLP是一个python写的类库,可以方便的处理中文文本内容,是受到了TextBlob的启发而写的,由于现在大部分的自然语言处理库基本都是针对英文的,于是写了一个方便处理中文的类库,并且和TextBlob不同的是,这里没有用NLTK,所有的算法都是自己实现的,并且自带了一些训练好的字典。注意...
分类:
编程语言 时间:
2014-08-27 16:14:27
阅读次数:
1561
自然语言处理(1)之NLTK与PYTHON题记: 由于现在的项目是搜索引擎,所以不由的对自然语言处理产生了好奇,再加上一直以来都想学Python,只是没有机会与时间。碰巧这几天在亚马逊上找书时发现了这本《Python自然语言处理》,瞬间觉得这对我同时入门自然语言处理与Python有很大的帮助。所以最...
分类:
编程语言 时间:
2014-08-18 00:08:23
阅读次数:
845
情感分析正成为研究和社交媒体分析的热点领域,尤其是在用户评论和微博上。它是文本挖掘的一种特殊情况,一般关注在识别正反观点上,虽然它常不很准确,它仍然是有用的。为简单起见(因为训练数据容易获取),我将重点放在2个可能的情感分类:积极的和消极的。
NLTK 朴素贝叶斯分类
NLTK附带了所有你需要的情感分析的入手的东西:一份带有分为POS和NEG类别的电影评论语料,以及一些可训练分类器。我...
分类:
其他好文 时间:
2014-07-19 02:14:25
阅读次数:
338
折腾了大半天,终于把mbp上python自然语言开发环境搭建好了。第一步,安装JDK1.7 for mac MacOS10.9是自带python2.7.5的,够用,具体的可以打开终端输入python显示版本号码。在10.9中MacOS没有自带的JDK1.7所以我们得先安装JDK1.7 for ...
分类:
编程语言 时间:
2014-07-05 19:52:29
阅读次数:
437