前面我们学习过使用FreqDist(textlist)函数来计算textlist链表中每个项目出现的次数,现在我们推广这一想法。 当语料文本分为几类(文体、主题、作者)时,可以计算每个类别独立的频率分布,这样就可以研究类别之间的系统性差异。——nltk.ConditionalFreqDist来实现、 ...
分类:
编程语言 时间:
2016-09-27 13:18:40
阅读次数:
492
Python NLTK库中包含着大量的语料库,但是大部分都是英文,不过有一个Sinica(中央研究院)提供的繁体中文语料库,值得我们注意。 在使用这个语料库之前,我们首先要检查一下是否已经安装了这个语料库。 检查箭头所指的sinica_treebank是否安装,如果未安装,则首先要进行安装。 安装完 ...
分类:
编程语言 时间:
2016-09-23 16:45:09
阅读次数:
236
1.获取文本语料库 NLTK库中包含了大量的语料库,下面一一介绍几个: (1)古腾堡语料库:NLTK包含古腾堡项目电子文本档案的一小部分文本。该项目目前大约有36000本免费的电子图书。 使用:from nltk.corpus import gutenberg 写一段简短的程序,通过遍历前面所列出的 ...
分类:
编程语言 时间:
2016-09-23 14:34:43
阅读次数:
576
最近在看《Python自然语言处理》中文版这本书,可能由于是从py2.x到py3.x,加上nltk的更新的原因,或者作者的一些笔误,在书中很多代码都运行不能通过,下面我就整理一下一点有问题的代码。 第一章: p3.该处为小建议,书中没有错误:关于nltk.book的下载,最好下载到'/nltk_da ...
分类:
编程语言 时间:
2016-08-31 15:19:33
阅读次数:
466
本文代码全部实现,并附上注释:
# -*- coding: cp936 -*-
import nltk
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
from nltk.stem.lancaster import LancasterStemmer
from gensim import cor...
分类:
其他好文 时间:
2016-07-19 10:39:25
阅读次数:
239
最近一直在撸Python Data Analysis上的代码(书是基于Python2的,小白我用的python3),所以我下的时候多少有些改动。 这是9.4中的nltk词频分析关于Dict_key的问题。 源码是这样的: 运行报错: 查了一下subscriptable,这个链接解释的还是比较清楚的。 ...
分类:
编程语言 时间:
2016-07-19 09:25:39
阅读次数:
424
一、今天学习Python自然语言处理(NLP processing) 需要安装自然语言工具包NLTK Natural Language Toolkit 按照教程在官网https://pypi.python.org/pypi/nltk#downloads下载的EXE文件运行,电脑出现缺少: api-m ...
自己动手做聊天机器人一-涉及知识(2016-06-09)自己动手做聊天机器人二-初识NLTK库(2016-06-10)自己动手做聊天机器人三-语料与词汇资源(2016-06-12)自己动手做聊天机器人四-何须动手?完全自动化对语料做词性标注(2016-06-17)自己动手做聊天机器人五-自然语言处理中的文本分类(2..
分类:
其他好文 时间:
2016-06-24 22:21:01
阅读次数:
638
Ch1 Language Processing with Python 1.1 Computing with Language: Texts and Words 将文本看作是待处理的原始数据。 Searching Text nltk.text.Text.concordance(self,word): ...
分类:
编程语言 时间:
2016-06-19 21:21:34
阅读次数:
234