一、简介 1.Natural Language ToolKit(NLTK) 自然语言处理包:是一个用于自然语言处理和文本分析的综合性python库。用于NLP的研究和开发。 2.NLTK 文档和API 可在http://text-processing.com. 查看。 3.Tokenization( ...
分类:
其他好文 时间:
2018-04-02 20:17:05
阅读次数:
1119
在前面我们通过from nltk.book import *的方式获取了一些预定义的文本。本章将讨论各种文本语料库 1 古腾堡语料库 古腾堡是一个大型的电子图书在线网站,网址是http://www.gutenberg.org/。上面有超过36000本免费的电子图书,因此也是一个大型的预料库。NLTK ...
分类:
编程语言 时间:
2018-04-01 16:07:20
阅读次数:
225
我们首先来加载我们自己的文本文件,并统计出排名前20的字符频率 if __name__=="__main__": corpus_root='/home/zhf/word' wordlists=PlaintextCorpusReader(corpus_root,'.*') for w in wordl ...
分类:
编程语言 时间:
2018-03-31 13:21:47
阅读次数:
727
目的 将gensim输出的格式转化为numpy array格式,支持作为scikit learn,tensorflow的输入 实施 使用nltk库的停用词和网上收集的资料整合成一份新的停用词表,用来过滤文档中的停用词,也去除了数字和特殊的标点符号,最后将所有字母转化为小写形式。 以下是原文: Sub ...
分类:
其他好文 时间:
2018-03-20 15:21:49
阅读次数:
231
1 """ 2 该模块功能:获取用户的输入文本,通过输入文本和数据库中的关键主题文本相比较, 3 获取最佳的回答内容 4 """ 5 import xlrd 6 import jieba 7 import nltk 8 9 10 # 读取excel表格内的数据 11 def read_excel(f... ...
分类:
编程语言 时间:
2018-02-01 17:43:02
阅读次数:
180
from __future__ import division import nltk nltk.download() from nltk.book import * #搜索文本 text1.concordance("monstrous") #出现在相似上下文中德词汇 text1.similar("... ...
分类:
编程语言 时间:
2018-01-08 21:06:21
阅读次数:
187
参考网址:http://www.nltk.org/install.html Mac/Unix ...
分类:
系统相关 时间:
2017-12-23 15:53:31
阅读次数:
211
import nltk nltk.download() 在使用上面命令安装了nltk库并运行下载后,再输入from nltk.book import 往往会出现这样的错误提示: 出现这种错误往往是由于设置了错误的下载路径: 默认情况下,下载路径就是安装phython开发环境的安装路径。如果修改了这个 ...
分类:
其他好文 时间:
2017-12-14 04:26:27
阅读次数:
372
from nltk.corpus import PlaintextCorpusReader import nltk corpus_root=r"C:\Users\sun\AppData\Roaming\nltk_data\corpora\jieba" file_pattern=r".*/.*\.tx... ...
分类:
其他好文 时间:
2017-12-06 16:09:41
阅读次数:
153
HMM(Hidden Markov Model,隐马尔可夫模型) CRF(Conditional Random Field,条件随机场), RNN深度学习算法(Recurrent Neural Networks,循环神经网络)。输入条件连续 LSTM(Long Short Term Memory)则 ...
分类:
编程语言 时间:
2017-12-05 17:51:41
阅读次数:
518