数据介绍 neg.txt:5331条负面电影评论 pos.txt:5331条正面电影评论 函数包 自然语言工具库 Natural Language Toolkit 下载nltk相关数据: 测试安装是否成功: 常用的函数有两个: 调用形式如下: 程序介绍 载入函数库以及数据文件名 词汇表建立 词汇表, ...
分类:
其他好文 时间:
2017-08-20 18:25:36
阅读次数:
200
>>> from nltk.tokenize.stanford_segmenter import StanfordSegmenter >>> segmenter = StanfordSegmenter(path_to_jar='stanford-segmenter-3.8.0.jar', path_... ...
分类:
其他好文 时间:
2017-07-30 13:58:09
阅读次数:
315
TensorFlow运行中常用到一些Python第三方模块: numpy 存储和处理大型矩阵的科学计算包 maplotlib 最著名的绘图库 jupyter scikit-image 图像预处理 librosa 音频特征提取的第三方库 nltk 包含着大量的语料库,方便完成自然语言处理的任务,包含分 ...
分类:
其他好文 时间:
2017-07-06 01:05:07
阅读次数:
441
首先去http://nltk.org/install.html下载相关的安装程序,然后 在cmd窗口中,进入到python的文件夹内的 Scripts内,运行easy_install pip 安装PyYAML and NLTK:pip install pyyaml nltk 这样就将nltk安装完成 ...
分类:
编程语言 时间:
2017-07-01 14:29:46
阅读次数:
258
在做英文文本处理时,常常会遇到这样的情况,需要我们提取出里面的词组进行主题抽取,尤其是具有行业特色的,比如金融年报等。其中主要进行的是进行双连词和三连词的抽取,那如何进行双连词和三连词的抽取呢?这是本文将要介绍的具体内容。 1. nltk.bigrams(tokens) 和 nltk.trigram ...
分类:
其他好文 时间:
2017-06-29 23:44:28
阅读次数:
408
在前面讲nltk安装的时候,我们下载了很多的文本。总共有9个文本。那么如何找到这些文本呢: text1: Moby Dick by Herman Melville 1851 text2: Sense and Sensibility by Jane Austen 1811 text3: The Boo ...
分类:
编程语言 时间:
2017-06-25 16:08:34
阅读次数:
245
[TOC] 语料库基本函数表 文本语料库分类 常见语料库及其用法 注意nltk.Text(string) 返回类似text1的Text对象 古藤堡语料库 包含36000本电子书,可以在这里下载 from nltk.corpus import gutenberg print(gutenberg.fil ...
分类:
Web程序 时间:
2017-06-13 22:43:27
阅读次数:
1448
自然语言处理中算法设计有两大部分:分而治之 和 转化 思想。一个是将大问题简化为小问题,另一个是将问题抽象化,向向已知转化。前者的例子:归并排序;后者的例子:判断相邻元素是否相同(与排序)。这次总结的自然语言中常用的一些基本算法,算是入个门了。 递归 使用递归速度上会受影响,但是便于理解算法深层嵌套 ...
分类:
编程语言 时间:
2017-06-13 21:50:25
阅读次数:
320
主要总结一下简单的工具:条件频率分布、正则表达式、词干提取器和归并器。 条件分布频率 《自然语言学习》很多地方都用到了条件分布频率,nltk提供了两种常用的接口:FreqDist 和 ConditionalFreqDist 。后面很多都会用到这两种方法,特别是第二个。因为第二个更符合定义,会智能的找 ...
分类:
其他好文 时间:
2017-06-13 21:49:13
阅读次数:
266
英文分词的第三方库NLTK不错,中文分词工具也有很多(盘古分词、Yaha分词、Jieba分词等)。但是从加载自定义字典、多线程、自动匹配新词等方面来看。大jieba确实是中文分词中的战斗机。 请随意观看表演 安装 分词 自定义词典 延迟加载 关键词提取 词性标注 词语定位 内部算法 安装 分词 3种 ...
分类:
其他好文 时间:
2017-06-13 21:45:19
阅读次数:
218