[TOC] 词性标注器 之后的很多工作都需要标注完的词汇。nltk自带英文标注器pos_tag import nltk text = nltk.word_tokenize("And now for something compleyely difference") print(text) print ...
分类:
其他好文 时间:
2017-06-13 21:44:15
阅读次数:
319
这里主要介绍nltk中的一些现成的词干提取器Porter和Lancaster. 1. Porter 2. Lancaster 3. 词形归并器:删除词缀产生的词, 常用的有WordNetLemmatier 从上面的运行结果可以看出,Porter词干提取器的效果比较好。 ...
分类:
编程语言 时间:
2017-06-08 22:25:16
阅读次数:
262
SnowNLP是国人开发的python类库,可以方便的处理中文文本内容,是受到了TextBlob的启发而写的,由于现在大部分的自然语言处理库基本都是针对英文的,于是写了一个方便处理中文的类库,并且和TextBlob不同的是,这里没有用NLTK,所有的算法都是自己实现的,并且自带了一些训练好的字典。注 ...
分类:
编程语言 时间:
2017-06-04 00:15:31
阅读次数:
884
sudo pip install -U pyyaml nltk 搞不定,必须代理: Installing via a proxy web server¶ If your web connection uses a proxy server, you should specify the proxy ...
分类:
编程语言 时间:
2017-06-03 15:08:05
阅读次数:
259
广东外语外贸大学 16-17学年上学期第1周例会会议纪要 广外数据挖掘实验室【2016】 会议时间:2016年10月15日 会议地点:C505 会议记录:徐传懋、黎柏棋 请假人员:林楠凯、黎国本、高俊辉 迟到人员:无 会议内容: 一、 英语文本预处理大致流程(Python语言;nltk库) (1)数 ...
分类:
其他好文 时间:
2017-06-03 11:31:31
阅读次数:
269
1.安装Python(我安装的是Python2.7.8,文件夹D:\Python27) 2.安装NumPy(可选) 到这里下载:http://sourceforge.net/projects/numpy/files/NumPy/1.6.2/numpy-1.6.2-win32-superpack-py ...
分类:
编程语言 时间:
2017-05-25 11:42:15
阅读次数:
216
一段nltk的代码,按照讲解用于在布朗语料库中分析情态动词在不同文体中出现的次数ipython运行,python版本3.5,代码如下importnltk
fromnltk.corpusimportbrown
cfd=nltk.ConditionalFreqDist(
(genre,word)
forgenreinbrown.categories()
forwordinbrown.words(categories=gen..
分类:
编程语言 时间:
2017-05-04 16:10:28
阅读次数:
326
原文 先mark,后续尝试。 1.NLTK NLTK 在用 Python 处理自然语言的工具中处于领先的地位。它提供了 WordNet 这种方便处理词汇资源的借口,还有分类、分词、除茎、标注、语法分析、语义推理等类库。 网站 http://www.nltk.org/ 安装 安装 NLTK: sudo ...
分类:
编程语言 时间:
2017-04-05 00:42:51
阅读次数:
244
windows 32: 1.安装Python(我安装的是Python2.7,目录C:\Python27) 可以到CSDN、OSChina、Sina Share等网站下载 也可以到Python官网下载:http://www.python.org/ 2.安装NumPy(可选) 到这里下载:http:// ...
分类:
编程语言 时间:
2017-03-21 15:53:16
阅读次数:
193
#!/usr/bin/python import nltk from random import randint def segment(text, segs): # 分词 words = [] last = 0 for i in range(len(segs)): if segs[i] == '1... ...
分类:
编程语言 时间:
2017-03-09 17:23:15
阅读次数:
180