NLTK 大概是最知名的Python自然语言处理工具了,全称"Natural Language Toolkit", 诞生于宾夕法尼亚大学,以研究和教学为目的而生,因此也特别适合入门学习。NLTK虽然主要面向英文,但是它的很多NLP模型或者模块是语言无关的,因此如果某种语言有了初步的Tokenizat ...
分类:
其他好文 时间:
2020-04-27 13:35:09
阅读次数:
46
众所周知, 斯坦福大学自然语言处理组 出品了一系列NLP工具包,但是大多数都是用Java写得,对于Python用户不是很友好。几年前我曾基于斯坦福Java工具包和NLTK写过一个简单的中文分词接口: Python自然语言处理实践: 在NLTK中使用斯坦福中文分词器 ,不过用起来也不是很方便。深度学习 ...
分类:
编程语言 时间:
2020-04-15 13:47:31
阅读次数:
191
nltk.parse句法分析 1).上下文无关文法 2).递归下降解析器 3).图表分析,动态规划 from nltk.parse import * parser = CoreNLPParser(url='http://localhost:9966') tokens = 'Rami Eid is s ...
分类:
其他好文 时间:
2020-03-16 09:22:31
阅读次数:
72
1.collocations模块 用于计算一组单词中,没window_size个单词中n个词同时出现的次数 from nltk.collocations import * sent = 'this this is is a a test test'.split() b = BigramColloca ...
分类:
其他好文 时间:
2020-03-12 09:28:25
阅读次数:
55
1.wsd模块 返回上下文中不明确单词的synset。 nltk.wsd.lesk(['I', 'went', 'to', 'the', 'bank', 'to', 'deposit', 'money', '.'], 'bank') 2.util模块 from nltk.util import * ...
分类:
其他好文 时间:
2020-03-10 01:32:19
阅读次数:
73
文本是一类序列数据,一篇文章可以看作是字符或单词的序列,本节将介绍文本数据的常见预处理步骤,预处理通常包括四个步骤: 读入文本 分词 建立字典,将每个词映射到一个唯一的索引(index) 将文本从词的序列转换为索引的序列,方便输入模型 现有的工具可以很好地进行分词,spaCy和NLTK。 使用示例: ...
分类:
编程语言 时间:
2020-02-14 16:22:18
阅读次数:
81
Stemmers 在英语中,一个单词常常是另一个单词的“变种”,如:happy= happiness,这里happy叫做happiness的词干(stem)。在信息检索系统中,我们常常做的一件事,就是在Term规范化过程中,提取词干(stemming),即除去英文单词分词变换形式的结尾。 本文主要介 ...
分类:
其他好文 时间:
2020-02-02 13:30:24
阅读次数:
108
上篇文章介绍的方法是基于一本书和书籍作者独立开发的工具——Hanlp,最近总结了一些常用工具如Space、NLTK,同时补充了Numpy、Pandas的一些使用示例。 GitHub上的repo是一系列教程,对于每个工具的用法,重要的术语在jupyter notebook 文本部分有说明或者注释。 此 ...
分类:
编程语言 时间:
2019-11-20 12:26:20
阅读次数:
89
安装 参考:https://www.cnblogs.com/zrmw/p/10869325.html 分词: 注意先分句再分词 ,这些对象均来自nltk.tokenize库 1. word_tokenize 导入nltk的tokenize库后,tokens = nltk.word_tokenize( ...
分类:
其他好文 时间:
2019-11-16 21:26:17
阅读次数:
82