码迷,mamicode.com
首页 > 其他好文 > 详细

分类和标注词汇

时间:2018-08-24 14:56:34      阅读:236      评论:0      收藏:0      [点我收藏+]

标签:ken   complete   技术   str   eth   rds   语料库   int   词汇   

1.词性标注器 parts-of-speech 或 POS tagger  nltk自带英文标注器

import nltk

text = nltk.word_tokenize("And now for something completely different")#list
print(nltk.pos_tag(text))
print(nltk.help.upenn_tagset(‘RB‘))#标记的文档
text1 = nltk.Text(word.lower() for word in nltk.corpus.brown.words())
print(type(text1))#<class ‘nltk.text.Text‘>
text1.similar(‘bought‘)

 

技术分享图片

2.标注语料库 

3.自动标注

4.N-gram标注

5.基于转换的标注:Brill标注器 

分类和标注词汇

标签:ken   complete   技术   str   eth   rds   语料库   int   词汇   

原文地址:https://www.cnblogs.com/nxf-rabbit75/p/9529508.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!