码迷,mamicode.com
首页 > 编程语言 > 详细

python基础===jieba模块,Python 中文分词组件

时间:2017-12-28 14:03:16      阅读:187      评论:0      收藏:0      [点我收藏+]

标签:git   add   ==   span   color   _for   int   search   rds   

api参考地址:https://github.com/fxsjy/jieba/blob/master/README.md

安装自行百度

基本用法:

import jieba

#全模式
word = jieba.cut("一人我饮酒醉 醉把佳人成双对 两眼 是独相随 我只求他日能双归", cut_all = True)
print("Full Mode:" + "/ ".join(word))
#>>>Full Mode:一/ 人/ 我/ 饮酒/ 酒醉/ / / 醉/ 把/ 佳人/ 成双/ 对/ / / 两眼/ / / 是/ 独/ 相随/ / / 我/ 只求/ 他/ 日/ 能/ 双/ 归

#精确模式
word = jieba.cut("一人我饮酒醉 醉把佳人成双对 两眼 是独相随 我只求他日能双归", cut_all = False)
print("Default Mode:" + / .join(word))
#>>>Default Mode:一人/ 我/ 饮酒/ 醉/  / 醉/ 把/ 佳人/ 成双/ 对/  / 两眼/  / 是/ 独/ 相随/  / 我/ 只求/ 他/ 日/ 能/ 双归

#默认是精确模式
word = jieba.cut("一人我饮酒醉 醉把佳人成双对 两眼 是独相随 我只求他日能双归")
print(", ".join(word))
#>>>一人, 我, 饮酒, 醉,  , 醉, 把, 佳人, 成双, 对,  , 两眼,  , 是, 独, 相随,  , 我, 只求, 他, 日, 能, 双归

#搜索引擎模式
word = jieba.cut_for_search("败帝王斗苍天夺得了皇位已成仙豪情万丈天地间我续写了另类帝王篇")
print(", " .join(word))
#>>>败, 帝王, 斗, 苍天, 夺得, 了, 皇位, 已, 成仙, 豪情, 万丈, 豪情万丈, 天地, 天地间, 我, 续写, 了, 另类, 帝王, 篇

 

也可以自定义词组

import jieba

word = jieba.cut("一人我饮酒醉 醉把佳人成双对 两眼 是独相随 我只求他日能双归", cut_all = True)
print("Full Mode:" + "/ ".join(word))
#>>>Full Mode:一/ 人/ 我/ 饮酒/ 酒醉/ / / 醉/ 把/ 佳人/ 成双/ 对/ / / 两眼/ / / 是/ 独/ 相随/ / / 我/ 只求/ 他/ 日/ 能/ 双/ 归

#自定义词组
jieba.add_word(一人我)

word = jieba.cut("一人我饮酒醉 醉把佳人成双对 两眼 是独相随 我只求他日能双归", cut_all = True)
print("Full Mode:" + "/ ".join(word))
#>>>Full Mode:一人我/ 饮酒/ 酒醉/ / / 醉/ 把/ 佳人/ 成双/ 对/ / / 两眼/ / / 是/ 独/ 相随/ / / 我/ 只求/ 他/ 日/ 能/ 双/ 归

 

词性标注

import jieba.posseg as pseg

words = pseg.cut("我爱北京天安门")
for word,flag in words:
    print(%s %s % (word, flag))
#>>>我 r
爱 v
北京 ns
天安门 ns

 

python基础===jieba模块,Python 中文分词组件

标签:git   add   ==   span   color   _for   int   search   rds   

原文地址:https://www.cnblogs.com/botoo/p/8135053.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!