特点 支持三种分词模式: 全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义; 精确模式,试图将句子最精确地切开,适合文本分析; 搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。 支持繁体分词 支持自定义词典 MIT 授权协议 支持三种 ...
分类:
其他好文 时间:
2018-09-06 18:13:24
阅读次数:
1490
一.需要的三方库 1.安装词云: pip install wordcloud 2.安装结巴 pip install jieba 3.安装matplotlib pip install matplotlib 二.实现代码 三.实现效果 ...
分类:
其他好文 时间:
2018-09-04 23:35:04
阅读次数:
294
pip install jieba安装jieba模块如果网速比较慢,可以使用豆瓣的Python源:pip install -i https://pypi.douban.com/simple/ jieba一、分词:import jiebaseg_list = jieba.cut("从没见过我这么弱的垃 ...
分类:
其他好文 时间:
2018-08-14 00:22:38
阅读次数:
181
1、利用结巴分词对中文句子进行分词,词性标注(词性标注使用的词性兼容了ICTCLAS汉语词性标准) 参考https://gist.github.com/luw2007/6016931 2、将词的文本和词性打包,视为“词对象”,对应 :class:Word(token,pos) 3、利用REfo模块对 ...
分类:
其他好文 时间:
2018-08-03 19:55:06
阅读次数:
1526
(转https://blog.csdn.net/gzmfxy/article/details/78994396) 中文分词是中文文本处理的一个基础步骤,也是中文人机自然语言交互的基础模块,在进行中文自然语言处理时,通常需要先进行分词。本文详细介绍现在非常流行的且开源的分词器结巴jieba分词器,并使 ...
分类:
编程语言 时间:
2018-07-16 11:23:13
阅读次数:
195
jieba “结巴”中文分词:做最好的 Python 中文分词组件。下载地址:https://github.com/fxsjy/jieba 特点 支持三种分词模式: 精确模式,试图将句子最精确地切开,适合文本分析; 全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义; 搜 ...
分类:
编程语言 时间:
2018-06-30 16:14:47
阅读次数:
319
#!coding: utf-8 import jieba import jieba.posseg as pseg import jieba.analyse as anal from optparse import OptionParser usage = "usage: python %prog [... ...
分类:
其他好文 时间:
2018-06-12 17:10:43
阅读次数:
184
#一直因为这个编码问题没有分出来 ,后来多试验了几次就行了,供大家参考一下import jiebaf1=open('all.txt','r',encoding='utf-8',errors='ignore')f2=open('allutf8.txt','w',encoding='utf-8')lin ...
分类:
编程语言 时间:
2018-05-14 23:06:29
阅读次数:
363
1.选一个自己感兴趣的主题(所有人不能雷同)。 我选择了我们学校的新闻网来爬取数据,主要是通过获取文本然后结巴来分析 2.用python 编写爬虫程序,从网络上爬取相关主题的数据。 打开广州商学院的网址进入到校园的新闻网。然后通过对每一页的来获取信息。 3.对爬了的数据进行文本分析,生成词云。 首先 ...
分类:
其他好文 时间:
2018-04-27 02:40:40
阅读次数:
267