码迷,mamicode.com
首页 >  
搜索关键字:结巴    ( 91个结果
结巴分词详细讲解
特点 支持三种分词模式: 全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义; 精确模式,试图将句子最精确地切开,适合文本分析; 搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。 支持繁体分词 支持自定义词典 MIT 授权协议 支持三种 ...
分类:其他好文   时间:2018-09-06 18:13:24    阅读次数:1490
词云分析《天龙八部》人物出现次数
一.需要的三方库 1.安装词云: pip install wordcloud 2.安装结巴 pip install jieba 3.安装matplotlib pip install matplotlib 二.实现代码 三.实现效果 ...
分类:其他好文   时间:2018-09-04 23:35:04    阅读次数:294
jieba结巴分词
pip install jieba安装jieba模块如果网速比较慢,可以使用豆瓣的Python源:pip install -i https://pypi.douban.com/simple/ jieba一、分词:import jiebaseg_list = jieba.cut("从没见过我这么弱的垃 ...
分类:其他好文   时间:2018-08-14 00:22:38    阅读次数:181
基于REfo的KBQA实现及其实例
1、利用结巴分词对中文句子进行分词,词性标注(词性标注使用的词性兼容了ICTCLAS汉语词性标准) 参考https://gist.github.com/luw2007/6016931 2、将词的文本和词性打包,视为“词对象”,对应 :class:Word(token,pos) 3、利用REfo模块对 ...
分类:其他好文   时间:2018-08-03 19:55:06    阅读次数:1526
自然语言处理之中文分词器-jieba分词器详解及python实战
(转https://blog.csdn.net/gzmfxy/article/details/78994396) 中文分词是中文文本处理的一个基础步骤,也是中文人机自然语言交互的基础模块,在进行中文自然语言处理时,通常需要先进行分词。本文详细介绍现在非常流行的且开源的分词器结巴jieba分词器,并使 ...
分类:编程语言   时间:2018-07-16 11:23:13    阅读次数:195
Python第三方库jieba(结巴-中文分词)入门与进阶(官方文档)
jieba “结巴”中文分词:做最好的 Python 中文分词组件。下载地址:https://github.com/fxsjy/jieba 特点 支持三种分词模式: 精确模式,试图将句子最精确地切开,适合文本分析; 全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义; 搜 ...
分类:编程语言   时间:2018-06-30 16:14:47    阅读次数:319
结巴分词
#!coding: utf-8 import jieba import jieba.posseg as pseg import jieba.analyse as anal from optparse import OptionParser usage = "usage: python %prog [... ...
分类:其他好文   时间:2018-06-12 17:10:43    阅读次数:184
Python 进行 结巴 分词
#一直因为这个编码问题没有分出来 ,后来多试验了几次就行了,供大家参考一下import jiebaf1=open('all.txt','r',encoding='utf-8',errors='ignore')f2=open('allutf8.txt','w',encoding='utf-8')lin ...
分类:编程语言   时间:2018-05-14 23:06:29    阅读次数:363
结巴并行分词
源文件有4列 ...
分类:其他好文   时间:2018-04-28 15:45:21    阅读次数:146
爬虫大作业
1.选一个自己感兴趣的主题(所有人不能雷同)。 我选择了我们学校的新闻网来爬取数据,主要是通过获取文本然后结巴来分析 2.用python 编写爬虫程序,从网络上爬取相关主题的数据。 打开广州商学院的网址进入到校园的新闻网。然后通过对每一页的来获取信息。 3.对爬了的数据进行文本分析,生成词云。 首先 ...
分类:其他好文   时间:2018-04-27 02:40:40    阅读次数:267
91条   上一页 1 2 3 4 5 ... 10 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!