码迷,mamicode.com
首页 >  
搜索关键字:jieba    ( 462个结果
jieba 分词库(python)
安装jieba:pip install jieba 原理: 基于前缀词典实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图 (DAG) 采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合 对于未登录词,采用了基于汉字成词能力的 HMM 模型,使用了 Viterbi 算法 ...
分类:编程语言   时间:2020-02-02 19:34:51    阅读次数:263
NLP之中文分词cppjieba
jieba简介 jieba库是一个简单实用的中文自然语言处理分词库。 jieba分词属于概率语言模型分词。概率语言模型分词的任务是:在全切分所得的所有结果中求某个切分方案S,使得P(S)最大。 jieba支持三种分词模式: 全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧 ...
分类:其他好文   时间:2020-02-02 19:31:12    阅读次数:108
对采集的游记进行数据分析
使用jieba模块对内容进行处理,在tfidf.py源码中加入一些自定义的停用词,然后将生成的列表词组使用WordCloud展示出来 from jieba import analyse# 引入TF-IDF关键词抽取接口tfidf = analyse.extract_tags import matpl ...
分类:其他好文   时间:2020-01-29 14:17:43    阅读次数:104
jupyter安装库的问题
在Anaconda Prompt的窗口输入: 首先寻找你想下载的模块: anaconda search -t conda jieba 接着会出现很多版本,有windows的,linux.....选择你要安装的版本名称,例如此处安装的版本是:conda-forge/jieba,接着执行下面的命令: a ...
分类:其他好文   时间:2020-01-28 17:21:03    阅读次数:139
jieba库
简要介绍jieba库
分类:其他好文   时间:2020-01-28 13:47:05    阅读次数:184
python jieba 结巴分词报错 AttributeError: 'module' object has no attribute 'cut'
首先这个AttributeError: ‘module’ object has no attribute ‘cut’ 报错的原因是因为有jieba.py这个文件存在,或者jieba这样命名的文件存在,很多新人使用结巴 来分词的时候命名直接为jieba.py,但是其实官方给的教程代码里有import ...
分类:编程语言   时间:2020-01-21 19:51:34    阅读次数:83
用QQ聊天记录生成一个词云
QQ的聊天记录可以通过消息管理器,选中联系人,右键导出为 .txt 格式。由于是中文,需要分词,本文的分词工具采用的是 jieba 分词。 不知道这个“福”能不能扫出来。 假设你已经导出与某人的聊天记录,接下来需要先过滤再分词生成词云。 1. 过滤掉图片和表情,以及聊天记录的时间和qq名称 newt ...
分类:其他好文   时间:2020-01-18 19:16:57    阅读次数:138
结巴分词 java 高性能实现,是 huaban jieba 速度的 2倍
SegmentSegment是基于结巴分词词库实现的更加灵活,高性能的java分词实现。变更日志创作目的分词是做NLP相关工作,非常基础的一项功能。jieba-analysis作为一款非常受欢迎的分词实现,个人实现的opencc4j之前一直使用其作为分词。但是随着对分词的了解,发现结巴分词对于一些配置上不够灵活。有很多功能无法指定关闭,比如HMM对于繁简体转换是无用的,因为繁体词是固定的,不需要预
分类:编程语言   时间:2020-01-15 09:22:12    阅读次数:100
对三国演义人物出现次数统计分析
# 目标 统计三国演义中出现次数前100,并绘制云图 # 准备 分析工具:jieba,pandas,matplotlib,wordcloud 数据文档:三国演义.txt(原著),三国人物.txt(三国人名,大约1000多个),三国字.txt(一些常见人名及字,约800) 这些文档,放到了后面 ## ... ...
分类:其他好文   时间:2020-01-12 13:24:11    阅读次数:95
python第六周:字典,jieba库
字典: 字典类型是“映射”的体现 键值对:键是数据索引的扩展 字典是键值对的集合,键值对之间无序,采用大括号{}和dict()创建,键值对用冒号。表示为 {<键1>:<值1>,<键2>:<值2>, ... , <键n>:<值n>} 在字典变量中,通过键值获取值,如: <值> = <字典变量>[<键> ...
分类:编程语言   时间:2020-01-10 20:16:46    阅读次数:98
462条   上一页 1 ... 8 9 10 11 12 ... 47 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!