码迷,mamicode.com
首页 >  
搜索关键字:jieba    ( 462个结果
Python第三方库jieba(结巴-中文分词)入门与进阶(官方文档)
jieba “结巴”中文分词:做最好的 Python 中文分词组件。下载地址:https://github.com/fxsjy/jieba 特点 支持三种分词模式: 精确模式,试图将句子最精确地切开,适合文本分析; 全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义; 搜 ...
分类:编程语言   时间:2018-06-30 16:14:47    阅读次数:319
python使用jieba实现中文文档分词和去停用词
分词工具的选择: 现在对于中文分词,分词工具有很多种,比如说:jieba分词、thulac、SnowNLP等。在这篇文档中,笔者使用的jieba分词,并且基于python3环境,选择jieba分词的理由是其比较简单易学,容易上手,并且分词效果还很不错。 分词前的准备: 待分词的中文文档 存放分词之后 ...
分类:编程语言   时间:2018-06-24 19:29:35    阅读次数:390
优秀的中文分词jieba库
jieba库的简介 jieba是优秀的中文分词库,中文文本需要通过分词来获的单个词语。jieba库提供了三种分词模式:精确模式,全模式,搜索引擎模式。精确模式是将文本精确割分,不存在冗余。全模式是将文本中所有可能单词都扫描出来,存在冗余。搜索引擎模式是将经过精确模式分割下的长词在进行分割。 常见ji ...
分类:其他好文   时间:2018-06-23 14:35:22    阅读次数:255
Python3红楼梦人名出现次数统计分析
一、程序说明 本程序流程是读取红楼梦txt文件 使用jieba进行分词 借助Counter读取各人名出现次数并排序 使用matplotlib将结果可视化 这里的统计除了将“熙凤”出现的次数合并到“凤姐”中外并没有其他处理,但应该也大体能反映人物提及次数情况 二、执行结果展示 条形图: 饼状图: 三、 ...
分类:编程语言   时间:2018-06-19 21:24:24    阅读次数:810
中文情感分析 glove+LSTM
最近尝试了一下中文的情感分析。 主要使用了Glove和LSTM。语料数据集采用的是中文酒店评价语料 1、首先是训练Glove,获得词向量(这里是用的300d)。这一步使用的是jieba分词和中文维基。 2、将中文酒店评价语料进行清洗,并分词。分词后转化为词向量的表示形式。 3、使用LSTM网络进行训 ...
分类:其他好文   时间:2018-06-14 18:28:20    阅读次数:889
结巴分词
#!coding: utf-8 import jieba import jieba.posseg as pseg import jieba.analyse as anal from optparse import OptionParser usage = "usage: python %prog [... ...
分类:其他好文   时间:2018-06-12 17:10:43    阅读次数:184
jieba学习
安装jieba pip install jieba/或Spyder中安装,需在anaconda promote中conda install jiebajieba中默认精准模式21、全模式 2、精准 3、使用搜索引擎切分:cut_for_search 词性标注posseg 词典加载:(别忘了编码)ut ...
分类:其他好文   时间:2018-06-09 00:49:25    阅读次数:255
文本词频统计
本例是数组、字典、列表、jieba(第三方库)的综合应用,我们将对三国演义中出现次数前十的任务进行排名并统计出出现的次数。 程序1: #CalThreeKingdomsV1.pyimport jiebatxt = open("threekingdoms.txt", "r", encoding="ut ...
分类:其他好文   时间:2018-06-04 19:11:28    阅读次数:345
python词频统计
1.jieba 库 -中文分词库 words = jieba.lcut(str) >列表,词语 count = {} for word in words: if len(word)==1: continue else: count[word] = count.get(word,0)+1 函数 jie ...
分类:编程语言   时间:2018-06-02 15:47:47    阅读次数:184
02-NLP-01-jieba中文处理
jieba中文处理 和拉丁语系不同,亚洲语言是不用空格分开每个有意义的词的。而当我们进行自然语言处理的时候,大部分情况下,词汇是我们对句子和文章理解的基础,因此需要一个工具去把完整的文本中分解成粒度更细的词。 jieba就是这样一个非常好用的中文工具,是以分词起家的,但是功能比分词要强大很多。 ji ...
分类:其他好文   时间:2018-06-01 13:39:53    阅读次数:227
462条   上一页 1 ... 24 25 26 27 28 ... 47 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!