码迷,mamicode.com
首页 >  
搜索关键字:jieba    ( 462个结果
NLP
import jieba msg_list = jieba.cut("我在学习自然语言处理",cut_all=True) #是全模式 print(msg_list) print("全模式:"+"/".join(msg_list)) msg_list = jieba.cut("我在学习自然语言处理", ...
分类:其他好文   时间:2017-08-05 19:42:54    阅读次数:150
Python利用jieba获取中文词汇等
import jieba import os import jieba.analyse data = cleaned_comments # 数据来源于评论数据 seg = jieba.lcut(data) print(seg) # 增加自定义词表库 mydict = os.getcwd()+"/my... ...
分类:编程语言   时间:2017-07-20 00:48:18    阅读次数:202
python制作爬虫爬取京东商品评论教程
作者:蓝鲸 类型:转载 作者:蓝鲸 类型:转载 本文是继前2篇Python爬虫系列文章的后续篇,给大家介绍的是如何使用Python爬取京东商品评论信息的方法,并根据数据绘制成各种统计图表,非常的细致,有需要的小伙伴可以参考下 本文是继前2篇Python爬虫系列文章的后续篇,给大家介绍的是如何使用Py ...
分类:编程语言   时间:2017-07-19 01:11:39    阅读次数:312
jieba分词的词性标注
号称“做最好的Python中文分词组件”的jieba分词是python语言的一个中文分词包。它的特点有: 支持三种分词模式: ? 精确模式,试图将句子最精确地切开,适合文本分析; ? 全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义; ? 搜索引擎模式,在精确模式的基础 ...
分类:其他好文   时间:2017-07-05 22:04:56    阅读次数:2998
数据分析:从歌词了解歌手
结巴(jieba)是国人开发的一款插件,可以对中文进行分词,根据分词粒度的粗细,可以获取一些意想不到的信息 开源地址:http://www.oschina.net/p/jieba/ 下面实例分析,从歌词文本获取歌手的高频词汇,侧面了解歌手表达的主题 输出: 源码分析: 1.os.listdir(r' ...
分类:其他好文   时间:2017-07-03 17:23:08    阅读次数:315
python结巴(jieba)分词
python结巴(jieba)分词 一、特点 1、支持三种分词模式: (1)精确模式:试图将句子最精确的切开,适合文本分析。 (2)全模式:把句子中所有可以成词的词语都扫描出来,速度非常快,但是不能解决歧义。 (3)搜索引擎模式:在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。 ...
分类:编程语言   时间:2017-06-26 18:01:25    阅读次数:255
python jieba分词工具
源码地址:https://github.com/fxsjy/jieba 演示地址:http://jiebademo.ap01.aws.af.cm/ 特点 1,支持三种分词模式: a,精确模式,试图将句子最精确地切开,适合文本分析; b,全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但 ...
分类:编程语言   时间:2017-06-18 23:34:01    阅读次数:327
Python给小说做词云
闲暇时间喜欢看小说,就想着给小说做词云,展示小说的主要内容。开发语言是Python,主要用到的库有wordcloud、jieba、scipy。代码很简单,首先用jieba.cut()函数做分词,生成以空格分割的字符串,然后新建WordCloud类,保存为图片。 结果如下 得到的结果很不理想,一是角色 ...
分类:编程语言   时间:2017-06-18 10:31:55    阅读次数:316
fastext 中文文本分类
1. 输入文本预处理, 通过jieba分词, 空格" "拼接文本串. 每行一个样本, 最后一个单词为双下划线表明label, __label__'xxx' . eg: 2. pip install fasttext, 利用fasttext 的python 包进行分类. 简单高效, 结果也不差. go ...
分类:其他好文   时间:2017-06-17 20:44:27    阅读次数:430
462条   上一页 1 ... 38 39 40 41 42 ... 47 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!