码迷,mamicode.com
首页 >  
搜索关键字:jieba    ( 462个结果
安装numpy,scipy,gensim,jieba
安装numpy,scipy,gensim,jieba
分类:其他好文   时间:2018-08-02 16:57:36    阅读次数:161
分词及词云图设计
1.jieba的基本使用 1 import jieba 2 3 4 s1 = '我喜欢广州小蛮腰' 5 s2 = "我喜欢上海东方明珠" 6 #jieba,cut()#默认精准模式 7 print(10*'-','全模式',10*'-') 8 r1 = jieba.cut(s1,cut_all=Tr ...
分类:其他好文   时间:2018-07-27 14:46:26    阅读次数:209
文本和音频代码的小结
文本 文本预处理 1. 中文分词:分词工具: "jieba" / "snownlp" /...,是否需要去除停用词? 2. word embedding:工具:word2vec/ doc2vec/ TF IDF/ CountVectorizer/ HashVectorizer/ ....作为模型输入 ...
分类:其他好文   时间:2018-07-23 19:57:03    阅读次数:182
ptyhon中文本挖掘精简版
import xlrd import jieba import sys import importlib import os #python内置的包,用于进行文件目录操作,我们将会用到os.listdir函数 import pickle #导入cPickle包并且取一个别名pickle #持久化类 ... ...
分类:其他好文   时间:2018-07-23 15:05:15    阅读次数:238
自然语言处理之jieba分词
在处理英文文本时,由于英文文本天生自带分词效果,可以直接通过词之间的空格来分词(但是有些人名、地名等需要考虑作为一个整体,比如New York)。而对于中文还有其他类似形式的语言,我们需要根据来特殊处理分词。而在中文分词中最好用的方法可以说是jieba分词。接下来我们来介绍下jieba分词的特点、原 ...
分类:编程语言   时间:2018-07-18 20:47:32    阅读次数:1682
自然语言处理之中文分词器-jieba分词器详解及python实战
(转https://blog.csdn.net/gzmfxy/article/details/78994396) 中文分词是中文文本处理的一个基础步骤,也是中文人机自然语言交互的基础模块,在进行中文自然语言处理时,通常需要先进行分词。本文详细介绍现在非常流行的且开源的分词器结巴jieba分词器,并使 ...
分类:编程语言   时间:2018-07-16 11:23:13    阅读次数:195
python实例:三国演义TXT文本词频分析
0x00 前言 找不到要写什么东西了!今天有个潭州大牛讲师 说了个 文本词频分析 我基本上就照抄了一遍 中间遇到一些小小的问题 自我百度 填坑补全了 如下 : 效果演示 0x01 准备环境及介绍 python3.x版本 随意 安装jieba库 pip install jieba jieba三种模式: ...
分类:编程语言   时间:2018-07-14 23:40:28    阅读次数:2103
python 利用jieba库词频统计
1 #统计《三国志》里人物的出现次数 2 3 import jieba 4 text = open('threekingdoms.txt','r',encoding='utf-8').read() 5 excludes = {'将军','却说','二人','不能','如此','荆州','不可','商... ...
分类:编程语言   时间:2018-07-12 23:47:12    阅读次数:497
Python人工智能之路 - 第四篇 : jieba gensim 最好别分家之最简单的相似度实现
简单的问答已经实现了,那么问题也跟着出现了,我不能确定问题一定是"你叫什么名字",也有可能是"你是谁","你叫啥"之类的,这就引出了人工智能中的另一项技术: 自然语言处理(NLP) : 大概意思就是 让计算机明白一句话要表达的意思,NLP就相当于计算机在思考你说的话,让计算机知道"你是谁","你叫啥 ...
分类:编程语言   时间:2018-07-06 19:43:33    阅读次数:517
模块5:jieba库的使用
jiaba分词的原理 jiaba分词依靠中文词库 ——利用一个中文词库,确定汉字之间的关联概率 ——汉字间概率大的组成词组,形成分词结果 ——除了分词,用户还可以添加自定义的词组 jiaba库使用说明 精确模式、全模式、搜索引擎模式 ——精确模式:吧文本精确的切分开i,不存在冗余单词; ——全模式: ...
分类:其他好文   时间:2018-07-05 17:20:14    阅读次数:206
462条   上一页 1 ... 23 24 25 26 27 ... 47 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!